Nguồn: AI Technology Review
Sau cơn bão DeepSeek, những thay đổi nào sẽ xảy ra trong giới khởi nghiệp mô hình lớn của Trung Quốc?
Những ngày gần đây, tác giả cũng đã trao đổi với nhiều người trong ngành và phát hiện hiện tại trong giới người mẫu lớn trong nước có hai thái cực: một là cực kỳ nhiệt tình, hai là cực kỳ thận trọng.
Phe trước được đại diện bởi các nhà sản xuất năng lượng điện toán và nhà cung cấp dịch vụ mô hình tích cực áp dụng hệ sinh thái DeepSeek, cũng như những người hưởng lợi từ nguồn mở ban đầu không thể tham gia vào "cuộc chạy đua vũ trang" mô hình lớn, trong khi phe sau chủ yếu được đại diện bởi các công ty khởi nghiệp mô hình lớn khác của Trung Quốc (thường được gọi là "Sáu chú hổ nhỏ của các mô hình lớn") và các VC đã đầu tư vào các công ty này trong hai năm qua, tạo nên một tình huống "hai mặt".
Người ta hiểu rằng một số nhóm VC đã đầu tư vào các công ty mô hình lớn với định giá hạng nhất trong hai năm qua đã bắt đầu chuẩn bị/đang chấp nhận "cú đánh" nội bộ. Các góc độ chính của câu hỏi không gì khác hơn là những điều sau đây:
"Tại sao DeepSeek có thể đào tạo một mô hình mạnh mẽ như vậy với chi phí thấp như vậy, trong khi các công ty mô hình lớn mà chúng tôi đầu tư đã huy động được hàng tỷ đô la nhưng không thể làm được?"
"Bản chất thành công của DeepSeek lần này là công nghệ của họ đủ sáng tạo và mạnh mẽ. XXX thậm chí còn không có một nhóm công nghệ mô hình lớn cơ bản, tại sao chúng ta phải đầu tư vào họ?"
"XXX cũng có một đội ngũ tài năng rất mạnh, có kinh nghiệm và theo đuổi cơ sở đào tạo các mô hình lớn. Tại sao nó không trở thành DeepSeek? Điều gì hỗ trợ cho mức định giá cao như vậy?"
"DeepSeek Sau khi chúng ra mắt, ai sẽ đầu tư vào sáu công ty mô hình lớn? Công ty nào có hy vọng lên sàn? Nếu không, chúng ta nên mua lại hay thoái vốn tiếp theo? ”
…
“Tại sao nó không trở thành DeepSeek” và “Tại sao chỉ có một DeepSeek ở Trung Quốc” là những câu hỏi mà hầu hết những người thực hành mô hình lớn và VC đã hỏi kể từ Tết Nguyên đán. Hai câu hỏi này gần như bao trùm tất cả những lo lắng hiện tại ở Trung Quốc về đổi mới mô hình quy mô lớn. Chỉ khi thảo luận nghiêm túc về hai vấn đề này, chúng ta mới có thể trả lời một câu hỏi quan trọng hơn: Làm thế nào để trở thành DeepSeek?
Từ góc độ so sánh sự đổi mới AI giữa Trung Quốc và Hoa Kỳ, chúng tôi muốn truyền tải một thông điệp tới ngành công nghiệp: AI của Trung Quốc cần có lòng tự hào dân tộc; và trong bài viết này, chúng tôi hy vọng sẽ kết hợp lịch sử phát triển của các mô hình lớn của Trung Quốc trong bốn năm qua để khám phá sâu hơn:
Liệu Trung Quốc có thiếu những người theo chủ nghĩa duy tâm kỹ thuật như DeepSeek không?
Nếu Trung Quốc không thiếu những đội ngũ kỹ thuật như vậy, liệu họ đã được khai thác đầy đủ và nhận được sự hỗ trợ xã hội có hệ thống tương ứng hay chưa? Nếu không thì lý do là gì?
Là một tài khoản trong ngành đã theo dõi các báo cáo mô hình lớn kể từ khi GPT-3 bùng phát vào năm 2020, bài viết này không có ý định trả lời một câu hỏi vĩ mô và sâu sắc như vậy, mà chỉ trình bày một số sự kiện hoặc ý kiến có thể liên quan đến chủ đề này theo quan điểm của bên thứ ba.
1 Sự dịch chuyển có hệ thống
Trước năm 2023, chỉ có 4 công ty mô hình lớn ở Trung Quốc: Zhipu, Mianbi, Shenyan và Lingxin (sau này được Zhipu mua lại) và tất cả đều đến từ Đại học Thanh Hoa; sau năm 2023, số lượng các công ty khởi nghiệp mô hình lớn tăng lên hơn một chục. Về mặt kỹ thuật, lý do trực tiếp là Llama là mã nguồn mở, nhưng lý do cơ bản nhất là mọi người đều tin vào thời điểm đó:
Mặc dù ngưỡng kỹ thuật của các mô hình lớn cao, nhưng không phải là không thể bắt chước. Đặc biệt dựa trên các mô hình lớn nguồn mở hiện có,khó khăn về mặt kỹ thuật được giảm bớt hơn nữa và lập luận rằng "công nghệ không thể tạo ra rào cản thương mại" đang ngày càng trở nên phổ biến.
Theo "quy tắc" của sự đồng thuận tập thể này, chúng tôi xem xét một số động lực quyền lực của tinh thần khởi nghiệp mô hình lớn của Trung Quốc sau sự bùng nổ của ChatGPT vào năm 2023, và không khó để hiểu được hiện tượng biến dạng hiện tại ở tuyến giữa của tinh thần khởi nghiệp mô hình lớn của Trung Quốc:
Đầu tiên, khi sự kính sợ của toàn bộ thị trường đối với sự đổi mới công nghệ đã suy yếu, sau sự bùng nổ của ChatGPT vào năm 2023, trong số những người tiên phong công nghệ mô hình lớn đầu tiên của Trung Quốc, chỉ có Zhipu trở thành người được vốn cưng chiều và là người đầu tiên vượt qua mốc định giá 20 tỷ nhân dân tệ và gia nhập đội ngũ đầu tiên của các mô hình lớn. (Dark Side of the Moon được thành lập sau năm 2023 nên không có trong danh sách)
Hai công ty khởi nghiệp khác xuất thân từ Phòng thí nghiệm xử lý ngôn ngữ tự nhiên (THUNLP) của Đại học Thanh Hoa đã phải đối mặt với bức tường và lên tiếng một cách sâu sắc, và tiếng nói của họ trên thị trường vốn kém xa so với những thế lực mới xuất hiện sau đó.
Đặc biệt là Mianbi Intelligence (vì Shenyan chọn tập trung vào sản phẩm), là công ty đầu tiên tại Trung Quốc đề xuất chế tạo "phiên bản dân sự của mô hình lớn", công ty có tầm nhìn kỹ thuật và định hướng đổi mới tương tự nhất với DeepSeek, thậm chí còn được thành lập sớm hơn DeepSeek, mãi đến cuối năm 2024, công ty này mới hoàn thành khoản tài trợ 300 triệu nhân dân tệ và định giá của công ty này chưa đến 3,5 tỷ nhân dân tệ, còn kém xa ngưỡng 20 tỷ nhân dân tệ của cấp độ đầu tiên.
Theo trao đổi giữa Leifeng.com AI Technology Review và hơn 50 nhà đầu tư mô hình lớn trong hai năm qua, có một số lý do chính khiến Zhipu và Menbi, cả hai đều có nguồn gốc từ Đại học Thanh Hoa, có cùng lợi thế tiên phong về công nghệ và tài năng kỹ thuật trẻ xuất chúng, lại khác biệt đến vậy:
Đầu tiên, trường học thuật Thanh Hoa theo đuổi mô hình cơ sở chỉ đặt cược vào một công ty vì "họ có sự dè dặt về việc các giáo sư khởi nghiệp kinh doanh riêng"; thứ hai, tầm nhìn của Zhipu dễ hiểu hơn. Khi công ty này nói "so sánh OpenAI" trong đợt tài trợ bên ngoài ban đầu, các VC đã hiểu ngay. Tuy nhiên, vì Menbi nhấn mạnh vào việc tối ưu hóa hiệu quả đào tạo mô hình cơ bản ngay từ đầu nên công ty này từng được coi là một công ty "AI Infra" tương tự như Luchen và Silicon Base vào năm 2023 khi có nhiều tiền nhất.
Mianbi Intelligence không nhận được nhiều tiền vào năm 2023 và không thể đầu tư vào các mô hình cơ sở lớn. Thông qua đào tạo với các mô hình cơ sở lớn như DeepSeek V3, nó có thể phản hồi trực quan về tầm quan trọng của đào tạo hiệu quả. Vào năm 2024, nó chỉ có thể sử dụng các mô hình đầu cuối nhỏ và hiệu ứng xác nhận của mô hình sau đối với "đào tạo hiệu quả" kém hơn nhiều so với DeepSeek V3.
Khi huy động vốn vào năm 2022 và 2023, Mianbi đã sử dụng khẩu hiệu "đào tạo hiệu quả" để huy động vốn, nhưng hầu như luôn bị các nhà đầu tư mạo hiểm từ chối.
Thứ hai, và dựa trên tiền đề rằng không có sự kính sợ công nghệ, sau khi làn sóng mô hình lớn xuất hiện vào năm 2023, VC công nghệ AI của Trung Quốc thực sự không dừng lại để nghiên cứu công nghệ AGI. Thay vào đó, để có thể nhanh chóng bắt tay vào bàn đàm phán, họ đã đầu tư tiền vào "những doanh nhân thành đạt hàng loạt đã giành chiến thắng trong các trận chiến", ngay cả khi các nhóm này không có kinh nghiệm trong nghiên cứu và phát triển mô hình lớn trước đó.
Trong số đó, đại diện tiêu biểu nhất là Light Years Away của Vương Huệ Văn và Bách Xuyên Tình báo của Vương Tiểu Xuyên.
Trong số các công ty người mẫu lớn có giá trị định giá hiện tại hơn 20 tỷ nhân dân tệ, chỉ có Tang Jie của Zhipu, Yang Zhilin của Dark Side of the Moon và những người khác bắt đầu khám phá công nghệ người mẫu lớn vào năm 2020 khi người mẫu lớn vẫn chưa trở nên phổ biến. Hầu hết các đội của Baichuan Intelligence, MiniMax và Step Star đều bắt đầu sau năm 2023.
Ví dụ, Yan Junjie, người sáng lập MiniMax, xuất thân từ lĩnh vực thị giác máy tính và mô hình lớn ban đầu đã giải quyết được trí thông minh ngôn ngữ (đa phương thức là một chương khác). Tuy nhiên, MiniMax lần đầu tiên giành được sự ủng hộ của giới đầu tư bằng cách dựa vào sản phẩm Glow của mình thay vì công nghệ mô hình quy mô lớn cơ bản, vì vậy đây là một khía cạnh khác và những người thân cận với Yan Junjie đều mô tả ông là "rất tiên tiến về công nghệ".
Nhóm R&D của DeepSeek cũng bắt đầu học công nghệ mô hình lớn từ đầu, nghiên cứu các bài báo và làm việc chăm chỉ trên các thí nghiệm, vì vậy không có dấu hiệu nào cho thấy một nhóm chưa từng đào tạo mô hình lớn trước đây không thể bù đắp cho những thiếu sót về mặt kỹ thuật của mình thông qua công việc chăm chỉ sau năm 2023. Tuy nhiên, xét theo sự phát triển của ngành trong hai năm qua, Baichuan Intelligence không thường xuyên nâng cấp mô hình cơ sở của mình và trọng tâm của họ đã chuyển sang các mô hình lớn trong ngành y tế.
Vì không đào tạo các mô hình lớn như video nên chi phí R&D của Baichuan thấp hơn các công ty khác và dòng tiền của công ty cũng dồi dào - nhưng điều này chỉ có lợi cho Baichuan và không đóng góp vào sự phát triển của toàn bộ ngành công nghiệp mô hình lớn.
Giả sử nguồn lực có hạn, nhóm không có năng lực kỹ thuật chiếm một lượng lớn nguồn lực vốn, trong khi nhóm có năng lực kỹ thuật chỉ có thể có được rất ít nguồn lực vốn. Sự không cân xứng có hệ thống giữa tiền bạc và tài năng chắc chắn chỉ tạo ra sự hối tiếc và không có tương lai.
Nếu công nghệ mô hình AGI quy mô lớn thực sự không còn chỗ để phát triển và rào cản kỹ thuật của mỗi công ty dần được san phẳng, thì chiến lược cạnh tranh giành nguồn lực và vốn trong thời đại Internet có thể giành được miếng bánh cuối cùng. Tuy nhiên, những doanh nhân có sự kính trọng đối với công nghệ luôn giữ được đầu óc tỉnh táo và vẫn có thể nhìn thấy những thiếu sót của các thuật toán và kiến trúc cơ bản của các mô hình lớn hiện có trong quá trình đào tạo và lý luận. Họ biết rằng AGI vẫn còn nhiều vấn đề cụ thể và khó giải quyết.
Nói cách khác, khả năng đổi mới liên tục của công nghệ cơ bản vẫn là hào nước của các công ty mô hình lớn và phương pháp cạnh tranh tài nguyên thuần túy trên Internet không áp dụng được cho sự phát triển hiện tại của các mô hình lớn ở Trung Quốc. ——Nhưng những lời này khó có thể được hầu hết các nhà đầu tư mạo hiểm công nghệ Trung Quốc nhận ra, bởi vì các khoản đầu tư vào mô hình lớn vào năm 2023 và 2024 thậm chí sẽ có cách tiếp cận "Thỏa thuận câu lạc bộ"...
Trong hai năm phát triển mô hình lớn vừa qua, một nhà đầu tư mạo hiểm không muốn học công nghệ có thể gây tổn hại nhiều hơn một công ty R&D không muốn học công nghệ.
Bong bóng cuối cùng sẽ kết thúc. Khi thủy triều rút, sẽ thấy rõ ai đang bơi khỏa thân.
2 AGI rất khó có được
Một tác động khác của việc thị trường không mấy quan tâm đến công nghệ là để đáp ứng nhu cầu của thị trường (và tất nhiên là để phá vỡ vòng vây của các nhà sản xuất lớn), trong hai năm qua, các công ty khởi nghiệp theo mô hình quy mô lớn của Trung Quốc đã chuyển trọng tâm từ AGI dài hạn sang mua lại thương mại ngắn hạn và hoàn thiện sản phẩm.
Sự thay đổi chiến lược này cũng xuất phát từ sự đánh giá sai lầm của ngành công nghiệp nói trên, khi cho rằng mô hình lớn không còn khả năng đổi mới nữa. Các doanh nhân quyết tâm theo đuổi AGI phải tính đến cả kinh doanh và công nghệ. Các nhóm hoài nghi về AGI hoặc hoàn toàn bối rối trước tiếng nói của thị trường nên từ bỏ đào tạo trước, chuyển sang các ứng dụng C-end hoặc chỉ cần tinh chỉnh các mô hình lớn của ngành dựa trên các mô hình nguồn mở.
Mất hai năm rưỡi từ khi GPT-3 xuất hiện cho đến khi ra mắt ChatGPT, nhưng thị trường nhìn chung đã thể hiện một "quy luật": các mẫu xe lớn trong nước chỉ mất hai năm từ khi thành lập đến khi thương mại hóa. Mặc dù một số công ty mô hình lớn có thể thực hiện cả hai bước "L2" và "L4" cùng một lúc, nhưng không có công ty nào có thể tinh khiết như DeepSeek trong việc đầu tư vào nhân tài và nguồn lực nghiên cứu cho AGI.
Khi cuộc chiến tài chính vừa mới bắt đầu vào nửa đầu năm 2023, một phân tích trong ngành cho biết: Sau khi "rửa tội" cho thế hệ công ty AI trước đó, sự kiên nhẫn thương mại hóa của các VC Trung Quốc đối với các công ty mô hình lớn đã bị rút ngắn từ 5 đến 8 năm xuống còn trong vòng 3 năm. ——Đây có thể là tình trạng khó xử chung của các công ty người mẫu lớn ở Trung Quốc.
Như chúng ta đã biết: DeepSeek tập trung vào nghiên cứu AGI và dựa vào nguồn quỹ dự trữ ban đầu của Liang Wenfeng và Huanfang Quantitative, không có bất kỳ nguồn tài trợ bên ngoài nào. "Chúng tôi có tiền nên không cần nghe người ngoài nói và muốn làm gì thì làm." - Đây cũng là điều mà nhiều công ty người mẫu lớn ghen tị ở DeepSeek.
Gần đây, Chu Tiểu Hổ, người ban đầu chỉ trích AGI, đã thay đổi giọng điệu và nói rằng vì DeepSeek sẵn sàng đầu tư vào AGI, có thể nói rằng DeepSeek đã thay đổi quan điểm của VC bằng sức mạnh kỹ thuật mạnh mẽ của mình. Tuy nhiên, một thực tế tàn khốc hơn là: Một số lượng lớn các nhóm có khả năng đổi mới mạnh mẽ có thể sụp đổ vào đêm trước của kỷ nguyên vì họ không thể huy động tiền.
“Tư duy thương mại” không chỉ được phản ánh trong cái bóng của một số công ty đầu tư mạo hiểm công nghệ mà còn trong việc lựa chọn nhân tài R&D.
Theo phản hồi từ các công ty săn đầu người, vào năm 2024, công ty tại Trung Quốc chi nhiều nhất cho nhân tài chắc chắn là ByteDance. Sự khác biệt giữa các công ty lớn và các nhóm doanh nhân đã được hình thành, và dòng chảy các tài năng của mô hình lớn từ các nhóm doanh nhân sang các công ty lớn đã trở thành một lựa chọn phổ biến trong năm qua. Ví dụ, theo AI Technology Review, một số tài năng nổi bật trong NLP, đa phương thức và học tăng cường mà DeepSeek đang tìm kiếm để phát triển AGI đã chọn ByteDance thay vì DeepSeek.
Theo một chuyên gia săn đầu người từng làm việc cho DeepSeek trong những ngày đầu, DeepSeek cũng hy vọng tuyển dụng được những nhân tài hàng đầu từ các nhóm ở nước ngoài như Google, Meta và OpenAI, nhưng tiến độ không mấy suôn sẻ nên công ty đành phải bằng lòng với những người giỏi thứ hai và tự đào tạo nhân tài của mình.
Đầu tư vào AGI không chỉ cần tiền mà còn cần cả con người, một nhóm những người theo chủ nghĩa lý tưởng kỹ thuật tuyệt đối và một nền văn hóa tổ chức tuyệt vời. Thành công của DeepSeek có thể không lặp lại, nhưng từ V2, V3 đến R1, R1-Zero, kết quả kỹ thuật của DeepSeek phản ánh lợi thế của công ty về mặt tài trợ, nhân tài/lý tưởng và văn hóa tổ chức.
Trước DeepSeek, "Bắc Cửu Quân và Nam Hoàn Phương" đã nổi tiếng trong lĩnh vực nghiên cứu định lượng tài chính, yêu cầu cao của ngành định lượng đối với nhân tài kỹ thuật cũng rất nổi tiếng. Về cơ bản, quy mô nhóm nhỏ, nhưng năng lực lại siêu mạnh, dựa trên 2 trường đại học hàng đầu và huy chương vàng trong các cuộc thi tin học. Theo AI Technology Review, trong nửa đầu năm 2024, quy mô nhóm của DeepSeek chỉ hơn 40 người và phần lớn là chuyên gia kỹ thuật từ Magic Square Top2 ban đầu.
Tiếp tục phong cách Magic Square ban đầu, ngưỡng tuyển dụng của DeepSeek luôn rất cao. Ví dụ, họ bắt đầu tìm kiếm các chuyên gia kỹ thuật trong lĩnh vực đa phương thức và học tăng cường vào giữa năm 2024, nhưng sau nửa năm tuyển dụng, các vị trí liên quan vẫn còn trống, vì vậy họ thà không có ai còn hơn thuê nhầm người. Sau khi R1 trở nên phổ biến, số lượng hồ sơ nộp tăng lên đáng kể, nhưng theo những người hiểu biết thì "không có nhiều hồ sơ phù hợp".
Văn hóa tổ chức trong DeepSeek cũng rất đơn điệu. Theo AI Technology Review, chỉ có một ông chủ duy nhất ở cả Bắc Kinh và Hàng Châu: Liang Wenfeng, người sáng lập DeepSeek. "Hầu như tất cả những người dưới Liang Wenfeng đều là công nhân."
Ngoài ra, phong cách cá nhân của Liang Wenfeng cũng rất rõ ràng: anh ấy có niềm tin mạnh mẽ vào công nghệ, cực kỳ tò mò và khao khát kiến thức về AGI, và rất chăm chỉ. Một người thân cận với Liang Wenfeng mô tả rằng Liang Wenfeng "nói rất, rất chậm, và anh ấy suy nghĩ rất lâu trước khi diễn đạt từng câu, và biểu cảm của anh ấy rất súc tích. Mặc dù súc tích, nhưng lời nói của anh ấy thường đi thẳng vào vấn đề."
Văn hóa nhóm của DeepSeek rất giống với các công ty như Yushu và Momenta: người phụ trách số một là người đam mê công nghệ, có sự kính sợ và tò mò tự nhiên về công nghệ; đồng thời, phong cách quản lý rõ ràng là tập trung và văn hóa phẳng, vì vậy khi gặp khó khăn trong việc khám phá công nghệ, các nguồn lực có thể được phối hợp từ trên xuống dưới để nhanh chóng đạt được hiệu quả tải lên và tải xuống.
Đồng thời, Yushu và DeepSeek cũng có bộ tiêu chuẩn riêng khi tuyển dụng, rất khác so với các quy trình phỏng vấn rập khuôn trên thị trường. Bạn đọc quan tâm có thể vào tìm hiểu.
DeepSeek Liang Wenfeng đã bắt đầu khám phá cách đào tạo các mô hình mạnh hơn với chi phí thấp hơn từ rất sớm, nhưng vào thời điểm đó, ngành công nghiệp này nói chung vẫn chưa hiểu được điều đó. Tương tự như vậy, Wang Xingxing của Yushu bắt đầu chế tạo chó robot bốn chân khi mọi người vẫn chưa hiểu chó robot là gì. Cao Xudong của Momenta cũng bắt đầu làm việc trên L2 và L4 cùng lúc khi ngành công nghiệp xe tự hành vẫn còn ám ảnh với L4, đi bằng hai chân.
Một đội ngũ khởi nghiệp dám đi ngược lại xu hướng chính thống cần có tinh thần phản kháng mạnh mẽ. Trong những trao đổi giữa AI Technology Review và nhiều nhà đầu tư, loại "nổi loạn" này có thể dễ dàng được xếp vào nhóm "người trẻ", nhưng theo tôi, sự tự tin của sự nổi loạn cuối cùng đến từ nhận thức, phán đoán và sự tự tin về mặt kỹ thuật của một nhóm vào các vấn đề xã hội mà họ muốn giải quyết, tức là: tin tưởng chắc chắn rằng hướng tiến bộ của họ chính là tương lai và sẽ mang lại giá trị to lớn.
3 Hương vị đổi mới
Sau khi V2 gây ra cuộc chiến giá cả, Liang Wenfeng đã bình luận về thành tựu công nghệ này trong một cuộc phỏng vấn với "Undercurrent": "Trong số nhiều cải tiến diễn ra hàng ngày tại Hoa Kỳ, đây là một cải tiến rất bình thường."
Sau V3 và R1, Liang Wenfeng vẫn chưa lên tiếng, nhưng đối với DeepSeek và Liang Wenfeng, trước khi AGI hoàn toàn hiện thực hóa, có lẽ những cải tiến của V3 và R1 chỉ là "những cải tiến rất bình thường". ——Điều này không phủ nhận những đột phá và thành tích của hai điều sau, mà nhằm mục đích nhấn mạnh rằng một đội có tham vọng cao thường sẽ nói rằng điều gì đó đáng giá 100 điểm thì đáng giá 80 điểm, và sẽ luôn theo đuổi thêm điểm.
Sau khi R1 được phát hành, một học giả cấp cao về học tăng cường trong ngành đã nói với AI Technology Review: "Sau khi thay thế mô hình RL+SFT bằng các thuật toán RL thuần túy, tôi nghĩ AGI sẽ trở thành hiện thực chậm nhất là trong ba năm nữa".
Sam Altman cho biết AI sẽ vượt qua con người vào năm 2025, và Musk cũng cho biết AGI có thể trở thành hiện thực chậm nhất là vào năm 2026. ——Trong các dự đoán khác nhau về "thời điểm AGI", mặc dù chúng ta khó có thể dự đoán chính xác thời điểm nó sẽ xảy ra, nhưng chúng ta có thể cảm nhận được rằng một xu hướng lớn như vậy đang diễn ra.
Xu hướng này đã được biết đến và bước đột phá của DeepSeek đã khiến mọi người nhận thức được ít nhất hai sự thật: Thứ nhất, công nghệ AGI vẫn chưa đạt đến đỉnh cao và thứ hai, nhóm công nghệ của Trung Quốc có khả năng tạo ra những cải tiến dẫn đầu thế giới về AGI. So với việc ám ảnh với chiến thắng của DeepSeek, điều quan trọng hơn là làm thế nào để thúc đẩy sự phát triển AGI của Trung Quốc trong tương lai.
Trong nửa tháng qua, cơn bão DeepSeek đã mang đến những thay đổi mới trong nhận thức về sự phát triển AGI trong các công ty lớn, công ty khởi nghiệp, nhà sản xuất năng lượng điện toán, nhà đầu tư, v.v. Một số vấn đề lớn từng bị bỏ qua trong quá khứ đã nhận được sự quan tâm mới, trong khi một số quan điểm cũ đã bị lật đổ. Nhưng sự thay đổi nhất quán là mọi người đều nhận ra rằng ở giai đoạn này, việc hiện thực hóa AGI vẫn đòi hỏi chủ nghĩa lý tưởng.
Thay vì đoán OpenAI hoặc DeepSeek sẽ làm gì tiếp theo, điều quan trọng hơn là suy ra những vấn đề kỹ thuật mà AGI cần giải quyết. Nói cách khác, đổi mới quan trọng hơn bắt chước.
Trên thực tế, theo các cuộc phỏng vấn với AI Technology Review trong năm qua, ngoài DeepSeek, còn có rất nhiều tài năng AI tại Trung Quốc tiếp tục đổi mới và đưa ra các giải pháp mới để giải quyết các vấn đề chưa được giải quyết. Chỉ cần nêu ra một vài ví dụ:
Giáo sư Ma Yi, Trưởng khoa Viện Máy tính và Khoa học Dữ liệu tại Đại học Hồng Kông, đã nhấn mạnh trong hai năm qua rằng các mô hình lớn hiện đang được đào tạo thông qua sức mạnh tính toán cao sở hữu kiến thức chứ không phải trí thông minh. Khác với bản chất hộp đen của học sâu, nhóm của Ma Yi đã cam kết nghiên cứu các thuật toán và khuôn khổ trí tuệ nhân tạo có thể giải thích và kiểm soát được (lý thuyết hộp trắng).
Tại CNCC 2024, Tang Jie của Zhipu đã đề cập đến sự phát triển tiếp theo của công nghệ đa phương thức. Từ năm 2021, nhóm Zhipu đã bắt đầu khám phá các mô hình lớn đa phương thức. Theo nhóm Zhipu, họ đã gặp phải một vấn đề tương tự trong quá trình khám phá ban đầu: khi dữ liệu đa phương thức như văn bản, hình ảnh, giọng nói và video được đưa đồng thời vào một mô hình đào tạo lớn, dữ liệu của một phương thức dường như làm suy yếu kiến thức/trí thông minh của phương thức khác. Mặc dù đa phương thức là một xu hướng, vẫn còn nhiều chỗ cho nghiên cứu về cách tối ưu hóa việc căn chỉnh dữ liệu liên phương thức, thu thập dữ liệu chất lượng cao và tăng cường khả năng suy luận và lý lẽ thông thường của các mô hình đa phương thức.
Theo trao đổi với một số thành viên sáng lập của Nhóm Wall-Facing vào tháng 3 năm 2024, kiến trúc mô hình quy mô lớn chính thống hiện nay thực sự không thể giải quyết tốt một số vấn đề chính, khiến việc tiếp cận AGI trở nên khó khăn: chẳng hạn như học theo kinh nghiệm và trí nhớ không gian. Ví dụ, mọi người có thể trở nên thành thạo hơn bằng cách học một điều nhiều lần, hoặc nhanh chóng làm quen với môi trường mới và chuyển giao hiệu quả kiến thức về một vấn đề khác sang môi trường mới. Những vấn đề này không dễ để diễn đạt bằng máy biến áp hiện tại.
Với sự phát triển của trí tuệ nhân tạo, AGI sẽ được chia thành AGI dựa trên đám mây và AGI dựa trên biên. AGI cạnh biên là mô hình có thể nhận biết môi trường một cách tự nhiên và thực hiện suy luận cấp cao, đồng thời có thể đưa ra các quyết định phức tạp gồm nhiều bước dựa trên suy luận cấp cao. Bộ não và não thể hiện phổ biến đang phát triển theo xu hướng này và vẫn còn nhiều vấn đề cần giải quyết theo hướng này. Để giải quyết những vấn đề này, ngoài nguồn lực, chúng ta còn cần sức mạnh kỹ thuật và tầm nhìn kỹ thuật.
Sau khi phát hành o1, nhiều nghiên cứu trong lĩnh vực mô hình lớn bắt đầu chuyển hướng sang lý luận, nhưng theo tin đồn: nhóm Gemini của Google gần đây đã hoàn thiện thế hệ mô hình cơ bản mới và mở cho một số ít người dùng thử nghiệm.
Mặc dù giá cổ phiếu của Google đã giảm mạnh vào năm 2023 do cú sốc từ OpenAI, nhưng nếu chúng ta xem xét công nghệ mô hình lớn của Google từ tháng 6 năm 2020 đến năm 2022, chúng ta có thể thấy rằng phương pháp tiếp cận mô hình lớn của Google là xây dựng một hệ thống từ dưới lên, từ sức mạnh tính toán và kiến trúc cơ bản đến các thuật toán cấp cao hơn. Đây cũng có thể là lý do quan trọng giải thích tại sao Google Gemini có thể đạt được tiến bộ lớn sau này.
Điều tương tự cũng đúng với đường dẫn của DeepSeek. Theo tiết lộ kỹ thuật của DeepSeek, con đường nghiên cứu các mô hình lớn của công ty cũng là chạy qua cụm Wanka cơ bản và khuôn khổ HAI để xây dựng một hệ thống kỹ thuật liên kết.
Chỉ bằng cách luôn cảnh giác với chính quyền, luôn làm việc ngược lại từ bản chất của vấn đề và đổi mới mạnh mẽ, chúng ta mới có thể dẫn đầu xu hướng. Những người may mắn có thể kiếm được tiền nhanh trong ngắn hạn, nhưng nguồn lực dài hạn nên dành cho những đội giỏi sử dụng nguồn lực một cách hiệu quả nhất.
Tôi hy vọng rằng đến năm 2025, sẽ không còn chỉ có một DeepSeek duy nhất ở Trung Quốc.