Nguồn: Quantum
Phải mất khoảng một tháng để cộng đồng tài chính bắt đầu hoảng loạn về DeepSeek, nhưng khi sự hoảng loạn thực sự xảy ra, giá trị thị trường của Nvidia đã giảm hơn 500 tỷ đô la (khoảng 3,6 nghìn tỷ đô la) RMB), tương đương với toàn bộ một Cổng Sao. Không chỉ riêng Nvidia. Giá trị thị trường của Tesla, Google, Amazon và Microsoft đều đã giảm.
Theo Alexander Wang, CEO của Scale AI, hai mô hình trí tuệ nhân tạo do DeepSeek phát hành có thể so sánh với các mô hình tốt nhất từ các phòng thí nghiệm của Mỹ. Và DeepSeek dường như chỉ hoạt động trong những điều kiện hạn chế, nghĩa là việc đào tạo nó sẽ rẻ hơn nhiều so với các đối thủ ở Mỹ. Người ta nói rằng chi phí đào tạo cuối cùng của một trong những mô hình mới nhất chỉ là 5,6 triệu đô la Mỹ (khoảng 40,6 triệu nhân dân tệ), tương đương với mức lương của các chuyên gia trí tuệ nhân tạo người Mỹ. Năm ngoái, Tổng giám đốc điều hành của Anthropic, Dario Amodei cho biết chi phí đào tạo một người mẫu dao động từ 100 triệu đô la (khoảng 725 triệu nhân dân tệ) đến 1 tỷ đô la (khoảng 7,251 tỷ nhân dân tệ). Theo CEO Sam Altman, GPT-4 của OpenAI có giá hơn 100 triệu đô la (khoảng 725 triệu nhân dân tệ). DeepSeek dường như làm đảo lộn nhận thức của chúng ta về chi phí của AI và có thể có tác động to lớn đến toàn bộ ngành.
Tất cả những điều này xảy ra chỉ trong vài tuần. Vào ngày Giáng sinh, DeepSeek đã phát hành một mô hình suy luận (v3) thu hút được sự chú ý rộng rãi. Mẫu xe thứ hai, R1, đã được ra mắt vào tuần trước và được nhà đầu tư mạo hiểm và cố vấn của Tổng thống Trump, Marc Andreessen, gọi là "một trong những đột phá tuyệt vời và ấn tượng nhất mà tôi từng thấy". David Sacks, chuyên gia về AI và mã hóa của Trump, cho biết tiến trình của mô hình DeepSeek cho thấy "cuộc đua AI sẽ rất khốc liệt". Cả hai mô hình đều là mã nguồn mở một phần, ngoại trừ dữ liệu đào tạo.
Thành công của DeepSeek đặt ra câu hỏi liệu hàng tỷ đô la sức mạnh tính toán có thực sự cần thiết để giành chiến thắng trong cuộc đua trí tuệ nhân tạo hay không. Từ lâu, người ta vẫn cho rằng các công ty công nghệ lớn sẽ thống trị lĩnh vực trí tuệ nhân tạo, đơn giản vì họ có tiền mặt để theo đuổi những tiến bộ. Hiện nay có vẻ như các công ty công nghệ lớn chỉ đang đốt tiền. Việc tính toán chi phí thực tế của các mô hình này khá khó khăn vì, như Wang của Scale AI chỉ ra, DeepSeek có thể không thể trung thực về loại GPU và số lượng GPU mà họ có do lệnh trừng phạt.
Leandro von Vera, người đứng đầu bộ phận nghiên cứu tại Hugging Face, cho biết ngay cả khi những lời chỉ trích là đúng, DeepSeek vẫn không trung thực về số lượng GPU mà họ có (phép tính trên khăn ăn cho thấy họ sử dụng các kỹ thuật tối ưu hóa mà có nghĩa là họ đang nói sự thật) và cộng đồng nguồn mở sẽ không mất nhiều thời gian để tìm ra điều này. Nhóm của ông đã bắt đầu sao chép và công khai công thức R1 vào cuối tuần trước, và khi các nhà nghiên cứu có thể tạo ra phiên bản mô hình của riêng họ, "chúng ta sẽ nhanh chóng biết được liệu những con số đó có chính xác hay không".
DeepSeek là gì?
DeepSeek, công ty khởi nghiệp hai năm tuổi do CEO Liang Wenfeng đứng đầu, là công ty khởi nghiệp trí tuệ nhân tạo hàng đầu Trung Quốc. Công ty này, được tách ra từ một quỹ đầu cơ do các kỹ sư từ Đại học Chiết Giang thành lập, tập trung vào "những cải tiến về kiến trúc và thuật toán có khả năng thay đổi cuộc chơi" để tạo ra trí tuệ nhân tạo tổng quát (AGI) — ít nhất thì đó là những gì Liang Wenfeng nói. Không giống như OpenAI, công ty này cũng tuyên bố có lợi nhuận.
Năm 2021, Liang bắt đầu mua hàng nghìn GPU Nvidia (ngay trước khi Hoa Kỳ áp đặt lệnh trừng phạt đối với chip) và vào năm 2023 đã ra mắt DeepSeek với mục tiêu "khám phá bản chất của trí tuệ nhân tạo nói chung", tức là , khả năng thực hiện các nhiệm vụ tương tự như con người. Thông minh như AI. Giống như CEO của OpenAI Altman và nhiều nhà lãnh đạo khác trong ngành, Liang có rất nhiều phát biểu quan trọng. "Mục tiêu của chúng tôi là trí tuệ nhân tạo nói chung", Liang cho biết trong một cuộc phỏng vấn, "điều đó có nghĩa là chúng tôi cần nghiên cứu các cấu trúc mô hình mới để đạt được khả năng mô hình mạnh hơn với nguồn lực hạn chế".
DeepSeek là Đó là cách thực hiện. Nhóm đã áp dụng một số phương pháp kỹ thuật sáng tạo để cho phép mô hình của mình chạy hiệu quả hơn và tuyên bố rằng chi phí đào tạo cuối cùng của R1 là 5,6 triệu đô la Mỹ (khoảng 406 tỷ nhân dân tệ). Đây là mức giảm 95% so với o1 của OpenAI. Thay vì bắt đầu từ con số 0, DeepSeek đã xây dựng AI của mình bằng cách sử dụng các mô hình nguồn mở hiện có làm điểm khởi đầu — cụ thể, các nhà nghiên cứu đã sử dụng mô hình Llama của Meta làm nền tảng. Mặc dù dữ liệu đào tạo của công ty không được tiết lộ, DeepSeek đã đề cập rằng công ty sử dụng dữ liệu tổng hợp hoặc thông tin được tạo ra một cách nhân tạo (điều này có thể trở nên quan trọng hơn khi các phòng thí nghiệm AI dường như đang gặp phải tình trạng tắc nghẽn dữ liệu).
Nếu không có dữ liệu đào tạo, không rõ mức độ “sao chép” của o1 này đến đâu — DeepSeek có sử dụng o1 để đào tạo R1 không? Khi bài báo đầu tiên được xuất bản vào tháng 12, Altman đã viết rằng "tương đối dễ để sao chép thứ mà bạn biết là hiệu quả", trong khi "làm điều gì đó mới mẻ, mạo hiểm và khó khăn khi bạn không biết liệu nó có hiệu quả hay không thì không hề dễ dàng". Mọi thứ cực kỳ khó khăn.” Vì vậy, lập luận của DeepSeek là nó không tạo ra các mô hình tiên tiến mới; nó chỉ sao chép các mô hình cũ. Nhà đầu tư của OpenAI, Joshua Kushner cũng cho biết rằng DeepSeek được "đào tạo dựa trên các mô hình tiên tiến nhất từ Thung lũng Silicon".
Myles Brundage, cựu nhà nghiên cứu chính sách tại OpenAI, cho biết R1 sử dụng hai kỹ thuật tối ưu hóa chính: đào tạo trước hiệu quả hơn và học tăng cường suy luận chuỗi suy nghĩ. DeepSeek đã tìm ra một cách thông minh hơn để đào tạo AI bằng cách sử dụng GPU rẻ hơn, một phần là nhờ sử dụng một kỹ thuật mới hơn yêu cầu AI phải "suy nghĩ" về các vấn đề từng bước thông qua thử nghiệm và sai sót (học tăng cường), thay vì thực hiện từng cái một. . Bắt chước con người. Sự kết hợp này cho phép mô hình đạt được khả năng cấp độ o1 trong khi sử dụng ít sức mạnh tính toán và tiền bạc hơn.
“DeepSeek v3 và DeepSeek v2 trước đó về cơ bản là các mô hình giống như GPT-4, nhưng có các thủ thuật kỹ thuật thông minh để tận dụng tối đa hiệu suất của GPU”, Brundage cho biết. giải thích.
Cần lưu ý rằng các phòng thí nghiệm khác cũng đã áp dụng các kỹ thuật này (DeepSeek sử dụng kỹ thuật “hỗn hợp các chuyên gia” để chỉ kích hoạt một phần các tính năng của mô hình cho một truy vấn cụ thể. GPT-4 cũng sử dụng phương pháp này) . Phiên bản DeepSeek cải tiến khái niệm này bằng cách tạo ra các danh mục chuyên gia tinh vi hơn và phát triển những cách hiệu quả hơn để truyền đạt thông tin, giúp quá trình đào tạo trở nên hiệu quả hơn. Nhóm DeepSeek cũng đã phát triển một công nghệ có tên là DeepSeekMLA (Tiềm thức đa đầu), giúp giảm đáng kể bộ nhớ cần thiết để chạy các mô hình AI bằng cách nén cách các mô hình lưu trữ và truy xuất thông tin.
Điều khiến thế giới kinh ngạc không chỉ là kiến trúc của những mô hình này, mà còn là thực tế rằng chúng có thể sao chép những thành tựu của OpenAI một cách nhanh chóng chỉ trong vài tháng, thay vì phải mất một năm hoặc lâu hơn nữa giữa những tiến bộ lớn trong trí tuệ nhân tạo . thời gian, Brundage nói thêm.
OpenAI tự định vị mình là công ty có khả năng xây dựng AI tiên tiến và hồ sơ công khai đó đã giúp công ty giành được sự ủng hộ của các nhà đầu tư để xây dựng cơ sở hạ tầng trung tâm dữ liệu AI lớn nhất thế giới. Nhưng tốc độ sao chép nhanh chóng của DeepSeek cho thấy những lợi thế về công nghệ sẽ không kéo dài lâu, ngay cả khi công ty cố gắng giữ bí mật về phương pháp của mình.
“Ở một mức độ nào đó, những công ty đóng cửa này rõ ràng tồn tại nhờ vào suy nghĩ của mọi người rằng họ đang làm điều tuyệt vời nhất, và đó là cách họ duy trì định giá của mình. Có thể họ đang cố gắng huy động thêm tiền hoặc xây dựng Điều đó có hơi cường điệu vì von Villa cho biết "vẫn còn nhiều dự án khác nữa". "Không ai biết liệu họ có phóng đại sức mạnh nội tại của mình hay không, nhưng rõ ràng là có lợi cho họ."
Nói về tiền
Từ năm 2022 OpenAI Từ Với sự ra mắt của ChatGPT, cộng đồng đầu tư đã mơ mộng về trí tuệ nhân tạo. Câu hỏi không phải là liệu chúng ta có đang ở trong bong bóng AI hay không, mà là "Bong bóng thực sự có phải là điều tốt không?" ("Bong bóng đã bị gán cho một hàm ý tiêu cực không công bằng", Deepwater Asset Management đã viết vào năm 2023.) Không rõ các nhà đầu tư có hiểu cách thức hoạt động của AI, nhưng họ hy vọng rằng ít nhất nó sẽ giúp tiết kiệm chi phí trên diện rộng. Một báo cáo do PwC công bố vào tháng 12 năm 2024 cho thấy hai phần ba số nhà đầu tư được khảo sát kỳ vọng AI sẽ làm tăng năng suất và một số lượng tương tự kỳ vọng lợi nhuận sẽ tăng.
Công ty đại chúng hưởng lợi nhiều nhất từ chu kỳ cường điệu này là Nvidia, công ty sản xuất chip tiên tiến được các công ty trí tuệ nhân tạo sử dụng. Mọi người nghĩ rằng trong cơn sốt AI, mua cổ phiếu Nvidia chính là đầu tư vào công ty sản xuất xẻng. Bất kỳ ai thống trị cuộc đua AI đều sẽ cần rất nhiều chip Nvidia để chạy mô hình của mình. Vào ngày 27 tháng 12, giá cổ phiếu của Nvidia đóng cửa ở mức 137,01 đô la (khoảng 993,42 nhân dân tệ) - gần gấp 10 lần giá cổ phiếu của Nvidia vào đầu tháng 1 năm 2023.
Thành công của DeepSeek đã đảo ngược luận điểm đầu tư đã thúc đẩy cổ phiếu Nvidia tăng vọt. Nếu công ty thực sự sử dụng chip hiệu quả hơn (thay vì chỉ mua thêm chip), thì các công ty khác cũng sẽ bắt đầu làm như vậy. Điều đó có thể có nghĩa là thị trường dành cho các loại chip tiên tiến nhất của Nvidia sẽ thu hẹp lại khi các công ty cố gắng cắt giảm chi tiêu.
“Kỳ vọng tăng trưởng của Nvidia thực sự có phần ‘lạc quan’, vì vậy tôi nghĩ đây là phản ứng cần thiết”, Naveen Rao, phó chủ tịch trí tuệ nhân tạo tại Databricks cho biết. "Doanh thu hiện tại của Nvidia khó có thể bị đe dọa; nhưng mức tăng trưởng mạnh mẽ của vài năm qua có thể bị ảnh hưởng."
Nvidia không phải là công ty duy nhất được thúc đẩy bởi triết lý đầu tư này. Năm 2023, “Bảy ông lớn” gồm Nvidia, Meta, Amazon, Tesla, Apple, Microsoft và Alphabet đã vượt trội so với phần còn lại của thị trường, tăng giá trị 75%. Họ tiếp tục đà tăng giá đáng kinh ngạc này vào năm 2024, khi hầu hết các công ty, trừ Microsoft, đều vượt trội hơn S&P 500. Trong số đó, chỉ có Apple và Meta không bị ảnh hưởng bởi sự cố DeepSeek.
Sự nhiệt tình không chỉ giới hạn ở thị trường công cộng. Khi các công ty đầu tư mạo hiểm đổ tiền vào lĩnh vực này, các công ty khởi nghiệp như OpenAI và Anthropic đã đạt được mức định giá đáng kinh ngạc lần lượt là 157 tỷ đô la và 60 tỷ đô la. Lợi nhuận không phải là vấn đề lớn. OpenAI dự kiến sẽ lỗ 5 tỷ đô la (khoảng 36,3 tỷ nhân dân tệ) vào năm 2024, mặc dù doanh thu dự kiến là 3,7 tỷ đô la (khoảng 26,8 tỷ nhân dân tệ).
Thành công của DeepSeek cho thấy việc chỉ đơn thuần đổ nhiều tiền vào giải quyết vấn đề không mang lại hiệu quả như nhiều công ty và nhà đầu tư vẫn nghĩ. Điều này cho thấy các công ty khởi nghiệp nhỏ có thể cạnh tranh tốt hơn với những công ty lớn, thậm chí có thể phá vỡ các công ty dẫn đầu thông qua đổi mới công nghệ. Vì vậy, trong khi đây là tin xấu đối với những gã khổng lồ, nó có thể là tin tốt cho các công ty khởi nghiệp AI nhỏ hơn, đặc biệt là vì mô hình của họ là mã nguồn mở.
Vì vậy, trong khi đây là tin xấu đối với những gã khổng lồ, thì lại có thể là tin tốt đối với các công ty khởi nghiệp AI nhỏ hơn, đặc biệt là vì mô hình của họ là mã nguồn mở. Von Vera của Hugging Face lập luận rằng các mô hình đào tạo rẻ hơn sẽ không thực sự làm giảm yêu cầu về GPU. “Nếu bạn có thể xây dựng một mô hình siêu mạnh mẽ ở quy mô nhỏ hơn, tại sao lại không mở rộng nó lên một lần nữa?” ông hỏi. "Điều bạn làm một cách tự nhiên là tìm ra cách làm cho thứ gì đó rẻ hơn, vậy tại sao không mở rộng quy mô và xây dựng một phiên bản tốt hơn với chi phí cao hơn."
Tối ưu hóa là cần thiết h2>
Nhưng DeepSeek không chỉ làm thay đổi bối cảnh đầu tư mà còn phát đi một tín hiệu rõ ràng. Tiến bộ đạt được của mô hình DeepSeek cho thấy các quốc gia đối thủ có thể dễ dàng bắt kịp công nghệ tiên tiến nhất của Hoa Kỳ, ngay cả khi áp dụng biện pháp kiểm soát xuất khẩu.
Chuyên gia của Rand Corporation Lennart Heim và nghiên cứu sinh tiến sĩ chuyên ngành chính sách công nghiệp của Đại học Oxford Huang Sihao (âm thanh) tin rằng việc kiểm soát xuất khẩu các loại chip tiên tiến nhất sẽ chính thức bắt đầu vào tháng 10 năm 2023, tương đối mới, tác động đầy đủ của nó vẫn chưa cảm nhận được.
DeepSeek cho thấy rằng mặc dù sức mạnh tính toán hạn chế, bạn vẫn có thể đổi mới thông qua tối ưu hóa, trong khi Hoa Kỳ đang đặt cược lớn vào sức mạnh thô - từ quan hệ đối tác trị giá 500 tỷ đô la của Altman với Trump (Điều này được chứng minh bằng dự án "Stargate" , có tổng vốn đầu tư khoảng 362,54 tỷ Nhân dân tệ.
Brundage cho biết: “Các mô hình suy luận như R1 của DeepSeek yêu cầu rất nhiều GPU và DeepSeek nhanh chóng gặp phải khó khăn trong việc cung cấp ứng dụng cho nhiều người dùng hơn”. "Với điều này và thực tế là việc mở rộng quy mô học tăng cường sẽ khiến các mô hình của DeepSeek thậm chí còn mạnh hơn hiện nay, điều quan trọng hơn bao giờ hết là Hoa Kỳ phải thực thi các biện pháp kiểm soát xuất khẩu hiệu quả đối với GPU."
Một số mọi người lo ngại Người ta nghi ngờ rằng DeepSeek có thể đạt được những gì được mô tả. Nhà phân tích Atif Malik của Citi cho biết trong một ghi chú nghiên cứu: "Chúng tôi đặt câu hỏi liệu thành tựu của DeepSeek có đạt được mà không sử dụng GPU tiên tiến để tinh chỉnh và/hoặc xây dựng mô hình ngôn ngữ lớn cơ bản mà mô hình cuối cùng dựa trên hay không". Nhà phân tích Stacey Rasgon của Bernstein cho biết trong ghi chú của riêng mình: "Tuyên bố rằng 'DeepSeek đã sao chép OpenAI với giá 5 triệu đô la' có vẻ hoàn toàn sai sự thật và chúng tôi cho rằng thực sự không đáng để thảo luận thêm nữa".
Đối với những người khác, kiểm soát xuất khẩu có vẻ phản tác dụng: thay vì làm chậm sự phát triển ở các nước đối thủ, chúng buộc họ phải đổi mới. Trong khi Hoa Kỳ hạn chế quyền truy cập vào các chip tiên tiến, các công ty như DeepSeek và Tongyi Qianwen thuộc sở hữu của Alibaba đã tìm ra giải pháp sáng tạo - tối ưu hóa các kỹ thuật đào tạo và tận dụng công nghệ nguồn mở trong khi phát triển chip của riêng họ.
Chắc hẳn một số người sẽ thắc mắc điều này có ý nghĩa gì đối với trí tuệ nhân tạo nói chung, thứ mà các chuyên gia AI thông thái nhất tin rằng chỉ là một lâu đài trên không để thu hút vốn. (Tháng 12 năm ngoái, Altman của OpenAI đã hạ thấp đáng kể tiêu chuẩn cho AI nói chung từ thứ có thể "nâng cao nhân loại" thành thứ "ít quan trọng hơn nhiều so với suy nghĩ của mọi người"). Vì siêu trí tuệ AI rất Đây vẫn chủ yếu là một tưởng tượng, vì vậy rất khó để biết liệu điều đó có khả thi hay không — chưa nói đến việc DeepSeek là một bước tiến hợp lý theo hướng đó. Theo nghĩa đó, logo hình cá voi của công ty hoàn toàn chính xác; đây là một ngành công nghiệp đầy rẫy những Ahab. Không ai có thể dự đoán được kết quả cuối cùng của trí tuệ nhân tạo.
Yêu cầu đối với các nhà lãnh đạo AI tương lai
AI luôn là câu chuyện về sự phát triển quá mức: các trung tâm dữ liệu tiêu thụ năng lượng tương đương với một quốc gia nhỏ, Chi phí đào tạo hàng tỷ đô la đô la, và chỉ có những gã khổng lồ công nghệ mới có thể chơi trò chơi này. Với nhiều người, sự xuất hiện của DeepSeek dường như đã hoàn toàn đảo ngược quan điểm này.
Mặc dù các mô hình như DeepSeek dường như có thể giải quyết được vấn đề AI phá hoại môi trường bằng cách giảm chi phí đào tạo, nhưng thật không may, mọi thứ không đơn giản như vậy. Cả Brundage và von Villa đều đồng ý rằng các nguồn lực hiệu quả hơn có nghĩa là các công ty có thể sử dụng nhiều sức mạnh tính toán hơn để có được các mô hình tốt hơn. Von Vera cũng cho biết điều này có nghĩa là các công ty khởi nghiệp và nhà nghiên cứu nhỏ hơn sẽ dễ dàng tiếp cận các mô hình tốt nhất, do đó nhu cầu về điện toán sẽ chỉ tăng lên.
Việc DeepSeek sử dụng dữ liệu tổng hợp cũng không phải là một cuộc cách mạng, nhưng nó cho thấy các phòng thí nghiệm AI có thể tạo ra thứ gì đó hữu ích mà không cần phá hủy toàn bộ internet. Nhưng thiệt hại đã xảy ra; chỉ có một mạng internet duy nhất và nó đã đào tạo các mô hình sẽ đóng vai trò cơ bản cho thế hệ tiếp theo. Dữ liệu tổng hợp không giải quyết hoàn toàn vấn đề tìm thêm dữ liệu đào tạo, nhưng đây là một cách tiếp cận đầy hứa hẹn.
Điều quan trọng nhất mà DeepSeek làm được là: nó rẻ hơn. Bạn không cần phải am hiểu công nghệ để hiểu rằng các công cụ trí tuệ nhân tạo mạnh mẽ có thể sớm trở nên dễ mua hơn. Các nhà lãnh đạo AI đã hứa rằng tiến bộ sẽ sớm đạt được. Một thay đổi có thể xảy ra là bây giờ ai đó có thể chế tạo một mẫu Frontier trong gara của mình.
Cuộc chạy đua về trí tuệ nhân tạo nói chung phần lớn chỉ là một tưởng tượng. Tuy nhiên, tiền là có thật. DeepSeek đã chứng minh một cách mạnh mẽ rằng chỉ có tiền không thể giúp một công ty dẫn đầu trong lĩnh vực này. Tác động lâu dài có thể định hình lại ngành công nghiệp AI như chúng ta đã biết.