Tác giả: Qin Jin; Nguồn: Giá trị chuỗi carbon
Hãy để các ông chủ ở Thung lũng Silicon và giới thượng lưu Phố Wall không bao giờ làm được điều gì Tôi nghĩ đến DeepSeek, một thế lực bí ẩn đến từ phương Đông, thực sự có thể khiến thị trường chứng khoán Hoa Kỳ và khối tài sản khổng lồ của nó đạt được sự sụt giảm và thu hẹp khủng khiếp chỉ sau một đêm. Vào ngày 28 tháng 1, theo dữ liệu liên quan, cổ phiếu chip của Mỹ đã mất 1 nghìn tỷ USD chỉ sau một đêm. Giá trị thị trường của NVIDIA đã bốc hơi 600 tỷ USD chỉ trong một ngày, lập kỷ lục cho thị trường chứng khoán Mỹ. Ngay cả Tổng thống Mỹ Trump cũng không thể không đứng ra và đưa ra một số bình luận. Ông cho rằng sự trỗi dậy đột ngột của ứng dụng trí tuệ nhân tạo DeepSeek của Trung Quốc "sẽ gióng lên hồi chuông cảnh tỉnh đối với các công ty công nghệ Mỹ" và cho rằng việc các công ty Trung Quốc phát triển các mô hình trí tuệ nhân tạo rẻ hơn và hiệu quả hơn là điều tốt.
Trump cho biết ông vẫn kỳ vọng các công ty công nghệ Mỹ sẽ thống trị trí tuệ nhân tạo, nhưng thừa nhận những thách thức do trợ lý AI chi phí thấp DeepSeek đặt ra. DeepSeek đã tăng vọt lên vị trí số 1 trên Apple App Store vào cuối tuần qua.
Câu hỏi tiếp theo là, đây có phải chỉ là sự khởi đầu?
Vào ngày 28 tháng 1, theo báo cáo của "Financial Times" của Anh, một quỹ phòng hộ ít tên tuổi của Trung Quốc đã ném một quả bom vào lĩnh vực trí tuệ nhân tạo. Mô hình AI lớn mà họ phát triển thực sự ngang bằng với OpenAI của Sam Altman, người dẫn đầu thị trường, nhưng với chi phí thấp hơn. OpenAI coi hoạt động của các mô hình của mình là công nghệ độc quyền, trong khi R1 của DeepSeek biến cốt lõi của công nghệ thành nguồn mở, thu hút các nhà phát triển sử dụng và xây dựng dựa trên nó.
Trước khi thị trường chứng khoán Mỹ mở cửa vào thứ Hai, 5 cổ phiếu công nghệ lớn nhất trong lĩnh vực trí tuệ nhân tạo - Nvidia, Alphabet, Amazon, Microsoft và Meta Platforms - đã có tổng giá trị thị trường bốc hơi Gần 750 tỷ USD. Nếu DeepSeek giành chiến thắng mà không sử dụng các chip tiên tiến nhất của mình, điều đó có thể đặc biệt nghiệt ngã đối với Nvidia.
Sau khi thị trường chứng khoán Mỹ mở cửa: cổ phiếu chip Nvidia đã giảm tới 17,5%. Broadcom đã giảm tới 16,5%. TSMC giảm 14,3%. Micron giảm 10,5%. Cánh tay rơi 10,0%. AMD giảm 5,6%. Các cổ phiếu chip kể trên đã mất gần 1 nghìn tỷ USD giá trị thị trường trong một ngày. Trong số đó, Nvidia đã mất hết lợi nhuận kể từ ngày 2 tháng 10, giảm 21% trong hai ngày giao dịch. Giá trị thị trường của Nvidia đã giảm 630 tỷ USD. Nó xảy ra khi công ty niêm yết lớn nhất thế giới mất 1/5 giá trị trong hai ngày vào tuần trước. Giá trị cá nhân của Huang Renxun cũng giảm 100 tỷ USD.
Các nhà đầu tư vào các công ty công nghệ và công ty năng lượng, bao gồm cả nhà sản xuất chip ASML, những người từng hy vọng rằng việc phát triển trung tâm dữ liệu sẽ thúc đẩy tăng trưởng của công ty, giờ đây lại lo lắng về khoản đầu tư của chính họ. bị lãng phí. Visible Alpha ước tính rằng các công ty rất lớn sẽ chi gần 300 tỷ USD cho chi phí vốn trong năm nay. Các nhà phân tích kỳ vọng Meta và Microsoft sẽ báo cáo tổng vốn đầu tư là 94 tỷ USD vào năm 2024 khi họ báo cáo thu nhập vào thứ Tư.
Một số phương tiện truyền thông nước ngoài phân tích cho rằng cuộc cạnh tranh trí tuệ nhân tạo đã bắt đầu. Nguyên nhân khiến giá cổ phiếu của Nvidia sụt giảm rõ ràng bao gồm việcDeepSeek đã trở thành công ty dẫn đầu về đổi mới trí tuệ nhân tạo, điều mà Nvidia gọi là "những tiến bộ trí tuệ nhân tạo đáng chú ý".
Thứ hai, về mặt lý thuyết, những tiến bộ trong trí tuệ nhân tạo là tốt cho Nvidia vì điều đó đồng nghĩa với việc nhu cầu về chip nhiều hơn. Vấn đề là DeepSeek có mặt ở Trung Quốc và Mỹ đang áp đặt lệnh phong tỏa công nghệ chip đối với Trung Quốc. Điều này có nghĩa là Nvidia chỉ có thể bán chip H800 yếu hơn cho DeepSeek với số lượng lớn chứ không thể bán chip H100 có giá hơn 30.000 USD mỗi chip. Ngay cả khi DeepSeek chỉ nắm giữ các chip hiệu suất thấp hơn, Trung Quốc vẫn có thể tạo ra một mô hình AI rẻ hơn và hiệu quả hơn 96%, đồng thời giá cũng giảm hơn 90%.
Đồng thời, các mô hình AI của họ đều miễn phí, trong khi các mô hình AI như ChatGPT tương đối đắt tiền (hơn 200 USD mỗi tháng) và kém hiệu quả hơn. Có vẻ như Trung Quốc đã bắt đầu đổi mới với tốc độ mà trước đây người ta cho là không thể. Cộng đồng công nghệ Mỹ tin rằng vị thế thống trị của họ không thể thay thế được. Các cổ phiếu công nghệ vốn hóa lớn ở Hoa Kỳ hiện đang phải đối mặt với thực tế rằng họ có quyền truy cập miễn phí vào các mô hình AI tốt hơn và chúng ngày càng trở nên tốt hơn. Tại sao phải trả phí bảo hiểm cho một sản phẩm tồi tệ hơn?
Phản ứng tiếp theo có thể là Hoa Kỳ hạn chế DeepSeek hoặc xuất khẩu chip sang Trung Quốc (chúng tôi đã thấy điều này trong vài tháng), nhưng điều này rõ ràng là không khả thi . Nếu Nvidia có thể tìm ra cách tận dụng nhu cầu mới do sự tăng trưởng của DeepSeek tạo ra, thì sự sụt giảm này sẽ được coi là một món quà. Cuối cùng, sự cạnh tranh về phần cứng và phần mềm AI sẽ ngày càng gay gắt, sẽ không có công ty nào được “an toàn” và tốc độ đổi mới sẽ chỉ tăng tốc.
Vậy đâu là nguyên nhân dẫn đến chiến thắng của DeepSeek? Và trí tuệ nhân tạo sẽ diễn ra như thế nào trong tương lai?
Gavin Baker, đối tác quản lý của công ty đầu tư Atreides của Mỹ, đã phân tích DeepSeek và xu hướng phát triển trong tương lai của trí tuệ nhân tạo từ nhiều chiều. Musk ca ngợi đây là bài phân tích hay nhất mà ông từng xem.
Gavin Baker cho rằng điều quan trọng nhất là DeepSeek R1 rẻ hơn nhiều so với Open ai o1 và hiệu quả suy luận cũng cao hơn. không phải từ 600 Được rút ra từ 10.000 USD dữ liệu đào tạo. R1 có chi phí cho mỗi lần sử dụng API thấp hơn 93% so với o1, chạy cục bộ trên máy trạm cao cấp và dường như không đạt bất kỳ giới hạn tốc độ điên rồ nào. Phép toán đơn giản cho thấy trong FP8, mỗi 1b tham số hoạt động cần 1gb RAM, do đó R1 cần 37gb RAM. Xử lý hàng loạt có thể giảm đáng kể chi phí và nhiều phép tính hơn có thể tăng số lượng mã thông báo mỗi giây, do đó, việc suy luận trên đám mây vẫn có lợi thế. Cũng lưu ý rằng thực sự có những động lực địa chính trị đang diễn ra ở đây, điều mà tôi không nghĩ đó là sự trùng hợp ngẫu nhiên vì điều này xảy ra sau Stargate. 500 tỷ USD - chúng tôi thậm chí còn không biết đến bạn.
DeepSeek là ứng dụng được tải xuống số một trong danh mục liên quan trên App Store. Rõ ràng là đi trước ChatGPT; điều mà cả Gemini và Claude đều không thể làm được. 2) Từ góc độ chất lượng, nó có thể so sánh với o1, mặc dù nó tụt hậu so với o3. 3) Một bước đột phá thực sự đã được thực hiện trong thuật toán, giúp hiệu quả đào tạo và suy luận được cải thiện đáng kể. Việc đào tạo FP8, MLA và dự đoán đa nhãn là rất quan trọng. 4) Dễ dàng xác minh rằng quá trình huấn luyện r1 chỉ tiêu tốn 6 triệu USD. Mặc dù điều này là đúng nhưng nó cũng gây hiểu lầm sâu sắc. 5) Ngay cả kiến trúc phần cứng của họ cũng mới, tôi cần lưu ý rằng họ sử dụng PCI-Express để mở rộng quy mô.
Sự khác biệt tinh tế: 1) Theo tài liệu kỹ thuật, 6 triệu đô la không bao gồm "chi phí liên quan đến nghiên cứu trước đây và các thí nghiệm cắt bỏ về kiến trúc, thuật toán và dữ liệu ." Điều này có nghĩa là nếu một phòng thí nghiệm đã chi hàng trăm triệu đô la cho nghiên cứu ban đầu và có quyền truy cập vào các cụm lớn hơn thì có thể đào tạo một mô hình chất lượng R1 với chi phí vận hành là 6 triệu đô la. Deepseek rõ ràng có hơn 2.048 chiếc H800; một trong những bài báo trước đây của họ đã đề cập đến một cụm gồm 10.000 chiếc A100. Sẽ không thể có một đội ngũ thông minh ngang bằng có thể xây dựng một cụm 2.000 GPU chỉ với 6 triệu USD và huấn luyện r1 từ đầu. Khoảng 20% doanh thu của Nvidia đến từ Singapore. Bất chấp những nỗ lực hết mình của Nvidia, 20% GPU của công ty có thể không có ở Singapore. 2) Họ đã thực hiện rất nhiều công việc tinh chỉnh - nghĩa là họ khó có thể huấn luyện mô hình này nếu không có quyền truy cập không hạn chế vào GPT-4o và O1. Như @altcap đã chỉ ra cho tôi ngày hôm qua, thật là buồn cười khi hạn chế quyền truy cập vào các GPU hàng đầu trong khi không làm gì để chống lại khả năng của Trung Quốc trong việc cải tiến các mẫu hàng đầu của Hoa Kỳ - nó rõ ràng đánh bại mục đích hạn chế xuất khẩu. Tại sao phải mua một con bò khi bạn có thể nhận được sữa miễn phí?
Kết luận: 1) Giảm chi phí đào tạo sẽ làm tăng lợi tức đầu tư vào trí tuệ nhân tạo. 2) Trong ngắn hạn, điều này không có ý nghĩa tích cực đối với vốn đầu tư đào tạo hoặc chủ đề "quyền lực". 3) Đối với những người chiến thắng hiện tại về "cơ sở hạ tầng AI" trong công nghệ, công nghiệp, tiện ích và năng lượng, rủi ro lớn nhất là phiên bản rút gọn của r1 có thể chạy nguyên bản trên máy trạm cao cấp (ai đó đã đề cập đến Mac Studio Chuyên nghiệp). Điều này có nghĩa là các mẫu tương tự sẽ chạy trên siêu điện thoại trong khoảng hai năm nữa. Nếu lý do chuyển sang bên lề vì nó "đủ tốt" thì chúng ta đang sống trong một thế giới rất khác với những người chiến thắng hoàn toàn khác nhau - cụ thể là chu kỳ nâng cấp PC và điện thoại thông minh lớn nhất mà chúng ta từng thấy. Máy tính đã dao động giữa tập trung hóa và phân quyền trong một thời gian dài. 4) ASI đang ở rất gần và không ai thực sự biết phần thưởng tài chính của siêu trí tuệ sẽ là gì. Nếu một mô hình suy luận trị giá 100 tỷ USD được đào tạo trên hơn 100.000 Blackwells (o5, Gemini 3, Grok 4) có thể chữa khỏi bệnh ung thư và phát minh ra động cơ dọc, thì lợi nhuận trên ASI sẽ rất cao và chi phí đào tạo cũng như mức tiêu thụ điện năng sẽ tăng trưởng ổn định ; Tôi hy vọng lợi nhuận của ASI sẽ cao - điều đó thật tuyệt vời. 5) Đây thực sự là một điều tốt cho các công ty sử dụng AI: phần mềm, internet, v.v. 6) Từ góc độ kinh tế, điều này làm tăng đáng kể giá trị phân phối và dữ liệu duy nhất - YouTube, Facebook, Instagram và X. 7) Các phòng thí nghiệm của Hoa Kỳ có thể ngừng phát hành các mẫu hàng đầu của họ để ngăn chặn quá trình sàng lọc thiết yếu trong R1, mặc dù họ có thể đã bị lộ hoàn toàn về vấn đề này. tức là r1 có thể đủ để huấn luyện r2, v.v.
Grok-3 sắp ra mắt, điều này có thể tác động đáng kể đến các kết luận trên. Đây được cho là cuộc thử nghiệm lớn đầu tiên về luật mở rộng quy mô trước đào tạo kể từ GPT-4. Giống như phải mất hàng tuần để biến v3 thành r1 thông qua học tăng cường, việc học tăng cường cần thiết để cải thiện khả năng suy luận của Grok-3 cũng có thể mất vài tuần. Mô hình cơ sở càng tốt thì mô hình suy luận càng tốt vì ba quy luật chia tỷ lệ có tính nhân - đào tạo trước, học tăng cường trong quá trình đào tạo sau và tính toán thời gian kiểm tra trong quá trình suy luận (một chức năng của học tăng cường). Grok-3 đã chứng minh rằng nó có thể hoàn thành các nhiệm vụ vượt quá o1 - xem phần trình diễn Tesseract - vượt xa bao nhiêu sẽ rất quan trọng. Để diễn giải một con orc giấu tên trong The Two Towers, có lẽ không lâu nữa chúng ta có thể ăn thịt trở lại. Thời gian sẽ nói lên tất cả, "Sự thật mạnh hơn lời nói, tôi sẽ thay đổi quyết định."
Tuy nhiên, nhà phân tích đầu tư chứng khoán Mỹ Xu Laomao tin rằng đợt bán tháo do DeepSeek gây ra vào thứ Hai Đó là một phản ứng thái quá. Câu chuyện tăng trưởng dài hạn của AI vẫn còn nguyên vẹn và được cho là mạnh mẽ hơn bao giờ hết. Có một nghịch lý Jevons trong kinh tế học, đó là những cải thiện về hiệu quả sử dụng tài nguyên có xu hướng làm tăng (chứ không phải giảm) tổng mức tiêu thụ tài nguyên đó, bởi vì hiệu quả cao hơn sẽ giảm chi phí sử dụng tài nguyên, từ đó dẫn đến tăng trong nhu cầu về tài nguyên.
Điều này xảy ra với việc sử dụng than trong động cơ hơi nước. Những cải tiến về hiệu suất của động cơ hơi nước đã làm giảm mức tiêu thụ than trên mỗi đơn vị sản phẩm. Tuy nhiên, nó cũng làm cho công nghệ đốt than trở nên hấp dẫn hơn về mặt kinh tế, dẫn đến việc áp dụng rộng rãi hơn và cuối cùng làm tăng mức tiêu thụ than nói chung. Điều này xảy ra trên Internet, khi máy tính trở nên nhỏ hơn và rẻ hơn, việc truy cập Internet về cơ bản là miễn phí, mọi người đều có máy tính và mọi người đều có thể truy cập Internet suốt ngày đêm.
Điều này cũng đúng với AI hiện nay. Khi chi phí đào tạo và suy luận mô hình AI đã giảm đáng kể, ngày càng có nhiều công ty và cá nhân xây dựng mô hình AI của riêng mình và AI đã trở nên phổ biến trên toàn thế giới và thâm nhập vào mọi khía cạnh của xã hội.