Vào thứ Tư, Tổng giám đốc điều hành của Anthropic, Dario Amodei đã xuất bản một bài viết dài về việc liệu thành công của DeepSeek có đe dọa Hoa Kỳ hay không và điều đó có ý nghĩa gì đối với Hoa Kỳ. Một phân tích về lập luận rằng kiểm soát xuất khẩu đối với Chip AI không hoạt động.
Sau đây là bản dịch của văn bản gốc. Chữ "I" trong văn bản ám chỉ Dario Amodei.

Nguồn ảnh: Dario Amodei
Vài tuần trước, tôi đã ủng hộ việc Hoa Kỳ tăng cường kiểm soát xuất khẩu chip sang Trung Quốc. Kể từ đó, công ty AI Trung Quốc DeepSeek đã tiếp cận được hiệu suất của các mô hình AI tiên tiến của Mỹ ở ít nhất một số khía cạnh, nhưng với chi phí thấp hơn.
Ở đây, tôi sẽ không tập trung vào việc liệu DeepSeek có gây ra mối đe dọa cho các công ty AI của Hoa Kỳ như Anthropic hay không (mặc dù tôi nghĩ rằng nhiều suy đoán về tác động của họ đối với Lãnh đạo AI của Hoa Kỳ là Những tuyên bố về mối đe dọa bị phóng đại quá mức)1. Thay vào đó, tôi sẽ tập trung vào việc liệu việc phát hành DeepSeek có làm suy yếu cơ sở lý luận của chính sách kiểm soát xuất khẩu chip hay không. Tôi không nghĩ vậy. Trên thực tế, tôi nghĩ họ làm cho chính sách kiểm soát xuất khẩu thậm chí còn quan trọng hơn so với một tuần trước.2
Kiểm soát xuất khẩu có mục đích quan trọng: giúp Hoa Kỳ duy trì vị trí tiên phong trong phát triển trí tuệ nhân tạo. Nói rõ hơn, đây không phải là cách để tránh sự cạnh tranh giữa Hoa Kỳ và Trung Quốc. Cuối cùng, nếu chúng ta muốn giành chiến thắng, các công ty AI của Mỹ phải có mô hình tốt hơn Trung Quốc. Chúng ta không nên nhượng lại lợi thế công nghệ cho Trung Quốc nếu không cần thiết.
Ba động lực chính thúc đẩy sự phát triển của trí tuệ nhân tạo
Trước khi đưa ra lập luận về chính sách, tôi sẽ mô tả ba động lực cơ bản có ý nghĩa quan trọng trong việc hiểu các hệ thống AI: ;">Luật mở rộng quy mô. Một đặc tính của AI (mà tôi và người đồng sáng lập của tôi lần đầu tiên ghi nhận khi làm việc tại OpenAI) là, nếu mọi thứ khác đều như nhau, có thể mở rộng quy mô của hệ thống AI. Kết quả trên một loạt các nhiệm vụ nhận thức có thể được cải thiện trên toàn diện. Ví dụ, một mô hình trị giá 1 triệu đô la có thể giải quyết 20% các tác vụ mã hóa quan trọng, một mô hình trị giá 10 triệu đô la có thể giải quyết 40%, một mô hình trị giá 100 triệu đô la có thể giải quyết 60%, v.v. Những khác biệt này có xu hướng gây ra hậu quả rất lớn trong thực tế—một yếu tố khác là 10 có thể tương ứng với sự khác biệt giữa trình độ kỹ năng của bậc đại học và tiến sĩ—do đó, các công ty đang đầu tư mạnh vào việc đào tạo những mô hình này.
Thay đổi đường cong. Lĩnh vực này liên tục tràn ngập những ý tưởng, cả lớn lẫn nhỏ, để làm cho mọi thứ hiệu quả hơn: đây có thể là cải tiến trong kiến trúc mô hình (điều chỉnh kiến trúc Transformer cơ bản được sử dụng bởi tất cả các mô hình hiện nay) hoặc chỉ là Phương pháp chạy mô hình hiệu quả hơn trên phần cứng cơ bản. Hiệu ứng tương tự cũng xảy ra với các thế hệ phần cứng mới hơn. Điều này thường làm thay đổi đường cong: nếu đổi mới là "hệ số nhân tính toán" (CM) 2x, thì nó có thể giúp bạn có được 40% công việc mã hóa với giá 5 triệu đô la thay vì 10 triệu đô la; hoặc 40% mã hóa với giá 50 triệu đô la thay vì 10 triệu đô la. M. 100 triệu đô la cho 60% nhiệm vụ mã hóa, v.v.
Mọi công ty AI hàng đầu thường xuyên phát hiện ra nhiều CM như vậy: thường là nhỏ (~1,2x), đôi khi là trung bình (~2x), rất lớn (~10x) thỉnh thoảng được tìm thấy. Bởi vì giá trị của việc có các hệ thống thông minh hơn rất cao, nên sự thay đổi trong đường cong này thường khiến các công ty phải chi nhiều hơn cho các mô hình đào tạo, chứ không phải ít hơn: lợi nhuận về hiệu quả chi phí cuối cùng sẽ hoàn toàn dành cho việc đào tạo các mô hình thông minh hơn, chỉ bị giới hạn bởi các hạn chế về nguồn lực tài chính của công ty. . Mọi người thường bị thu hút bởi ý tưởng rằng ban đầu nó sẽ đắt và sau đó sẽ rẻ hơn — như thể AI là một thứ duy nhất có chất lượng không đổi, và khi nó rẻ hơn, chúng ta sẽ chỉ sử dụng ít chip hơn để tạo ra nó. Hãy đào tạo nó.
Nhưng điều quan trọng là đường cong tỷ lệ: khi nó di chuyển, chúng ta chỉ đang đi qua nó nhanh hơn vì các giá trị ở cuối đường cong rất cao . Vào năm 2020, nhóm của tôi đã công bố một bài báo cho thấy đường cong thay đổi do những tiến bộ về thuật toán là khoảng 1,68 lần mỗi năm. Tốc độ này có lẽ đã tăng tốc đáng kể kể từ đó; nó cũng chưa tính đến hiệu quả và phần cứng.
Tôi đoán hiện nay con số này có lẽ là khoảng 4 lần một năm. Một ước tính khác ở đây. Việc thay đổi đường cong đào tạo cũng làm thay đổi đường cong suy luận, do đó qua nhiều năm, giá đã giảm đáng kể trong khi chất lượng mô hình vẫn giữ nguyên. Ví dụ, Claude 3.5 Sonnet, được phát hành 15 tháng sau GPT-4 gốc, hoạt động tốt hơn GPT-4 ở hầu hết các điểm chuẩn trong khi có giá API thấp hơn khoảng 10 lần.
Thay đổi mô hình. Thỉnh thoảng, có một số thay đổi trong nội dung cơ bản đang được mở rộng hoặc một loại phần mở rộng mới được thêm vào trong quá trình đào tạo. Từ năm 2020 đến năm 2023, mục tiêu mở rộng chính sẽ là các mô hình được đào tạo trước: đào tạo các mô hình trên ngày càng nhiều văn bản trên internet và thực hiện một lượng nhỏ đào tạo bổ sung trên đó. Vào năm 2024, ý tưởng sử dụng học tăng cường (RL) để đào tạo các mô hình tạo ra chuỗi suy nghĩ đã trở thành trọng tâm mới để mở rộng.
Anthropic, DeepSeek và nhiều công ty khác (có lẽ đáng chú ý nhất là OpenAI, công ty đã phát hành bản xem trước mô hình o1 của mình vào tháng 9) đã phát hiện ra rằng loại hình đào tạo này có tác dụng rất lớn cải thiện Hiệu suất đối với một số nhiệm vụ được lựa chọn, có thể đo lường khách quan (ví dụ: toán học, cuộc thi lập trình) và lý luận tương tự như các nhiệm vụ đó.
Mô hình mới này bao gồm việc bắt đầu với một kiểu mô hình được đào tạo trước chung và sau đó bổ sung các kỹ năng lý luận bằng RL ở giai đoạn thứ hai. Điều quan trọng là, vì loại RL này còn mới nên chúng ta vẫn đang ở giai đoạn đầu của quá trình mở rộng quy mô: số tiền chi cho giai đoạn RL thứ hai là nhỏ đối với tất cả những người tham gia. Chỉ cần chi 1 triệu đô la thay vì 100.000 đô la là đủ để thu được lợi ích khổng lồ.
Các công ty hiện đang nhanh chóng mở rộng Giai đoạn II lên hàng trăm triệu hoặc thậm chí hàng tỷ đô la, nhưng điều quan trọng là phải hiểu rằng chúng ta đang ở một "điểm giao nhau" Độc nhất ” nơi có một mô hình mới mạnh mẽ đang trong giai đoạn đầu của quá trình mở rộng quy mô, do đó có thể đạt được lợi nhuận lớn một cách nhanh chóng.
Mô hình của DeepSeek
DeepSeek-V3 thực sự là một cải tiến đáng chú ý, đáng lẽ phải thu hút được sự chú ý của mọi người từ một tháng trước (và chúng tôi đã làm được). Với tư cách là một mô hình được đào tạo trước, nó dường như thực hiện gần 4 mô hình hiện đại của Hoa Kỳ trên một số nhiệm vụ quan trọng trong khi lại rẻ hơn đáng kể để đào tạo (mặc dù chúng tôi thấy Claude 3.5 Sonnet thực hiện đặc biệt tốt trên một số nhiệm vụ quan trọng khác) . Nhóm DeepSeek đã đạt được điều này thông qua một số cải tiến thực sự ấn tượng, tập trung chủ yếu vào hiệu quả kỹ thuật. Có những cải tiến đặc biệt mang tính đột phá trong việc quản lý cái gọi là "lưu trữ đệm khóa-giá trị" và trong việc áp dụng phương pháp tiếp cận được gọi là "trộn chuyên gia" xa hơn trước.
Tuy nhiên, điều quan trọng là phải xem xét cẩn thận:
- < p style="text-align: left;">DeepSeek sẽ không "hoàn thành với giá 6 triệu đô la những gì các công ty AI của Hoa Kỳ phải chi hàng tỷ đô la để hoàn thành". Tôi chỉ có thể nói thay cho Anthropic, nhưng Claude 3.5 Sonnet là một mô hình cỡ trung tốn hàng chục triệu đô la để đào tạo (tôi sẽ không đưa ra con số chính xác). Ngoài ra, Sonnet 3.5 được đào tạo theo cách không liên quan đến các mô hình lớn hơn hoặc đắt tiền hơn (trái ngược với một số tin đồn). Quá trình đào tạo của Sonnet được thực hiện cách đây 9-12 tháng, mô hình của DeepSeek được thực hiện vào tháng 11/tháng 12 và Sonnet vẫn đang dẫn đầu trong nhiều đánh giá nội bộ và bên ngoài. Do đó, tôi nghĩ có thể nói một cách công bằng rằng "DeepSeek đang sản xuất các mô hình có hiệu suất gần bằng các mô hình của Hoa Kỳ từ 7-10 tháng trước, với chi phí thấp hơn nhiều (nhưng không nhiều như mọi người nghĩ)" >
Nếu xu hướng lịch sử của đường cong chi phí là khoảng 4 lần mỗi năm, điều này có nghĩa là mô hình hiện tại tốt hơn 3,5 Sonnet/GPT- Rẻ hơn 3-4 lần. Vì DeepSeek-V3 tệ hơn mô hình biên giới Hoa Kỳ - giả sử nó tệ hơn khoảng 2 lần trên đường cong mở rộng, mà tôi nghĩ là khá hào phóng đối với DeepSeek-V3 - điều này có nghĩa là nếu DeepSeek-V3 đắt hơn để đào tạo so với Một năm trước khi nó được phát triển, mô hình hiện tại của Hoa Kỳ thấp hơn khoảng 8 lần, điều này hoàn toàn bình thường và hoàn toàn "phù hợp với xu hướng". Tôi sẽ không đưa ra con số cụ thể, nhưng rõ ràng từ những điểm trước đó rằng ngay cả khi bạn tính chi phí đào tạo của DeepSeek theo giá trị thực tế, thì chúng cũng chỉ ở mức khiêm tốn. Phù hợp với xu hướng, hoặc thậm chí có thể không phù hợp với xu hướng . Ví dụ, giá trị này nhỏ hơn chênh lệch giá suy luận ban đầu giữa GPT-4 và Claude 3.5 Sonnet (10 lần) và 3.5 Sonnet là mô hình tốt hơn nhiều so với GPT-4. Tất cả những điều này muốn nói rằng DeepSeek-V3 không phải là một bước đột phá độc nhất hay là thứ gì đó thay đổi cơ bản nền kinh tế của LLM; mà chỉ là một điểm dự kiến trên đường cong giảm chi phí đang diễn ra.
Điểm khác biệt lần này là công ty đầu tiên chứng minh được mức giảm chi phí dự kiến là một công ty Trung Quốc. Điều này chưa từng xảy ra trước đây và có ý nghĩa về mặt địa chính trị. Tuy nhiên, các công ty Mỹ sẽ sớm làm theo - và họ sẽ không làm vậy bằng cách sao chép DeepSeek, mà vì họ nhận ra xu hướng chung là giảm chi phí.
DeepSeek và các công ty AI của Mỹ có nhiều tiền và chip hơn so với khi họ đào tạo các mô hình chính của mình. Các chip bổ sung được sử dụng trong R&D để phát triển các ý tưởng đằng sau các mô hình và đôi khi để đào tạo các mô hình lớn chưa sẵn sàng (hoặc cần nhiều lần thử để có kết quả chính xác). Người ta đã báo cáo—chúng tôi không chắc chắn rằng điều đó có đúng không—rằng DeepSeek thực sự có 50.000 chip thế hệ Hopper6, tôi đoán là gấp khoảng 2-3 lần so với các công ty AI lớn của Hoa Kỳ (ví dụ: nhiều hơn so với “Colossus” của xAI. ;” các cụm nhỏ hơn 2-3 lần)7. Chi phí cho 50.000 con chip Hopper này là khoảng 1 tỷ đô la. Do đó, tổng chi phí của DeepSeek với tư cách là một công ty (khác với chi phí đào tạo từng mô hình riêng lẻ) không khác nhiều so với các phòng thí nghiệm AI của Hoa Kỳ.
Điều đáng chú ý là phân tích “đường cong tỷ lệ” có phần đơn giản hóa quá mức, vì có một số khác biệt giữa các mô hình, mỗi mô hình có Ưu điểm và nhược điểm riêng. Nhược điểm: Số đường cong tỷ lệ là giá trị trung bình gần đúng và bỏ qua nhiều chi tiết. Tôi chỉ có thể nói về mô hình của Anthropic, nhưng như tôi đã gợi ý ở trên, Claude rất giỏi về lập trình và có phong cách tương tác với mọi người rất khéo léo (nhiều người sử dụng phong cách này để xin lời khuyên hoặc hỗ trợ cá nhân). Về những nhiệm vụ này và các nhiệm vụ khác, DeepSeek không thể so sánh được. Những yếu tố này không xuất hiện trong các con số tỷ lệ.
R1 là mẫu xe được công bố vào tuần trước và đã thu hút được rất nhiều sự chú ý của công chúng (bao gồm cả việc giảm (khoảng 17% giá cổ phiếu của Nvidia) nhưng xét về góc độ cải tiến hoặc kỹ thuật thì nó không thú vị bằng V3. Nó bổ sung giai đoạn đào tạo thứ hai — học tăng cường, như đã mô tả ở điểm 3 của phần trước — và về cơ bản là sao chép những gì OpenAI đã làm với o1 (chúng có vẻ có quy mô tương tự và có kết quả tương tự) 8.
Tuy nhiên, vì chúng ta đang ở giai đoạn đầu của quá trình mở rộng quy mô nên nhiều công ty có thể tạo ra loại mô hình này miễn là họ bắt đầu với các mô hình được đào tạo trước mạnh mẽ. Việc sản xuất R1 trong trường hợp của V3 có lẽ rất rẻ. Do đó, chúng ta đang ở một "giao điểm" thú vị, tại đó hiện tại có một số công ty có thể tạo ra các mô hình suy luận tốt. Khi mọi người tiến xa hơn trên đường cong mở rộng của các mô hình này, điều này sẽ nhanh chóng không còn đúng nữa.
Kiểm soát xuất
Những điều trên chỉ là những điều chính Tôi quan tâm đến. Lời nói đầu của chủ đề: Kiểm soát xuất khẩu chip sang Trung Quốc. Theo quan điểm của những sự kiện trên, tôi nghĩ tình hình như sau:
Có một xu hướng các công ty đang đào tạo mạnh mẽ Ngày càng có nhiều tiền được đầu tư vào các mô hình AI, mặc dù đường cong thay đổi theo định kỳ và chi phí đào tạo một mức độ thông minh của mô hình giảm nhanh chóng. Chỉ là giá trị kinh tế của việc đào tạo các mô hình ngày càng thông minh hơn là rất lớn đến nỗi bất kỳ khoản chi phí nào cũng gần như ngay lập tức bị tiêu tốn — chúng được tái đầu tư vào việc tạo ra các mô hình thông minh hơn và chi phí mà chúng tôi dự định chi ban đầu cũng giống như chi phí thực hiện vậy. cũng vậy.
Những cải tiến về hiệu quả do DeepSeek phát triển sẽ sớm được các phòng thí nghiệm ở Hoa Kỳ và Trung Quốc sử dụng để đào tạo Model trị giá hàng tỷ đô la. Những mô hình này sẽ vượt trội hơn các mô hình trị giá hàng tỷ đô la mà trước đây họ đã lên kế hoạch đào tạo — nhưng chúng vẫn tiêu tốn hàng tỷ đô la. Con số này sẽ tiếp tục tăng cho đến khi chúng ta có AI thông minh hơn hầu hết con người ở hầu hết mọi thứ.
Việc tạo ra trí tuệ nhân tạo thông minh hơn con người ở hầu hết mọi khía cạnh sẽ cần hàng triệu con chip, hàng tỷ Hàng chục tỷ đô la (ít nhất) và nhiều khả năng sẽ đạt được vào năm 2026-2027. Việc ra mắt DeepSeek không thay đổi điều này vì họ gần như đang trên đường cong giảm chi phí dự kiến, vốn luôn được đưa vào các tính toán này.
Điều này có nghĩa là vào năm 2026-2027, chúng ta có thể bị mắc kẹt trong hai thế giới rất khác nhau. Ở Hoa Kỳ, nhiều công ty chắc chắn sẽ có hàng triệu con chip cần thiết (với chi phí lên tới hàng chục tỷ đô la). Câu hỏi đặt ra là liệu Trung Quốc có thể có được hàng triệu con chip hay không9.
Nếu có thể, chúng ta sẽ sống trong một thế giới lưỡng cực, với Hoa Kỳ và Trung Quốc đều có các mô hình AI mạnh mẽ, điều này sẽ thúc đẩy sự tiến bộ nhanh chóng trong khoa học và công nghệ —— Tôi gọi đây là “Quốc gia thiên tài của các trung tâm dữ liệu”. Một thế giới lưỡng cực không nhất thiết sẽ duy trì trạng thái cân bằng mãi mãi. Ngay cả khi Hoa Kỳ và Trung Quốc ngang tài ngang sức trong các hệ thống AI, Trung Quốc, với nền tảng công nghiệp khổng lồ, vẫn có thể thống trị toàn cầu, không chỉ trong lĩnh vực AI mà còn trong mọi lĩnh vực.
Nếu Trung Quốc không thể có được hàng triệu con chip, chúng ta (ít nhất là tạm thời) sẽ sống trong một thế giới đơn cực, nơi chỉ có Hoa Kỳ và các đồng minh sở hữu những mô hình này. Không rõ thế giới đơn cực có tồn tại được lâu hay không, nhưng ít nhất có khả năng vị thế dẫn đầu tạm thời có thể biến thành lợi thế lâu dài, vì các hệ thống AI cuối cùng có thể giúp tạo ra các hệ thống AI thông minh hơn. Vì vậy, trong thế giới này, Hoa Kỳ và các đồng minh có khả năng thống trị và duy trì vị thế lãnh đạo lâu dài trên trường toàn cầu.
Chỉ có việc thực thi nghiêm ngặt các biện pháp kiểm soát xuất khẩu11 mới có thể ngăn chặn Trung Quốc có được hàng triệu con chip, và do đó xác định liệu cuối cùng chúng ta có bước vào thế giới đơn cực hay không hoặc Yếu tố quan trọng nhất trong thế giới lưỡng cực.
Hiệu suất của DeepSeek không có nghĩa là các biện pháp kiểm soát xuất khẩu đã thất bại. Như tôi đã nói ở trên, DeepSeek có số lượng chip từ trung bình đến lớn, nên không có gì ngạc nhiên khi họ có thể phát triển và đào tạo một mô hình mạnh mẽ. Những hạn chế về nguồn lực của họ không nghiêm trọng hơn các công ty AI của Mỹ và kiểm soát xuất khẩu không phải là yếu tố chính thúc đẩy "sự đổi mới" của họ. Họ chỉ là những kỹ sư rất tài năng và chứng minh tại sao Trung Quốc là đối thủ cạnh tranh đáng gờm của Hoa Kỳ.
DeepSeek cũng không cho rằng luôn có lỗ hổng trong quy định. Hoạt động kinh tế trị giá 1 tỷ đô la có thể được che giấu, nhưng 100 tỷ đô la hoặc thậm chí 10 tỷ đô la thì rất khó để che giấu. Một triệu con chip cũng sẽ rất khó để buôn lậu.
Việc xem xét các con chip hiện đang được DeepSeek báo cáo cũng rất hữu ích. Theo SemiAnalysis, đây là sự kết hợp của H100, H800 và H20, tổng cộng là 50.000. H100 đã bị cấm theo luật kiểm soát xuất khẩu kể từ khi phát hành, vì vậy nếu DeepSeek có bất kỳ con chip nào, thì chúng hẳn không phải được chuyển qua các kênh chính thức (lưu ý rằng Nvidia đã tuyên bố rằng tiến trình của DeepSeek "hoàn toàn tuân thủ luật kiểm soát xuất khẩu"). H800 được phép xuất khẩu trong đợt kiểm soát xuất khẩu đầu tiên vào năm 2022, nhưng đã bị cấm khi các biện pháp kiểm soát được cập nhật vào tháng 10 năm 2023, do đó, chip này có khả năng đã được xuất xưởng trước lệnh cấm. H20 có hiệu quả đào tạo thấp hơn và hiệu quả lấy mẫu cao hơn - mặc dù tôi nghĩ nó nên bị cấm, nhưng nó vẫn được phép.
Tất cả những điều này cho thấy một phần đáng kể trong đội chip AI của DeepSeek dường như bao gồm các chip chưa bị cấm (nhưng đáng lẽ phải bị cấm). Điều này cho thấy các biện pháp kiểm soát xuất khẩu thực sự đang phát huy tác dụng và được điều chỉnh: các lỗ hổng đang được bịt kín. Nếu chúng ta có thể giải quyết đủ nhanh, chúng ta có thể tăng khả năng lãnh đạo của Hoa Kỳ trong một thế giới đơn cực.
Vì tôi tập trung vào kiểm soát xuất khẩu và an ninh quốc gia Hoa Kỳ, tôi muốn nói rõ ràng. Tôi không coi DeepSeek là đối thủ cạnh tranh và cũng không tập trung cụ thể vào họ. Họ trả lời phỏng vấn và có vẻ là những nhà nghiên cứu thông minh, tò mò và chỉ muốn phát triển công nghệ hữu ích.
Nhưng kiểm soát xuất khẩu là một trong những công cụ mạnh mẽ nhất mà chúng ta có để ngăn Trung Quốc bắt kịp Hoa Kỳ. Quan điểm cho rằng việc tăng cường sức mạnh công nghệ và hiệu quả về chi phí là lý do để dỡ bỏ kiểm soát xuất khẩu là hoàn toàn vô lý.
Chú thích
[ 1] Trong bài viết này, tôi sẽ không đưa ra quan điểm nào về các báo cáo tinh vi của mô hình phương Tây. Ở đây, tôi chỉ tin vào tuyên bố của DeepSeek rằng họ đào tạo nó theo cách được nêu trong báo cáo. [2] Nhân tiện, tôi nghĩ việc phát hành mô hình DeepSeek rõ ràng không phải là điều tồi tệ đối với Nvidia và giá cổ phiếu của họ đã tăng theo. Mức giảm hai chữ số (khoảng 17%) là điều khó hiểu. Lý do tại sao sự ra mắt này không phải là điều tồi tệ đối với Nvidia thậm chí còn rõ ràng hơn lý do tại sao nó không phải là điều tồi tệ đối với các công ty AI. Nhưng mục tiêu chính của tôi trong bài viết này là bảo vệ các chính sách kiểm soát xuất khẩu. [3] Nói một cách chính xác, đó là một mô hình được đào tạo trước có chứa một lượng nhỏ RL điển hình của các mô hình trước khi có sự thay đổi mô hình suy luận. Đào tạo.
[4] Nó hoạt động tốt hơn trong một số tác vụ rất hẹp. [5] Đây là con số được trích dẫn trong bài báo DeepSeek - Tôi chỉ lấy nó theo giá trị thực tế và không đặt câu hỏi. Một phần của nó chỉ là so sánh với chi phí đào tạo mô hình cho các công ty Hoa Kỳ và sự khác biệt giữa chi phí của việc đào tạo một mô hình cụ thể (6 triệu đô la) và tổng chi phí cho hoạt động R&D (cao hơn nhiều). Tuy nhiên, chúng ta cũng không thể hoàn toàn chắc chắn về con số 6 triệu đô la - quy mô mô hình có thể xác minh được, nhưng các khía cạnh khác (như số lượng mã thông báo) thì không. ↩
[6] Trong một số cuộc phỏng vấn, tôi đã nói rằng họ có "50.000 H100", đó là một điều tinh tế mà tôi muốn sửa lại tóm tắt không chính xác ở đây. Cho đến nay, "chip Hopper" nổi tiếng nhất là H100 (tôi cho rằng đó là loại chip đang được nhắc đến), nhưng Hopper cũng bao gồm H800 và H20, và DeepSeek được cho là có sự kết hợp của cả ba loại chip này, tổng cộng là 50.000 chip. Điều này không làm thay đổi tình hình nhiều lắm nhưng vẫn đáng để sửa chữa. Tôi sẽ nói thêm về H800 và H20 khi tôi nói về kiểm soát xuất khẩu. ↩
[7] Lưu ý: Tôi dự đoán khoảng cách này sẽ mở rộng đáng kể trong các cụm thế hệ tiếp theo do kiểm soát xuất khẩu.
[8] Tôi nghi ngờ một trong những lý do chính khiến R1 nhận được nhiều sự chú ý là vì nó là sản phẩm đầu tiên được trình bày cho người dùng Mô hình lý luận được mô hình chứng minh (o1 của OpenAI chỉ hiển thị câu trả lời cuối cùng). DeepSeek cho thấy người dùng quan tâm đến điều này. Để rõ ràng hơn, đây là lựa chọn giao diện người dùng và không liên quan gì đến bản thân mô hình.
[9] Chip của Trung Quốc sẽ không thể cạnh tranh với chip do Mỹ sản xuất trong ngắn hạn.
Tài liệu tham khảo:
[ 1] https://techcrunch.com/2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working -as-intended/
[2] https://darioamodei.com/on-deepseek-and-export-control< /p>