著者:梁思奇
2月25日、オープンソースはDeepSeekの福祉を置く爆薬の王を投げた--。世界初のMoEモデル指向フルスタックコミュニケーションライブラリDeepEPをオープンソース化した。AI演算の不安を直接解決するため、GitHubは即座に1500星(コレクションを指す)、集団フライパンの輪を急上昇し、その重要性を見ることができます。

多くの人が、DeepEPとは何か?というのはどういう意味だろうか?ダブルイレブンの宅配便の駅を想像してみてください:小包(AIデータ)の必死の処理の間に200倉庫(サーバー)に2048宅配ボーイ(GPU)は、従来の輸送システムは、DeepEPは、直接スタッフ全員に「磁気浮上+量子テレポーテーション」スーツ、安定的かつ効率的にしながら、仲間は、三輪車の配達をペダリングさせることと同等であるを安定的かつ効率的に届けることができる。
特徴1:道路のルールを変える
2024年8月29日に行われたNVIDIAのカンファレンスコールで、Jen-Hsun Huang氏は、GPUがデータ転送に自身のコンピュータを使用できるようにするNVIDIAが開発した技術「NVLink」を強調しました。NVIDIAが開発した、GPU同士を直接相互接続させる技術で、双方向のインターコネクト速度は最大1.8TB/S)は、低レイテンシー、高出力、大規模言語モデルの開発を推進する重要な技術の1つとして重要です。
しかし、この吹き飛ばされたNVLink技術は、新しい高さを再生するために中国のチームによって直接この時間。DeepEPの謎は、磁気浮上トラック輸送と、同じ倉庫内の宅配便の間に、毎秒158コンテナ(GB / s)、北京から上海に相当するような高い速度、毎秒158コンテナ(GB / s)までの速度を意味するNVLinkの最適化にある。s)、北京から上海までの距離を水を一口飲む時間に短縮することに相当する。
ブラックテクノロジー2は、それが含まれているRDMA技術の低レイテンシカーネルであり、想像してみて、異なる都市の倉庫の間に、商品が直接 "量子伝送"、各航空機(NIC)の容量毎秒47コンテナまでだけでなく、航空機が飛行中にロードすることができ、コンピューティングや通信。また、新技術は、航空機は、オーバーラップ計算と通信をロードしながら飛ぶことができるようになり、ダウンタイムや待ち時間に別れを告げる。
特徴2:インテリジェントな仕分けブラックテクノロジー:AI版「最強の頭脳」
商品を異なる専門家に送る必要がある場合(MoEモデル)。商品を異なる専門家(MoEモデルのサブネットワーク)に送る必要がある場合、従来の仕分け人は1つずつ開梱してチェックしなければならないが、ディープ・イーピーの「スケジューリング-コンビネーション」システムは、まるで予知能力を持っているようだ。訓練前充填モードでは、4096個の小包が同時にインテリジェント・コンベヤ・ベルトを通過し、自動的に同一都市または交差都市の小包を識別する。推論前充填モードでは、128個の迅速小包がVIPコンベヤ・ベルトを通過する。128個の速達小包はVIPベルトコンベアを通過し、163マイクロ秒のスピードで人間の瞬きより5倍速く配達する。同時に、ダイナミックトラックチェンジ技術を採用し、トラフィックのピークに遭遇した場合、数秒で送信モードをカットし、さまざまなシナリオのニーズに完璧に適応します。
特徴3:FP8「ボーンシュリンキング」
通常の商品は標準的な箱(FP32/FP16フォーマット)で輸送されます。FP16フォーマット)、DeepEPは貨物をミニチュアカプセル(FP8フォーマット)に圧縮することができるので、同じトラックで3倍の貨物を運ぶことができます。さらにすごいのは、これらのカプセルは目的地に着くと自動的に元の状態に戻るので、送料も時間も節約できることだ。
このシステムは、ディープシークが所有する倉庫(H800 GPUクラスタ)でテストされています。同じ都市間の輸送の速度は3倍向上し、都市をまたぐ遅延は人間が知覚するのが難しいレベルまで減少しました。そして、何よりも破壊的なのは、真の「センサーレス伝送」を実現していることです。最も破壊的なのは、真の「センサーレス」であることだ。宅配ロッカーに荷物を詰めながら自転車に乗る宅配便業者のように、すべてのプロセスが楽なのだ。
現在、DeepSeekはこのエースをオープンソース化しており、これはSFの無人仕分けシステムの図面を一般に公開しているのと同じことで、本来は2,000個のGPUを必要とする重労働だったものが、今では数百個で簡単に処理できるようになっています。
これに先立ち、ディープシークはオープンソース・ウィークの最初の成果として、大規模モデルの学習コストを削減する重要な技術のひとつであるFlashMLA(Fast Multiple Latent Attention Mechanismsと訳される)のコードを公開した。キーテクノロジーのひとつ。チェーンの上下にあるコスト不安を軽減するために、DeepSeekはそれを注いでいます。
以前、ルーセント・テクノロジーズの創業者であるユー・ヤン氏は、ソーシャルメディアへの投稿で、「短期的には、中国のMaaSモデルは最悪のビジネスモデルかもしれない」と述べ、1日の出力が1,000億トークンである場合、ディープシークの1ヶ月のマシンコストは1,000億トークンになると単純に試算した。トークンの場合、DeepSeekベースのサービスの毎月のマシンコストは4.5億元で、4億元の損失です。AMDチップの毎月の収益が4500万元で、毎月のマシンコストは2.7億元で、損失も2億元以上であることを意味します。
。