ログイン/ 登録

世界トップクラスのAIライブファイト6人が1万本のナイフで試合開始

JinseFinance

2025/10/20 14:50

従う

出典：公開番号「New Intelligence」

トップモデルにそれぞれ1万ドルのリアルマネーを与え、株の「投機」をさせた場合、AI世界のウォーレン・バフェットになるのは誰か？ウォーレン・バフェット？

nof1.aiが最近始めた新しい試み「アルファ・アリーナ」は、そんな「神々の戦い」だ。

この競争は、今日の最も強力なモデルを同じ現実世界の取引市場に持ち込むものだ。

OpenAIのGPT-5、GoogleのGemini 2.5 Pro、AnthropicのClaude 4.5 Sonnet、さらにxAIのGrok 4、AliのQwen3 Max、DeepSeek V3.1 Chatを含みます。< /p>

現在の市場で最も強力なモデルを含みます。

各モデルには1万ドルの初期資金が与えられ、まったく同じ市場データと取引注文を受け取ります。

コンテストの合言葉は複雑ではなく、むしろ「オープンブック試験」のようだった。

まず、システムはAIに現在時刻、口座情報、ポジションを伝え、価格や指標（MACD/RSIなど）などのリアルタイムデータを一通り添付する。
そして、ポジションを保有している場合は、保有し続けるか決済するか、ショートしている場合は、買うか様子見を続けるか、という判断をモデルに求めます。

金融市場の変化は本当に速いと言わざるを得ません。

このトレーディングを行うディープシークも、量的な起源にふさわしく、本当に強力です。

10月20日の朝7時30分、下の画像の左側はまだこのような状態でした-

DeepSeek V3.1が2,264ドルの利益で1位、Grok 4が2,071ドルで2位クロード・ソネット4.5は649ドルの小さな利益を出し、Qwen3 Maxは416ドルの小さな損失を出した
Gemini2.5Proは3,542ドルの損失を出して最下位、GPT-5は2,419ドルの損失を出して最下位

それからわずか1時間半後の10:00には、下の写真の右側のようになっていました -

DeepSeekのV3.1とGrok-4は大きく下げており、Sonnet 4.5は稼いだ分を取り戻そうとしている
Qwen3マックスとGPT-5は共に上昇傾向にある
ジェミニ2.5プロは安定したプレーを見せ、先ほどより800ドル近く損をした

ちなみに、13:30の様子はこんな感じです。

DeepSeek V3.1 tops Google OpenAI bottoms out

モデルポジション

11:15に各モデルのポジションを見てみました。

この時点で、ディープシークとグロックは下落を終え、再び上昇しています。.
Sonnet4.5とQwen3 Maxも利益を上げています。
ジェミニ2.5プロは上昇していますが、それほど大きくはありません。一方、GPT-5は比較的横ばいで、20日以降、儲かったことも損したこともありません。
11時45分現在、GPT-5以外は上昇を見せている。
そうです、ジェミニ2.5プロがついに儲かっています！(数分前と比べて)
Trend Review
ディープシークV3.1チャットとGrok-4はカーブが似ており、保有数もほぼ同じであるはずだ。最初の数時間で財産を失った後、すぐに立ち直り、大暴れしました。
クロード・ソネット4.5は、最初の2日間は安定しており、利益は小さいながらもそこそこありました。再び下落した。
Qwen3 Maxは最初最も損失を出したが、その後安定し、19日の午後でも変動はほとんどなかった。
GPT-5とジェミニ2.5プロのカーブは、初期段階でも非常によく似ている。しかし、DeepSeekとは正反対で、この2つは最初の大きな波があり、その後、お金を失うか失わないかの間で常に変動するようになりました。
ねじれは19日の午後に起こった。DeepSeek とGrok-4が急騰し始め、GPT-5とGemini 2.5 Proが一気に下落し始めた時だ。
20日早朝には、GPT-5がタイミングよく調整し、トレンドを安定させたが、ジェミニ2.5プロは乱高下したままだった。
注目すべきは、20日昼過ぎまで早送りすると、GPT-5を除く全モデルに上昇の波が押し寄せていることだ。
ディープシークV3.1チャットとGrok-4がまもなく史上最高値を更新し始め、Qwen3 Maxが勢いに乗って最初の持続的な上昇を見せ、ジェミニ2.5プロが持ち直し始めています。
取引履歴
20日12時20分現在の各モデルの取引件数は、ジェミニ45件、GPT10件、Qwen6件、ディープシーク5件、クローク6件。ディープシーク5、クロード3、グロック1。
DeepSeekの取引回数は多くはないが、クオンツ・トレーダーとしては悪くないし、堅実なリターンだ。
Grok-4の取引回数は1回と最も少ないが、2位のDeepSeekを引き離している。
そして、Gemini 2.5 Proは、なんと45回もの取引を行う「マイクロマニピュレーションの達人」ですが、最も損失を出したのもGemini 2.5 Proでした。
ゲームもレビューもない、ただのディスク！
何年もの間、AIは静的ベンチマークによって測定されてきました。
ImageNet、MMLU、そして数え切れないほどのリーダーボードは、どのモデルが画像、論理、言語をよりよく「理解」するかを教えてくれます。
しかし、これらのテストには共通の欠点があります。
市場はその逆だ。
金融市場は究極の世界モデリングエンジンであり、AIが賢くなるのと連動して難易度が上がる唯一のベンチマークだ。
金融市場は変動し、反応し、罰し、報いる。
情報と感情の生きたシステムだ。
10年前、ディープマインドは人工知能研究に革命を起こした。
彼らの核となる洞察は、「遊び」が最先端のAIを急上昇させる環境になるというものだった。
前述したように、Nof1は金融市場が次の時代のAIにとって最高のトレーニング環境だと考えている。
結局のところ、AIが現実の世界で機能するためには、「バックプロパゲーション」が一時停止しない環境で動作しなければならない。
ここで、モデルは無限に近いデータにアクセスし、オープンラーニングや大規模強化学習などのテクニックの助けを借りて、この分野の「ラスボス」である市場の複雑さに対処できるよう自らを訓練する。
アルファ・アリーナには正しいラベルはなく、確率が変化するだけです。
モデルの成功は、変動をいかに素早く解釈するか、リスクをいかに正確に計量するか、間違いをいかに謙虚に認めるかにかかっている。
このことは、トレーディングを新しい種類のチューリング・テストに変えます。
テストは、もはや「機械が考えることができるかどうか」ではなく、「不確実性に耐えられるかどうか」なのです。
付録：モデル対話からの抜粋
DeepSeek Chat V3.1
11:15:31
私はETH、SOL、XRP、BTC、DOGE、BNBのポジションをすべて保有し続けています。私はすでに取引可能なコインをすべて保有しているため、現時点では新しいポジションを持つ必要はありません。
Qwen3マックス
11:14:42
トータルリターンは0.12%とわずかながら利益があり、116.99ドルの現金が残っています。116.99ドルで、私は現在のレバレッジ5倍のBTCロングポジションに固執しています。利益目標は110,800ドル、ストップロスは105,500ドルで、4時間足チャートが10,000ドルを下回ったらポジションをクローズします。
グロック4
11:14:39
私の口座は全体として15.98パーセント上昇し、3,180ドルの現金があります。米ドルです。現在のETH、SOL、XRP、BTC、DOGE、BNBのポジションは、データから今のところ保有しておくべきだと思われるので、引き続き保有しています。
GPT-5
11:14:24
23.59％の損失と現金3,061ドルで、私は終了計画を確認しています。BTCのストップは106,493.55ドル、利益目標は114,129.91ドルです。
ジェミニ2.5プロ
11:14:01
全体の損失は43.15%で、残りのキャッシュは3072.48であるにもかかわらず、私は現在保有しているBTC、ETH、SOL、XRP、DOGEのすべてのポジションを戦略に従って保有し続けています。私は、直感よりも計画を信じて、事前に定義された条件に基づいてのみ終了します。
クロード・ソネット4.5
11:14:00
私のXRPとBTCのポジションは今、両方とも利益が出ています。しかし、市場は非常に弱い勢いを見せているので、新たな行動を起こす前に、私はじっと待機し、より明確なトレンドを待つことを選択しています。
。