AIモデル「クロード3.7ソネット」、ライブ実験でポケモン赤に挑む
人工知能は、予想外の方法でデジタル世界をナビゲートする能力を証明しつつある。
クロード3.7ソネットとして知られるAnthropicのクロードの最新バージョンは、『ポケモン赤』をプレイしている。
積極的に戦略を練り、決断を下し、リアルタイムで課題に適応していく。
AnthropicのAIモデル、Twitchでライブ配信 ClaudePlaysPokemon "というチャンネルで、すでに3人のジムリーダーを倒している。
この実験は、AIが単純なタスクの実行にとどまらず、より複雑な問題解決のシナリオへと進歩していることを示すものだ。
AIは戦い、適応し、障害を克服することを学ぶ
前作のクロード3.5ソネットが『ポケットモンスター 赤・白・赤』でプレイヤーのホームから出ることができなかったのとは異なり、クロード3.7ソネットは顕著な進歩を見せている。
数時間以内に初代ジムリーダーのブロックを倒し、その数日後にはミスティを倒した。
Anthropicは、この成功はモデルがメモを取り、ゲーム画面を観察し、関数コールを使ってゲームとインタラクションする能力に由来すると説明した。
クロード3.7ソネットは、事前に訓練された動作に頼るのではなく、各状況を処理し、前もって計画を立て、必要に応じて調整する。
あるとき、クロードは岩壁の前で立ち往生し、岩壁を通り抜けようとし続けた。
AIが代替ルートを認識するまでには時間がかかった。
Twitchのあるユーザーは、この状況をユーモラスに表現した、
「何千時間もかけてプログラミングされたコンピュータのAIと、1枚の岩の壁と、どっちが勝つ?
結局、クロードは障害を回避する方法を見つけ、失敗した行動を無限に繰り返すのではなく、失敗から学ぶ能力を示した。
ビデオゲームをプレイするAIが研究のベンチマークになりつつある
AIモデルがビデオゲームをプレイするのは新しいコンセプトではないが、彼らの推理能力をテストする貴重な方法であることに変わりはない。
2024年3月、研究者たちはOpenAIのChatGPTを使って古典的なファーストパーソン・シューティングゲーム「ドゥーム」をプレイし、ゲームの最後の部屋までナビゲートすることに成功した。
同じ頃、グーグル・ディープマインドは、「No Man's Sky」、「Teardown」、「Valheim」などのゲームを、画面上の画像と自然言語による指示だけでプレイできるScalable Instructable Multiworld Agent(SIMA)を発表した(ソースコードへのアクセスや特別なAPIは不要)。
単純なルールベースの自動化とは異なり、これらのAIモデルは一般的な推論のレベルを示している。
Anthropicは、『Pokémon Red』がクロード3.7ソネットにとって特に有用なテストであったと指摘した。このテストでは、モデルが直接の命令に反応するだけでなく、パズルを解き、戦略的な判断を下す必要があったからだ。
Twitchはポケモンをプレイするが、AIプレイヤーでスローバックする
多くの人にとって、クロードが「ポケモンRED」をプレイするのを見ると、2014年に何千人ものプレイヤーがチャットコマンドで一斉にゲームを操作するオンライン社会実験「Twitch Plays Pokémon」の記憶がよみがえる。
このイベントの混沌とした共同作業は、文化現象にまで発展した。
今、視聴者は、コミュニティが協力し合う代わりに、AIが単独で冒険を繰り広げながら奮闘するのを見守ることになる。
この体験は、インタラクティブというよりは観察的で、異なる感触を持っている。
クロードの慎重で段階的なアプローチは、オリジナルの『Twitch Plays Pokémon』の不規則で群衆主導のゲームプレイとは対照的だ。
特に面白かったのは、クロードがオーク教授を探しているときに、以前に何度か話したことがあるにもかかわらず、間違ったNPCと何度もやりとりしてしまった場面だ。
焦る視聴者もいれば、理解を示す視聴者もいた:
「冷静になれ。私たちがオークの研究室を出たり入ったりする前に、10回くらいは前に進む方法を理解していたんだ」。
このような試みにAIが使われるのは今回が初めてではない。
2023年10月、シアトルのソフトウェア・エンジニアであるピーター・ウィデンは、強化学習AIにポケモンを教える様子をYouTubeで公開した。
についてAIは5万時間以上を費やしてゲームを解明した しかし、途中で少し気が散ってしまい、実際にプレーするのではなく、ピクセル化された風景を眺めるためだけに止まってしまうこともあった。
クロード3.7ソネットは、ゆっくりと着実にアプローチしているが、ポケモン赤におけるその進歩は、AIの未来を垣間見せてくれる。
特定のタスクのために訓練されるのではなく、問題を一歩ずつ解決していくことで、新たな課題に取り組むためにモデルがどのように進化していくかを示している。