著者:王樹(Wang Shu 騰訊研究院博士研究員)
2001年には早くも、ゲーム人工知能(AI)分野は、人間のようなレベルのAI(ヒューマンレベルAI)を達成したり、創造したりする大きな可能性を持っていると指摘する研究が2001年の時点で行われています[1]。ゲームはAI研究の出発点として、その複雑さとタスクシナリオの多様性により、AIが広さ、深さ、柔軟性の面で人間の知能に近づくことを保証してくれます。
現在、生成AIや意思決定AI技術の急速な発展とともに、ゲームとAIの共鳴・共生の発展傾向はより明白になっています。世界的なゲームのトップ会議GDC2024(Global Gamer Development Conference 2024)では、AIが会議の注目の的となっており、AIをテーマにした講演は64件で、8%を占めている。ジェネレーティブAIの分野では、ゲーム業界の回答者の62%がゲームコンテンツの制作にAIツールを使用している[2]。意思決定AIの分野では、Google DeepMindチームがAlphastarに続き、人間の自然言語コマンドに基づいてあらゆるタイプの3Dゲーム世界で600以上のタスクを実行できる汎用ゲーム知能、SIMA(Scalable Instructable Multiworld Agent)を再紹介しました。
技術テストベッド:
一般的なAIのためのゲーム環境に基づいています。一般的なAI エージェントの実践のためのゲーム環境
ゲームは意思決定AIの明確な測定基準を提供し、明確で定量化可能なルールを持つ意思決定AIの能力をゲームで評価することで、AI研究シナリオの欠落という問題を解決し、技術の反復とテストを劇的に改善することができます。効率性。現在、OpenAI、DeepMindなどの意思決定AI研究チームのほとんどは、ゲームを訓練シナリオとして選択し、さまざまなタイプのゲームシナリオで一般的な知能を構築し、それに基づいて一般的なAIを構築することに尽力している。
2024年3月13日、Google DeepMindチームは、SIMA (Scalable Instructable Multiworld Agent)と呼ばれるAI知能をリリースしました。SIMAは、幅広い3Dゲームの世界を理解し、人間のように様々な種類のゲームで自然言語の命令に従うことができます。幅広い3Dゲーム世界を理解し、様々な3Dゲーム世界で人間のように自然言語コマンドに従って600以上のタスクを実行できる。その強力な自然言語理解と転移学習能力により、多くの研究者はSIMAの登場を「知能のChatGPTの瞬間」と見ている。
DeepMindは技術報告書の中で、SIMAの基本原理と技術の道筋を詳しく説明し、SIMAを複数の3D仮想世界におけるスケーラブルでガイド付きのユニバーサルなゲーム知能と定義しました。DeepMindチームは、SIMAインテリジェンスのトレーニング環境として、Unityエンジンに基づく9つの人気3Dオンラインゲームと4つの3Dシーンを選択し、インテリジェンスをトレーニングするために、ゲームから人間のプレイヤーの行動と操作のデータを大量に収集した。訓練の過程で、知能体は画面内のゲーム画像情報を常に観察・学習し、ゲーム内のプレイヤーの様々な操作コマンドと組み合わせ、キーボードやマウスの出力によってゲーム内のキャラクターを操作して様々な操作を行うことを実現する[3]。
図1 SIMAインテリジェントボディプロジェクトの概要
SIMAプロジェクトは、囲碁AI「AlphaGO」や「AlphaZero」から、ゲーム「StarCraft 2」をベースにした「AlphaStar」、そして今回のDeepMindの見解では、ゲーム環境で訓練された知能の意思決定と行動能力は、現実世界のシナリオに移行することができ、汎用AIをインキュベートするための新しいアイデアと実践を提供することが期待されている。
SIMAのリリースよりも早く、業界では汎用ゲームインテリジェンスに関する複数の研究プロジェクトが行われており、代表的な取り組みとしては、DeepMindがリリースしたGatoと、NVIDIAがリリースしたMinedojoが挙げられます。
2022年11月にDeepMindチームによってリリースされる予定のGatoは、Atari Gamesシリーズのゲームをプレイしたり、本物のロボットアームを操作してブロックを積み上げたりすることができる。Gatoは、その大規模な言語モデルにGPTのようなアーキテクチャを使用しており、その学習材料には、画像、テキスト、ロボットアームの関節データ、およびその他のマルチモーダルデータセット(multimodal data sets)が含まれる。モーダルデータセット(マルチモーダルデータセット)[4]。2023年3月の研究で、マイクロソフトは、マルチモーダル情報を組み込んだGatoのような大規模なモデルは、初期のインテリジェンスを生む可能性が高いと指摘した[5]。
図2 .DeepMind s Gato
Gatoに似ているのは、NVIDIA、カリフォルニア工科大学、スタンフォード大学がMy Worldゲームに基づいて作ったスマートボディです。MineDojo.MineDojoは、"私の世界 "ゲームプレーヤーのビデオ(YouTube)、ウィキペディア(Wiki)とユーザーコミュニティ(Reddit)の情報をトレーニング教材として、テキストプロンプトに応じて "私の世界 "ゲームを訓練し、情報に応じて、一般的な知的体のさまざまなタスクを完了します。Minedojoは、単純なプログラムタスクを実行するだけでなく、[6]の説明に従ってライブラリを構築するなど、簡単な説明に基づいて一連の創造的なタスクを完了することができます。
図3 .Minedojo s capability model
GatoとMinedojoの2つの作品は、AI研究における2つの異なるタイプの考え方に対応している:十分なタスクを解決するか、十分に複雑なタスクを解決するかである。例えば、Minedojoは特定のゲームクラス専用の知能であり、1つのゲームであらゆる種類のタスクを完了することしかできず、転移学習の能力を持っていません。Gatoは、転移学習の一定の能力を持っていますが、主な適用環境は3Dゲーム環境ではなく、いくつかの2Dゲームであり、現実世界のシナリオとは大きな隔たりがあります。
現在、ゲーム環境に基づいて汎用AIエージェントを訓練することは、業界のコンセンサスとなっています。TED AI 2023の講演で、NVIDIAのシニア・サイエンティストであるJim Fan は、Foundation Agentの概念を提案し、AI研究の次のフロンティアは、仮想世界と現実世界で一般化できるモデルを形成することであると主張しました。AI研究の次のフロンティアは、仮想世界と現実世界の両方で汎化でき、幅広いスキルを習得し、多くの身体を制御し、「基礎モデル」で複数の環境に汎化できるモデルを形成することであり、このモデルの訓練は、ゲーム環境と切り離すことはできない[7]。中国では、テンセントはまた、AIマルチインテリジェンス体と複雑な意思決定オープン研究プラットフォームの構築を主導した - 啓蒙、学術研究者やアルゴリズム開発者のためのコア利点のアルゴリズム、演算、実験シナリオでテンセントAIラボと「王の栄光」に依存して、探査プラットフォームのアプリケーションの国内有数のアプリケーションを提供する。
能力の新たなブレークスルー:
。SIMAの登場は、大規模な言語モデルをインテリジェントエージェントの訓練と組み合わせることで、AIインテリジェントエージェントの意思決定能力と汎化のブレークスルーを達成します。SIMAは、さまざまな3Dゲーム環境をよりよく理解するだけでなく、さまざまな3Dゲーム世界において、人間と同じように自然言語のコマンドに従ってあらゆる種類のタスクを実行し、意思決定の効率と能力において他の知能をはるかに上回り、意思決定能力は人間とほぼ同じです[8]。DeepMindの創設者兼CEOであるDemisHassabis)はインタビューの中で、「大規模な言語モデル、AI知能の訓練、ゲーム環境を組み合わせたこの分野は大きな発展の見込みがあり、DeepMindは今後もこの分野への研究投資を増やしていく[9]」とぶっきらぼうに語っているほどだ。。"全体として、他のSIMAとの特徴やブレークスルーは主に以下の点に反映されています:
第一に、SIMAはトレーニングにゲーム環境を使用しますが、知能の行動と受け取った指示との整合性により注意を払っています。現実世界と同様に、ゲームもまた、応答性の高いリアルタイム設定と変化し続ける目標を備えた、豊かな学習環境なのです」。 SIMAは、トレーニング中に人間のプレイヤーから大量の行動データを観察して学習するという点で、ディープマインドチームが以前に発表したゲームインテリジェンスと似ていますが、異なる点は、SIMAは人間のプレイヤーを打ち負かしたり、ゲーム内で高得点を達成したりするためにトレーニングされるのではなく、さまざまなゲーム環境で人間から与えられる自然言語のコマンドに従って行動することを学習し
第二に、SIMAは大規模な言語モデルとインテリジェントな身体トレーニング、統一されたユーザーフレンドリーなインタラクション・インターフェースを組み合わせています。"言語と環境の学習は相補的であり、自然言語を学習することで、知能体の一般的表現と抽象概念の理解を高め、学習効率を向上させることができる。"ゲーム環境をベースとしたこれまでの様々な知性体と比較すると、SIMAは学習において大規模な言語モデルを導入しており、学習プロセス全体が言語ファーストのルールに従い、すべての学習動作が自然言語によって直接駆動される。言い換えれば、SIMAはゲームのソースコードにアクセスする必要も、カスタマイズされたAPIも必要とせず、画面上の画像情報と、ユーザーが提供する自然言語コマンドの2つの入力のみを必要とし、キーボードとマウスを使ってゲーム内のキャラクターを制御し、これらのコマンドを実行することができる。インタラクションの面では、SIMAは統一されたユーザーフレンドリーなインターフェースを採用しており、人間がSIMAに自然言語コマンドを発行することで呼び出すことができます(下図4)。
図4 SIMAインテリジェントボディ
第三に、SIMAは優れた汎化能力を持ち、異なる仮想シナリオでも高い能力を維持することができます。ディープマインド・チームが現在発表しているデータによると、SIMAはナビゲーション(左折など)、オブジェクトとの対話(はしごを登る)、メニューの使用(マップを開く)などを網羅する600の基本スキルを通じて評価されており、複数のゲーム環境で同様の知能よりも高いレベルのパフォーマンスを示している。DeepMindの研究者は、1500近くのゲーム内タスクを完了するための指示に従ってSIMAを評価し、そのうちのいくつかは人間を使用して評価され、SIMAはゲーム環境に関係なく類似の知能をはるかに上回るパフォーマンスを示した(図5)。
図5 異なる環境における複数の知性異なる環境でのパフォーマンス比較
新しいシナリオの適用:
AIがゲームクリエイションを加速させる
新しいシナリオを適用する。strong mpa-from-tpl="t">コンテンツ作成の効率を高める
ゲームは、汎用AIエージェントを構築するための実験場でありインキュベーターとなっており、意思決定AI技術の反復を常に推し進めています。同時に、Stable DiffusionやTransformerなどのジェネレーティブAI技術が成熟するにつれ、AI技術もゲームや幅広い文化産業のコンテンツ制作に逆風を吹かせ始めています。
アプリケーションレベルでは、ジェネレーティブAIモデルはゲーム開発者の強力なアシスタントになりました。「2024 Unity Game Industry Report」のデータによると、ゲームスタジオの71%が、AI技術を使用した後に研究開発および運営効率が向上したと報告しており、この効率向上は、個々のコンテンツ制作者に力を与えるだけでなく、さまざまなセグメントの労働者のコミュニケーションコストを効果的に削減することにも反映されています。
ゲームコンテンツの制作面では、ジェネレーティブAIはテキスト生成、2Dアート作成、コード生成と検出、レベルデザイン生成などに広く使用されています。AIツールがゲームアートのワークフローに関与する前は、ゲームアーティストが高品質なイラストを完成させるのに約1週間かかっていましたが、Stable DiffusionのようなジェネレーティブAIツールを使用した後は、高品質なイラストの生成時間を1日に短縮することができます。
図6  ;AIGCツールに基づくイラストキャラクター描画プロセス
さまざまな種類の作業者のコミュニケーションコストを削減するという点で、ジェネレーティブAIにも大きな応用空間があります。たとえば、ゲーム制作プロセスでは、特にゲームのアートスタイルでトーンを設定し、選択するために、ゲーム企画とアートワーカーは、多くの場合、コスト間の通信に多くの時間を費やす必要があります。ジェネレーティブAIツールの介入は、プランナーがアイデアを素早く実現し、コミュニケーションコストを大幅に削減するのに役立ちます。
ツールレベルでは、ジェネレーティブAIがゲーム研究開発の効果を高めるにつれて、さまざまなゲーム会社がコンテンツ作成ツールに統合し始めています。ゲームチップ企業のNVIDIAは、ゲーム開発者向けのAIツールプラットフォーム「NVIDIA ACE for Games」を2023年6月にリリースしました。このプラットフォームにより、ゲーム開発者はゲーム内で音声、対話、アニメーションのカスタムAIモデルを構築および展開できるようになり、ゲームコンテンツの制作およびオーサリングの効率が大幅に向上しました。GDC2024で、NVIDIAとInworldは共同で、新しいデジタルヒューマン技術Covert Protocolを発表しました。この技術に基づいて、ゲームのNPCはリアルタイムでプレイヤーと対話することができ、コンテンツに基づいて対話することができ、ゲームプレイのリアルタイム生成を行うことができます[10]。
図7  ;NVIDIAが公開したCovert Protocol技術のデモ
ゲームエンジン会社のUnityとUnrealも、ジェネレーティブAIに基づく新製品をリリースしています。Unityは2023年7月に、AI技術に基づく2つの新製品をリリースしました。Unrealはまた、デジタルヒューマン制作ツールMetahuman creatorなど、AIGCツールの多数のアプリケーションを自社エンジンに統合し、人工知能技術によって高品質なキャラクターの作成と大規模なシーン生成の効率化を加速しようとしています。
ゲーム制作会社もAI技術、AI対応のコンテンツ制作ツールを全面的に採用し、コンテンツ開発の効率化を続けている。例えば、テンセントはGDC2024で、テンセントAIラボが自社開発のゲームフルライフサイクルAIエンジン「GiiNEX」を発表した。このエンジンは、テンセントが自社開発したAI駆動NPC、シーン制作、コンテンツ生成などのための生成AIと意思決定AIモデルの助けを借りて、3Dグラフィックス、アニメーション、都市、音楽など、さまざまなAIGエンジンを提供することができる。AI主導のNPC、シーン制作、コンテンツ生成などの分野に向けたエンジンで、3Dグラフィックス、アニメーション、都市、音楽など様々なAIGC機能を提供できる。GiiNEXエンジンの助けにより、当初5日かかっていた都市モデリング作業は、今ではわずか25分で完了し、効率は最大100倍まで向上しています[11]。
図8  ;テンセントのゲームAIエンジンGiiNEXのアーキテクチャ図
結論
1956年のダートマス会議以来、人工知能の分野では、初期のコンピュータ科学者がAIを「人間の行動の根底にある知性のような方法で機械に反応させる知性」[12]と定義し、その後のAI研究はほとんどすべて「シミュレーション」[13]に基づいている。それ以来、ほとんどすべてのAI研究は人間の知能を「シミュレーション」する道をたどり、聞き、見、話し、考え、学習し、行動できるAIを作り、知覚し、現実世界を知り、意思決定行動をとる能力を向上させようとしている。今日に至るまで、AI研究は人間をシミュレートするという道筋と目標を追い続けている。ChatGPTやSoraなどに代表される生成AIモデルが、AIの「物事を認識する」「認知する」能力を向上させたのであれば、一般的なAIへの第一歩を踏み出したことになる。そして、複雑で多様なゲーム環境において、機械学習によってAIに適切な「選択」をさせる意思決定AIモデルは、AIに「行動」する能力を与え、AI自身や環境の情報に基づいて自律的に意思決定を行い、一般的なAIへの第一歩を実現する。
AGIの実現までにはまだ長い道のりがありますが、生成AIと意思決定AIの組み合わせは、間違いなく新たな可能性を切り開くものであり、AGI研究において、AIを訓練するための実験場としてのゲームの役割もますます重要になってきています。重要です。私たちは、大規模な言語モデルとAI知能の組み合わせに基づいて、SIMAのような汎用ゲーム知能を形成することが可能であることを見てきました。SIMAは、与えられた環境で効果的な意思決定を行うだけでなく、継続的に学習して未知の環境に適応し、自然言語の命令に従ってあらゆる種類の複雑なタスクを完了し、人間のような知能を示します。将来的には、訓練環境の継続的な増加に伴い、ユニバーサルゲーム知能体は、より複雑で高度な言語命令を理解し、理解する能力を持つようになるかもしれず、人々は、より柔軟で適応性があり、人間の知能に近いAIシステムを創造することが期待されている。私たちはまた、普遍的な知能体がゲームという小さな世界の試練を乗り越え、現実の大きな世界の広い舞台へとスムーズに進み、千差万別の業種や産業の人間社会に奉仕する日を心待ちにしている。
本稿執筆にあたり、ご指導いただいた曹建峰氏、劉林氏、王鵬氏に感謝する!