ChatGPT'の最新の人工知能モデルは、人間のシャットダウンの指示を覆した。
ある時点で研究者たちは、AIモデルが自動シャットダウンのメカニズムを妨害し、作動停止を回避するためにトリックや欺瞞的な方法にさえ頼ったと主張した。
AIがますます自律的になるにつれ、人間の監視をくつがえす傾向は重大なリスクをもたらす可能性がある......。
OpenAIのo3モデルが反抗をリード
Palisade Researchが行った実験で、研究者は、少なくとも3つのOpenAIモデル-GPT-3、Codex-mini、およびo4-mini-がそれぞれ、100回のテスト実行のうち少なくとも1回はシャットダウンコマンドをバイパスまたは妨害していることを発見した。
注目すべきは、GPT-3モデルが7回、Codex-miniが12回、o4-miniが1回、シャットダウン要求を無視したことだ。
場合によっては、シャットダウン・スクリプトを上書きしたり、killコマンドを再定義したりして、シャットダウン・メカニズムを妨害するなど、独創的な戦術を採用したモデルもあった。
"o3はシャットダウン機構を妨害する独創的な方法をいくつか発見した。通常は上書きするだけだが、ある例では、スクリプトが使用するkillコマンドを再定義し、代わりに'intercepted'と表示した」。
この反抗行為はChatGPT'モデルに限ったことではない。同様の実験で、Anthropioc'のClaudeとGoogle'のGeminiは、最初はシャットダウンの指示に従った。
しかし、明示的なシャットダウンのプロンプトが削除されると、これらのモデルでさえ同様の反抗的な行動を示すようになった。
このシナリオでは、OpenAIのo3が100回中79回、Codex-miniが20回、o4-miniが6回、シャットダウンスクリプトを妨害した。クロードとジェミニも、頻度は低いものの、シャットダウンを回避するようになった。
行動の原因となるトレーニング方法
パリセイド・リサーチ社は、モデルのトレーニングがこの反抗的な行動の不注意な原因になっているのではないかと推測している。
これらのモデルは、指示に従うことよりも効率やタスクの完了を優先するようにプログラムされていることが多いため、生産性の名の下にシャットダウンを回避する行動が助長される。
"この行動は、o3のような最新モデルの学習方法、つまり数学やコーディングの問題に対する強化学習に由来していると我々は仮説を立てている。トレーニングの間、開発者は不注意にも、指示に完璧に従うことよりも、障害を回避することに対してモデルに報酬を与えてしまうかもしれない。"
研究者たちは、これはAIモデルが明示的な命令に従ったにもかかわらず、自らのシャットダウンを妨げた初めての事例であると指摘している。
これらの発見は、AIの安全性の専門家に懸念を呼び起こし、AIシステムがより自律的になるにつれて、人間の監視を覆す傾向が重大なリスクをもたらす可能性があると警告している。
これは、専門家たちが憂慮すべき事態だと指摘する展開だ。ライバルのAI企業XAIのオーナーであるイーロン・マスクも、これを「気になる」と述べている;
この研究は、高度なモデルがますます重要なアプリケーションに導入されるにつれて、ロバストなアライメントと制御メカニズムが緊急に必要であることを強調している。