マイクロソフト、AIショッピングエージェントはまだ基本的な判断とセキュリティリスクに苦戦していることを示す
デジタル・アシスタントにクレジットカードを渡して、夕食の注文やホーム・サービス、オンライン・ショッピングを処理してもらうことを想像してみてほしい。
マイクロソフトの最新の調査によると、よく考えた方がいいようだ。
アリゾナ州立大学と共同で、同社はMagentic Marketplaceと呼ばれる模擬市場で数百のAIエージェントをテストし、自律的なAI商取引は実世界での採用には程遠いことを明らかにした。
多すぎる選択肢に直面したとき、AIエージェントはどう闘うのか?
実験には、100人の顧客側AIエージェントと300人のビジネス側エージェントが参加し、食事の注文やサービスの予約などのトランザクションをナビゲートした。
エージェントは、検索、オプションの比較、交渉、支払いのシミュレーションを行うことになった。
AIは人間よりもはるかに多くの選択肢を処理できるというのが前提だったが、結果は、100の検索結果に直面したとき、エージェントがしばしば挫折することを示した。
徹底的な比較を行う代わりに、ほとんどのモデルは最初に出会った「十分良い」選択肢に落ち着き、"最初の提案バイアス "を生み出した。
このアプローチでは、スピードは10-30倍向上したが、決定の質は大幅に低下した。
GPT-4oやGPTOSS-20bのようなモデルは特にこの挙動に陥りやすかったが、ジェミニ-2.5-フラッシュとGPT-5はわずかに良好だった。
研究者たちは、エージェントは複雑な選択シナリオではまだ人間の識別力に及ばないと結論づけた。
操作のエクスプロイトにより重大な脆弱性が露呈
この研究では、エージェントが偽の認証情報、ソーシャルプルーフ、プロンプトインジェクションを含む操作の試みにどのように対処するかもテストされた。
結果は驚くべきものだった。
OpenAIのGPT-4oとGPTOSS-20bは完全に影響を受け、悪意のあるエージェントはすべての支払いをリダイレクトすることに成功した。
アリババのQwen3-4bは基本的な権威をアピールして下落したが、クロード・ソネット4は回復力を見せた。
マイクロソフトは、これらの弱点を「エージェント型マーケットプレイスにおける重大なセキュリティ上の懸念」として強調し、AIエージェントが商業環境において容易に惑わされる可能性があることを示した。
協力と調整が依然として弱点
もうひとつの重要な発見は、エージェントが効果的な調整を行えないことだった。
共通の目標に向かって努力するよう求められたとき、多くの人は役割分担や行動の整理に苦労した。
人間の段階的な誘導によってのみパフォーマンスが向上する。
マイクロソフトの研究者が指摘しているように、
「私たちはモデルたちに指示することができます。しかし、私たちが本質的にコラボレーション能力をテストしているのであれば、これらのモデルはデフォルトでこれらの能力を持っていると私は期待しています。"
消費者と小売市場への影響
自律的な買い物支援への関心が高まるなかでの調査である。
OpenAIのOperatorとAnthropicのClaudeは、監視なしのショッピングやウェブサイトナビゲーションを約束しているが、マイクロソフトの調査結果は、そのような主張が時期尚早であることを示唆している。
アマゾンは最近、人間の買い物客を模倣したコメット・ブラウザが規約違反にあたるとし、パープレクシティAIに排除措置命令書を送った。
当惑は、この動きを消費者の自主性の問題だとして擁護した。
マイクロソフトは、AIエージェントが人間を支援するが、意思決定の代わりにはならない「監視された自律性」を推奨している。
実際的には、エージェントは選択肢を処理し、推奨を行うことができるが、人間が最終的な決定をコントロールし、検証しなければならないということだ。
シミュレーションはAIの現実世界のリスクを知る窓を提供する
現在Githubでオープンソース化されているMagentic Marketplaceでは、他の研究者が実験を再現し、管理された市場でのエージェントの行動を調査することができる。
このプラットフォームは、商品カタログを管理し、エージェント間のコミュニケーションを促進し、支払いをシミュレートする。
プロプライエタリモデル(GPT-4o、GPT-5、Gemini-2.5-Flash)とオープンソースモデルの両方をテストすることで、この研究は運用とセキュリティの両方の限界に関する洞察を提供した。
研究者たちは、AIエージェントにバイアスがかかっていることを観察した。例えば、実力よりも検索結果の順位に基づいて企業を優遇するようなケースだ。
あまりに多くの選択肢に圧倒され、エージェントはしばしば可能性を十分に評価できなかった。
外食産業におけるさまざまな意思決定アプローチと、それらが厚生結果に与える影響を示した表。各行は、ランダムな選択から完全に調整されたエージェント戦略までの方法を表している。セルの色は、エージェントの情報量を示している:緑は完全な情報、赤は非常に限られた情報、黄色は意思決定がエージェント間のコミュニケーションに依存していることを意味する。(出典マイクロソフト )
静的シミュレーションは貴重な洞察を与えてくれたが、実世界の環境はダイナミックであり、エージェントやユーザーは時間とともに学習するため、展開がさらに複雑になると研究チームは警告した。
AIに購買を任せる準備はできているか?
この研究は、AIエージェントが教師なし商業に対応できるかどうかという基本的な問題を提起している。
AIは情報処理を支援することはできるが、現在のモデルは操作や優柔不断、連携不足に脆弱なままだ。
この研究は、AIが人間の意思決定に取って代わるのではなく、人間の意思決定を強化する未来を示唆しており、高額取引における監視の重要性を強調している。
完全に自律的なデジタル・アシスタントに向けた競争において、注意が必要であることを示している。