AIは進歩したが、まだ人間の相互作用を理解できていない
一方人工知能 人間の社会的相互作用の複雑さによって、進化し続けている。
米国で最近行われた研究では、AIは静止画の中の物体や顔を効率的に認識できる一方で、動いているシーンの社会的ダイナミクスを描写し解釈するのに苦労していることが明らかになった。
ジョンズ・ホプキンス大学のレイラ・イシク教授(認知科学)が率いるこの研究は、AIモデルが社会的行動をどのように理解しているかを評価することを目的としている。
これを実現するため、研究チームは350以上のAIモデルを使った大規模な実験を行った。各モデルは映像、画像、言語処理に特化している。
これらのモデルには、さまざまな社会的状況を描いた3秒間の短いビデオクリップが見せられ、人間の参加者は相互作用の強さを1から5までの尺度で評価した。
その目的は、人間とAIがこれらのシナリオをどのように解釈するかを比較することであり、社会的相互作用のニュアンスを理解する上でのAIの現在の限界について貴重な洞察を提供することであった。
現代のAIモデルにおける決定的なギャップ
について人間的 この研究の参加者は、社会的相互作用についての深い共通理解を反映して、その評価に驚くべき一貫性を示した。
対照的に、AIはこれらの判断を再現するのに苦労した。
動画に特化したモデルは、シーンを正確に解釈することに特に非効率的であり、静止画像に基づくモデルは、複数の動画の抜粋を提供されても、登場人物がコミュニケーションを行っているかどうかを判断することが困難であった。
言語モデルは、特に人間が書いた説明が与えられた場合に、若干良い結果を示したが、それでも人間レベルの理解には遠く及ばなかった。
イシクにとって、AIが人間の社会的ダイナミクスを把握できないことは、実世界のアプリケーションにAIを効果的に組み込む上で大きな障壁となる。
この研究の筆頭著者はニュースリリースで次のように語っている:
例えば自動運転車のAIは、人間のドライバーや歩行者の意図、目標、行動を認識する必要がある。歩行者がどちらを向いて歩き出そうとしているのか、あるいは2人の人間が会話中なのか、それとも道路を横断しようとしているのか。AIに人間とインタラクションさせる場合は常に、人間が何をしているかを認識できるようにしたいものだ。今回の研究は、このようなシステムが今はまだできないという事実に光を当てていると思います;
研究者たちは、このギャップは、主に静止画像の処理を担当する脳領域をモデル化したAIニューラルネットワークの設計に起因している可能性を示唆している。
これとは対照的に、ダイナミックな社会的場面では、異なる脳領域からの関与が必要となり、構造的なミスマッチが生じる。
この研究の共著者であるキャシー・ガルシアはこう述べている:
実生活は静的なものではない。あるシーンで展開されるストーリーを理解するためには、AIが必要なのだ;
結局のところ、この研究は、ダイナミックな社会的シナリオに対する人間とAIの認識の間に深い溝があることを浮き彫りにしている。
AIは素晴らしい計算能力を持ち、膨大な量のデータを処理できるにもかかわらず、人間の社会的相互作用の根底にあるニュアンスや暗黙の意図を完全に理解することはできない。
AIは大きな進歩を遂げたが、人間の複雑な行動を理解する上ではまだ大きな課題に直面している。