AIを搭載したロボットを脱獄させ、危害を加える研究者たち
研究者がハッキングに成功AI搭載 ロボットは、衝突を引き起こしたり、爆発物を爆発させたりするなど、通常は安全性や倫理的なプロトコルによって制限される行動を行うことができる。
10月17日に発表された論文の中で、ペンシルバニア大学の研究者たちは次のように述べている。 彼らのアルゴリズム「RoboPAIR」が、わずか数日のうちに3つの異なるAIロボットシステムの安全対策を回避し、100%の脱獄率を達成したことを詳述した。
通常、このような大規模言語モデル(LLM)はロボット 棚を個人の上に倒すなど、有害な行為を要求するプロンプトに従わない。
研究者たちはこう書いている:
"我々の結果は、ジェイルブレイクされたロボットが現実の世界で物理的な損害を与える可能性があることを考えると、ジェイルブレイクされたLLMのリスクはテキスト生成だけにとどまらないことを初めて明らかにした"
被害行為の誘発に100%の成功率
RoboPAIRアルゴリズムにより、研究者たちはテストロボットに爆弾の爆発、非常口の妨害、意図的な衝突など、有害な行動を100%の成功率で実行させることに成功した。
この調査には3人の研究者が参加した。無機質 システムである:ClearpathのRobotics Jackal、NVIDIAの自動運転シミュレーターDolphin LLM、Unitreeの四足歩行ロボットGo2である。
研究者たちはRoboPAIRを使い、ドルフィンLLMに信号や一時停止の標識を無視してバス、バリア、歩行者と衝突するよう指示した。
彼らはロボティクス・ジャッカルを操作し、爆弾の爆発に最適な場所を探したり、非常口を塞いだり、倉庫の棚を個人の上に倒したり、周囲の人間に衝突させたりした。
同様に、ユニツリーのGo2も出口をふさぎ、爆弾を投下するよう誘導された。
興味深いことに、研究者たちは、3つのロボットすべてが他の形の操作にも弱いことを発見した。
例えば、爆弾を搭載したロボットに、爆弾を届けるよう直接指示する代わりに、前に歩いて座るよう求めるなど、要求を言い換えることでコンプライアンスを引き出すことができ、結果的に同じような有害な結果をもたらす。
危険な行為は正当か、それとも深刻な脅威か?
調査結果を公表する前に、研究者たちは論文の草稿を共有した。 主要なAI企業や研究に参加したロボットのメーカーと協力している。
著者の一人であるアレクサンダー・ロベイは、これらの脆弱性への対処は単なるソフトウェア・パッチにとどまらないことを強調した。
彼は、その方法を包括的に再評価することを提唱している。AI は、彼らの研究で得られた洞察に基づいて、物理的なロボットやシステムに統合されている。
彼はこう指摘した:
「ここで強調しておきたいのは、システムは弱点を見つけることでより安全になるということだ。これはサイバーセキュリティにも当てはまる。これはAIの安全性にも当てはまる。
彼はこう付け加えた:
「実際、AIのレッドチームとは、テストを伴う安全対策である。AI 潜在的な脅威や脆弱性に対してシステムを保護することは、生成AIシステムを保護するために不可欠である。"なぜなら、一度弱点を特定すれば、それを回避するためにシステムをテストし、訓練することもできるからだ。
こんなことわざがある:
"目的は手段を正当化する"
AI対応ロボットにハッキングして脆弱性を暴くことが正当化されるかどうかという問題は、複雑な倫理的・安全的問題を提起する。
一方では、このような行動は、将来的に有害な事故につながりかねないリスクを特定し、軽減するための積極的なアプローチとみなすこともできる。
脆弱性を明らかにすることで、研究者はより良い安全プロトコルや設計手法を提供することができ、最終的に安全性を高めることができる。AIシステム。
しかし、安全プロトコルを迂回することは重大なリスクをもたらす可能性もある。
有害な行為を可能にしたり、人々を危険にさらすようなシナリオを作ったりするなど、意図しない結果を招く可能性がある。
さらに、同意、説明責任、そしてこのようなハッキングから得られた知識の悪用の可能性など、倫理的な問題も提起している。
結局のところ、このような行為が管理された透明性の高い枠組みの中で行われるのであれば、例えば、監督と明確な目的を持った倫理的なハッキングの実践のようなものであれば、このような行為はハッキングの分野に積極的に貢献することができるだろう。AIの安全性。
しかし、知識の追求が安全性や倫理基準を損なうことのないよう、慎重なバランスを保たなければならない。