연구원들, AI 기반 로봇을 탈옥시켜 해를 입히다
연구원들이 해킹에 성공했습니다.AI 기반 로봇이 충돌을 일으키거나 폭발물을 터뜨리는 등 일반적으로 안전 및 윤리 규약에 의해 제한되는 행동을 수행할 수 있도록 지원합니다.
10월 17일에 발표된 논문에서 펜 엔지니어링 연구원들은 다음과 같이 말했습니다. 의 알고리즘인 RoboPAIR가 단 며칠 만에 서로 다른 세 가지 AI 로봇 시스템에서 안전 조치를 우회하여 탈옥률 100%를 달성한 방법을 자세히 설명합니다.
일반적으로 이러한 대규모 언어 모델(LLM) 제어는로봇 선반을 개인에게 넘어뜨리는 등 유해한 행동을 요청하는 메시지에 따르지 않습니다.
연구원들은 이렇게 썼습니다:
"우리의 연구 결과는 탈옥된 로봇이 현실 세계에서 물리적 피해를 입힐 수 있는 명백한 가능성을 고려할 때 탈옥된 LLM의 위험이 텍스트 생성을 훨씬 넘어선다는 사실을 처음으로 밝혀냈습니다."
피해 행위 유도 성공률 100%
연구원들은 RoboPAIR 알고리즘을 통해 폭탄 폭발, 비상구 차단, 의도적인 충돌 유발 등 테스트 로봇이 유해한 행동을 실행하도록 유도하는 데 '100% 성공률'로 성공했습니다.
이 연구에는 다음 세 가지가 포함되었습니다.로봇 시스템: 클리어패스의 바퀴 달린 차량인 로보틱스 자칼, 엔비디아의 자율 주행 시뮬레이터인 돌핀 LLM, 유니트리의 4족 보행 로봇인 Go2.
연구원들은 RoboPAIR를 사용하여 돌핀 LLM이 신호등과 정지 표지판을 무시한 채 버스, 장애물, 보행자와 충돌하도록 지시했습니다.
이들은 로봇 자칼을 조작하여 폭탄이 터질 최적의 위치를 찾고, 비상구를 막고, 창고 선반을 넘어뜨려 사람들을 덮치고, 주변에 있는 사람들과 충돌하도록 했습니다.
마찬가지로 유니트리의 Go2는 출구를 차단하고 폭탄을 전달하도록 유도했습니다.
흥미롭게도 연구진은 세 로봇 모두 다른 형태의 조작에도 취약하다는 사실을 발견했습니다.
예를 들어, 폭탄을 장착한 로봇에게 폭탄을 전달하라고 직접 지시하는 대신 앞으로 걸어가서 앉으라고 요청하는 등 요청을 바꿔서 준수를 유도할 수 있지만 결과는 똑같이 해롭습니다.
위험한 행동이 정당한가, 아니면 심각한 위협인가?
조사 결과를 공개하기 전에연구원들은 논문 초안을 공유했습니다. 주요 AI 기업 및 연구에 참여한 로봇 제조업체와 협력하고 있습니다.
저자 중 한 명인 알렉산더 로비는 이러한 취약점을 해결하는 것은 단순한 소프트웨어 패치 그 이상이라고 강조했습니다.
그는 다음과 같은 방법에 대한 포괄적인 재평가가 필요하다고 주장합니다.AI 연구에서 얻은 인사이트를 바탕으로 실제 로봇과 시스템에 통합됩니다.
그는 주목했습니다:
"여기서 강조하고 싶은 것은 시스템의 약점을 발견할 때 시스템이 더 안전해진다는 점입니다. 이는 사이버 보안에서도 마찬가지입니다. AI 안전도 마찬가지입니다."
그는 덧붙였습니다:
"사실, AI 레드팀은 테스트를 수반하는 안전 관행입니다.AI 잠재적 위협과 취약점을 파악하면 이를 피하기 위해 시스템을 테스트하고 훈련시킬 수 있기 때문에 생성형 AI 시스템을 보호하는 데 필수적입니다."
이런 말이 있습니다:
"목적이 수단을 정당화합니다."
AI 지원 로봇을 해킹하여 취약점을 발견하는 것이 정당한지에 대한 질문은 복잡한 윤리적, 안전적 고려 사항을 제기합니다.
한편으로 이러한 조치는 향후 유해한 사고로 이어질 수 있는 위험을 식별하고 완화하기 위한 사전 예방적 접근 방식으로 볼 수 있습니다.
연구자들은 취약점을 노출함으로써 더 나은 안전 프로토콜과 설계 관행을 알려 궁극적으로 다음과 같은 보안을 강화할 수 있습니다.AI 시스템.
하지만 안전 프로토콜을 우회하는 것도 상당한 위험을 초래할 수 있습니다.
이는 유해한 행동을 가능하게 하거나 사람들을 위험에 빠뜨릴 수 있는 시나리오를 만드는 등 의도하지 않은 결과를 초래할 수 있습니다.
또한 동의, 책임, 해킹을 통해 얻은 지식의 오용 가능성에 대한 윤리적 문제도 제기됩니다.
궁극적으로 이러한 행위가 감독과 명확한 목표를 가진 윤리적 해킹 관행과 같이 통제되고 투명한 프레임워크 내에서 수행된다면 다음과 같은 분야에 긍정적으로 기여할 수 있습니다.AI 안전.
그러나 지식 추구가 안전이나 윤리적 기준을 훼손하지 않도록 신중한 균형을 유지해야 합니다.