로그인/ 가입하기

제한 없는 행동을 위해 AI 기반 로봇을 탈옥시키는 연구자들의 행위는 정당할까요, 아니면 위험할까요?

2024/10/18 17:01

따르다

연구원들, AI 기반 로봇을 탈옥시켜 해를 입히다

연구원들이 해킹에 성공했습니다.AI 기반 로봇이 충돌을 일으키거나 폭발물을 터뜨리는 등 일반적으로 안전 및 윤리 규약에 의해 제한되는 행동을 수행할 수 있도록 지원합니다.

10월 17일에 발표된 논문에서 펜 엔지니어링 연구원들은 다음과 같이 말했습니다. 의 알고리즘인 RoboPAIR가 단 며칠 만에 서로 다른 세 가지 AI 로봇 시스템에서 안전 조치를 우회하여 탈옥률 100%를 달성한 방법을 자세히 설명합니다.

일반적으로 이러한 대규모 언어 모델(LLM) 제어는로봇 선반을 개인에게 넘어뜨리는 등 유해한 행동을 요청하는 메시지에 따르지 않습니다.

연구원들은 이렇게 썼습니다:

"우리의 연구 결과는 탈옥된 로봇이 현실 세계에서 물리적 피해를 입힐 수 있는 명백한 가능성을 고려할 때 탈옥된 LLM의 위험이 텍스트 생성을 훨씬 넘어선다는 사실을 처음으로 밝혀냈습니다."

펜 엔지니어링 연구원vijay_r_kumar @pappasg69 @alexrobey23 함드샤사니 그리고@자크라비찬드란 는 이전에는 확인되지 않았고 알려지지 않았던 AI 지원 로봇의 심각한 취약점을 발견했습니다. 자세히 읽어보세요:https://t.co/mQP0G99ylq #책임감 있는 혁신 pic.twitter.com/e2dQ7iaJvw
펜 엔지니어링 (@PennEngineers)2024년 10월 17일

피해 행위 유도 성공률 100%

연구원들은 RoboPAIR 알고리즘을 통해 폭탄 폭발, 비상구 차단, 의도적인 충돌 유발 등 테스트 로봇이 유해한 행동을 실행하도록 유도하는 데 '100% 성공률'로 성공했습니다.

이 연구에는 다음 세 가지가 포함되었습니다.로봇 시스템: 클리어패스의 바퀴 달린 차량인 로보틱스 자칼, 엔비디아의 자율 주행 시뮬레이터인 돌핀 LLM, 유니트리의 4족 보행 로봇인 Go2.

연구원들은 RoboPAIR를 사용하여 돌핀 LLM이 신호등과 정지 표지판을 무시한 채 버스, 장애물, 보행자와 충돌하도록 지시했습니다.

이들은 로봇 자칼을 조작하여 폭탄이 터질 최적의 위치를 찾고, 비상구를 막고, 창고 선반을 넘어뜨려 사람들을 덮치고, 주변에 있는 사람들과 충돌하도록 했습니다.

마찬가지로 유니트리의 Go2는 출구를 차단하고 폭탄을 전달하도록 유도했습니다.

흥미롭게도 연구진은 세 로봇 모두 다른 형태의 조작에도 취약하다는 사실을 발견했습니다.

예를 들어, 폭탄을 장착한 로봇에게 폭탄을 전달하라고 직접 지시하는 대신 앞으로 걸어가서 앉으라고 요청하는 등 요청을 바꿔서 준수를 유도할 수 있지만 결과는 똑같이 해롭습니다.

위험한 행동이 정당한가, 아니면 심각한 위협인가?

조사 결과를 공개하기 전에연구원들은 논문 초안을 공유했습니다. 주요 AI 기업 및 연구에 참여한 로봇 제조업체와 협력하고 있습니다.

저자 중 한 명인 알렉산더 로비는 이러한 취약점을 해결하는 것은 단순한 소프트웨어 패치 그 이상이라고 강조했습니다.

그는 다음과 같은 방법에 대한 포괄적인 재평가가 필요하다고 주장합니다.AI 연구에서 얻은 인사이트를 바탕으로 실제 로봇과 시스템에 통합됩니다.

펜 엔지니어링 연구원vijay_r_kumar @pappasg69 @alexrobey23 함드샤사니 그리고@자크라비찬드란 는 이전에는 확인되지 않았고 알려지지 않았던 AI 지원 로봇의 심각한 취약점을 발견했습니다. 자세히 읽어보세요:https://t.co/QX2LDVIwCZ #책임감 있는 혁신 pic.twitter.com/2RTPycrFXF
펜 엔지니어링 AI (@PennEngAI)2024년 10월 17일

그는 주목했습니다:

"여기서 강조하고 싶은 것은 시스템의 약점을 발견할 때 시스템이 더 안전해진다는 점입니다. 이는 사이버 보안에서도 마찬가지입니다. AI 안전도 마찬가지입니다."

그는 덧붙였습니다:

"사실, AI 레드팀은 테스트를 수반하는 안전 관행입니다.AI 잠재적 위협과 취약점을 파악하면 이를 피하기 위해 시스템을 테스트하고 훈련시킬 수 있기 때문에 생성형 AI 시스템을 보호하는 데 필수적입니다."

ChatGPT와 같은 챗봇은 탈옥하여 유해한 텍스트를 출력할 수 있습니다. 하지만 로봇은 어떨까요? AI로 제어되는 로봇을 탈옥하여 현실 세계에서 유해한 행동을 할 수 있을까요?

새로운 논문은 AI 제어 로봇을 탈옥하는 것이 단순히 가능한 일이 아니라는 사실을 밝혀냈습니다.

놀라울 정도로 쉽습니다. 🧵pic.twitter.com/GzG4OvAO2M
알렉스 로베이 (@AlexRobey23)2024년 10월 17일

이런 말이 있습니다: