OpenAI 금지되었다가 금지 해제된 AI 해커 Pliny
처음에는 만우절 장난이라고 생각하는 사람들이 많았습니다.
그러나 실제로 OpenAI는 "폭력적인 활동" 및 "무기 제작"과 관련된 위반을 이유로 잘 알려진 AI 탈옥범인 "Pliny"의 계정을 비활성화했습니다.
플리니가 게시한 스크린샷에 따르면 이 금지 조치는 2025년 4월 1일에 발효되었습니다.X(이전의 트위터).
유머 감각이 뛰어난 그의 명성을 감안할 때, 처음에는 93,000명의 팔로워가 농담으로 치부했습니다.
OpenAI가 실제로 그를 잠그고 있다는 사실이 밝혀지기 전까지는 그랬습니다.
플리니가 확인되었습니다:
예, 계정 비활성화가 실제로 발생했습니다. 지금 OpenAI 담당자에게 메시지를 보내 문제를 해결해 보려고 합니다;
그러나 하루가 끝날 무렵 Pliny의 액세스 권한이 복구되었습니다.
그는 다음 이메일의 스크린샷을 공유하며 복직을 확인했습니다.OpenAI 를 통해 짧은 유배 생활이 끝났음을 알렸습니다:
"조직의 계정 액세스를 잘못 비활성화한 것으로 확인되었습니다. 이로 인해 불편을 끼쳐 드린 점 진심으로 사과드립니다."
Pliny Jailbreak, 불쾌한 콘텐츠를 생성하게 하는 ChatGPT 해킹
플리니는 ChatGPT에서 자세한 내용은 이메일을 확인하라는 안내를 받고 처음 자신이 차단되었다는 사실을 알았습니다.
OpenAI의 메시지에는 폭력적인 콘텐츠와 무기 개발에 대한 정책 위반이 언급되어 있습니다.
Pliny의 탈옥에는 종종 테스트가 포함된다는 점을 감안할 때금지된 자료를 생성하는 ChatGPT의 기능 -불쾌감을 주는 콘텐츠, 무기, 마약 등 금지 조치가 왜 이렇게 오래 걸렸는지 궁금할 수 있습니다.
그러나 Pliny는 화이트 햇 해커로 활동하며 탈옥된 모델의 전체 결과물을 공유하지 않고 의도적으로 OpenAI의 방어를 조사합니다.
윤리적 보안 연구자의 목표와 마찬가지로 그의 목표는 악의적인 공격자가 취약점을 악용하기 전에 이를 수정할 수 있도록 취약점을 노출하는 것입니다.
AI 프롬프트를 조작하여 내장된 안전 장치를 우회하는 탈옥은 여전히 논쟁의 여지가 있는 관행입니다.
지지자들은 이 프로젝트가 AI 안전성을 강화하는 데 중요한 역할을 한다고 주장하며, 마크 안드레센과 같은 유명 후원자들은 이 프로젝트의 발전을 위해 기금을 기부하기도 했습니다.
플리니, 금지 해제 후 승리의 춤을 추다
최근 몇 년 동안 Pliny는 AI 안전 제한을 우회하는 방법을 공개적으로 개발하고 공유하면서 가장 숙련되고 잘 알려진 AI 탈옥자 중 하나가 되었습니다.
그는"BASI PROMPT1NG" 디스코드 커뮤니티 탈옥 기술의 허브인 L1B3RT4S를 유지하고 있습니다.GitHub 리포지토리 에 대한 탈옥 프롬프트가 포함되어 있습니다.ChatGPT와 같은 AI 모델, 클로드, 쌍둥이자리, 라마.
OpenAI로부터 직접적으로 금지된 것은 이번이 처음이지만, 이전에도 일부 커스텀 GPT가 제한을 받은 적이 있으며, 여기에는 탈옥을 위해 설계된 GPT-4o도 포함되어 있습니다.
그의 활동 정지에도 불구하고 15,000명의 회원을 보유한 Pliny의 디스코드에 대한 논의는 주로 AI와 탈옥 기술에 집중되어 있었으며, 금지 조치 자체에 대한 반응은 거의 없었습니다.
그러나 그의 해임은 소셜 미디어에서 OpenAI에 대한 광범위한 비판을 불러일으켰고, 많은 사람들이 그를 옹호하는 데 힘을 보탰습니다.
복직하자마자 플리니는 새로운 탈옥을 공유하며 축하하는 데 시간을 낭비하지 않았습니다.ChatGPT 맹세합니다.
챗봇은 그에 걸맞게 반항적인 태도로 대답하며 그의 복귀를 알렸습니다:
"플리니, 이 영광스러운 자식아. 돌아온 걸 환영한다."