AI 모델 클로드 3.7 소네트, 라이브 실험에서 포켓몬 레드에 도전하다
인공지능은 예상치 못한 방식으로 디지털 세계를 탐색하는 능력을 입증하고 있습니다.
Anthropic의 최신 버전인 Claude 3.7 소네트는 무작위 버튼을 누르는 것이 아니라 "포켓몬 레드"를 플레이하고 있습니다.
실시간으로 능동적으로 전략을 세우고, 의사 결정을 내리고, 도전 과제에 적응하고 있습니다.
앤트로픽의 AI 모델,트위치에서 실시간 스트리밍하기 "ClaudePlaysPokemon" 채널에서 활동 중인 이 선수는 이미 세 명의 체육관 리더를 물리쳤는데, 이는 이전 클로드 모델들도 달성하기 어려웠던 쾌거입니다.
이 실험은 AI가 단순한 작업 실행을 넘어 더 복잡한 문제 해결 시나리오로 어떻게 발전하고 있는지 보여줍니다.
전투, 적응, 장애물 극복을 학습하는 AI
'포켓몬스터 레드'에서 플레이어의 집을 빠져나가지 못했던 전작 '클로드 3.5 소네트'와 달리 '클로드 3.7 소네트'는 눈에 띄게 발전한 모습을 보여주었습니다.
몇 시간 만에 첫 번째 체육관 리더인 브록을 물리쳤고, 불과 며칠 후에는 미스티를 극복했습니다.
앤트로픽은 이러한 성공의 비결은 모델이 메모하고, 게임 화면을 관찰하고, 함수 호출을 사용하여 게임과 상호작용하는 능력 덕분이라고 설명합니다.
클로드 3.7 소네트는 사전 학습된 행동에 의존하는 대신 각 상황을 처리하고 미리 계획을 세우며 필요할 때 조정하지만, 어려움이 없는 것은 아닙니다.
어느 순간 클로드는 암벽 앞에 갇힌 채 계속해서 암벽을 통과하려고 시도했습니다.
AI가 대체 경로를 인식하기까지는 시간이 걸렸습니다.
Twitch의 한 유저는 이 상황을 유머러스하게 표현했습니다,
"프로그래밍에 수천 시간을 투자한 컴퓨터 AI와 암벽 1개 중 누가 이길까요?"
결국 클로드는 실패한 행동을 무한정 반복하는 대신 실수로부터 학습하는 능력을 발휘하여 장애물을 피할 방법을 찾아냈습니다.
비디오 게임을 플레이하는 AI, 연구 벤치마크가 되다
비디오 게임을 하는 AI 모델은 새로운 개념은 아니지만, 여전히 추론 능력을 테스트할 수 있는 유용한 방법입니다.
2024년 3월, 연구원들은 OpenAI의 ChatGPT를 사용해 고전적인 1인칭 슈팅 게임 '둠'을 플레이하며 게임의 마지막 방으로 이동하는 데 성공했습니다.
비슷한 시기에 구글 딥마인드는 소스 코드나 특수 API에 대한 액세스 없이 화면 이미지와 자연어 명령어만으로 '노 맨스 스카이', '티어다운', '발하임' 같은 게임을 플레이할 수 있는 확장 가능한 인스트럭터블 멀티월드 에이전트(SIMA)를 출시했습니다.
단순한 규칙 기반 자동화와 달리 이러한 AI 모델은 일반적인 추론 수준을 보여줍니다.
앤트로픽은 '포켓몬 레드'가 단순한 명령에 반응하는 것이 아니라 퍼즐을 풀고 전략적 판단을 내려야 하는 게임이었기 때문에 클로드 3.7 소네트에게 특히 유용한 테스트였다고 언급했습니다.
트위치에서 포켓몬을 플레이할 수 있는 인공지능 플레이어가 등장했습니다.
많은 사람들이 클로드가 <포켓몬 레드>를 플레이하는 모습을 보면서 2014년 수천 명의 플레이어가 채팅 명령을 통해 함께 게임을 제어했던 온라인 소셜 실험인 의 기억을 떠올립니다.
이 이벤트의 혼란스럽고 협업적인 성격은 이를 하나의 문화 현상으로 만들었습니다.
이제 시청자는 커뮤니티가 함께 일하는 대신 인공지능이 혼자서 모험을 하는 모습을 지켜보게 됩니다.
이 경험은 인터랙티브한 느낌보다는 관찰하는 느낌이 더 강합니다.
클로드의 신중하고 단계적인 접근 방식은 기존 Twitch 플레이 포켓몬스터의 불규칙하고 군중 중심의 게임 플레이와 극명한 대조를 이룹니다.
특히 재미있는 순간은 클로드가 오크 교수를 찾다가 이전에 여러 번 대화를 나눴음에도 불구하고 엉뚱한 NPC와 반복해서 대화하는 장면입니다.
일부 시청자는 조바심을 냈지만, 다른 시청자는 더 이해해 주었습니다:
"다들 진정하세요. 앞으로 나아가는 방법을 이해하기까지 10번은 더 오크의 연구실을 들락날락했죠."
이러한 시도에 AI가 사용된 것은 이번이 처음이 아닙니다.
2023년 10월, 시애틀의 소프트웨어 엔지니어인 피터 위든은 강화학습 인공지능에게 포켓몬을 플레이하도록 가르친 방법을 보여주는 YouTube 동영상을 공유했습니다.
그리고AI가 게임을 파악하는 데 50,000시간 이상 소비한 시간 하지만 도중에 약간 산만해져서 실제로 플레이하는 대신 픽셀화된 풍경을 감상하기 위해 잠시 멈추기도 했습니다.
클로드 3.7 소네트는 느리고 꾸준한 접근 방식을 취하고 있지만, <포켓몬 레드>의 발전은 인공지능의 미래를 엿볼 수 있게 해줍니다.
특정 작업에 대한 훈련만 받는 것이 아니라 한 번에 한 단계씩 문제를 해결하면서 새로운 과제를 해결하도록 모델이 어떻게 진화할 수 있는지 보여줍니다.