저자: 왕슈 텐센트 연구소 박사후연구원
2001년 초에 이미 게임이 인공지능(AI) 분야에서 인간과 유사한 수준의 인공지능(인간 수준의 AI)을 달성하거나 만들 수 있는 큰 잠재력을 가지고 있다는 연구 결과가 발표되었습니다[1]. AI 연구의 출발점인 게임은 작업 시나리오의 복잡성과 다양성으로 인해 AI가 폭과 깊이, 유연성 측면에서 인간 지능에 근접할 수 있는 가능성을 제공합니다.
현재 제너레이티브 AI와 의사결정 AI 기술의 빠른 발전과 함께 게임과 AI의 공명과 공생의 발전 추세는 더욱 뚜렷해지고 있습니다. 글로벌 게임 최고 회의인 GDC2024(글로벌 게이머 개발 컨퍼런스 2024)에서는 AI를 주제로 한 연설이 64개로 8%를 차지할 정도로 AI가 회의의 관심의 초점이 되었습니다. 제너레이티브 AI 분야에서는 게임 업계 응답자의 62%가 게임 콘텐츠 제작에 AI 툴을 사용하고 있다고 답했습니다[2]. 의사결정 AI 분야에서 구글 딥마인드 팀은 인간의 자연어 명령을 기반으로 모든 유형의 3D 게임 월드에서 600개 이상의 작업을 수행할 수 있는 알파스타에 이어 범용 게임 인텔리전스인 SIMA(Scalable Instructable Multiworld Agent)를 다시 소개했습니다.
기술 테스트베드:
기반으로 한 일반 AI 에이전트 연습을 위한 게임 환경
게임은 의사 결정 AI에 대한 명확한 측정 기준을 제공하며, 게임에서 명확하고 정량화 가능한 규칙으로 의사 결정 AI의 능력을 평가하면 AI 연구 시나리오 누락 문제를 해결하고 기술 반복 및 테스트를 획기적으로 개선할 수 있습니다. 효율성. 현재 OpenAI, 딥마인드 등 대부분의 의사결정 AI 연구팀은 게임을 학습 시나리오로 선택하고 다양한 유형의 게임 시나리오에서 일반 지능을 구축하고 이를 기반으로 일반 AI를 구축하는 데 전념하고 있습니다.
2024년 3월 13일, 구글 딥마인드 팀은 광범위한 3D 게임 세계를 이해하고 다양한 유형의 게임에서 인간처럼 자연어 명령을 따를 수 있는 AI 지능인 SIMA(Scalable Instructable Multiworld Agent)를 출시했습니다. 광범위한 3D 게임 세계를 이해하고 사람처럼 자연어 명령에 따라 다양한 3D 게임 세계에서 600개 이상의 작업을 수행할 수 있습니다. 강력한 자연어 이해 및 전이 학습 기능을 갖춘 SIMA의 등장에 대해 많은 연구자들은 "지능을 위한 ChatGPT의 순간"이라고 평가하고 있습니다.
딥마인드는 기술 보고서에서 SIMA의 기본 원리와 기술 경로를 자세히 설명하며 여러 3D 가상 세계에서 확장 가능하고 안내가 가능한 범용 게임 인텔리전스라고 정의했습니다. 딥마인드 팀은 유니티 엔진 기반의 인기 3D 온라인 게임 9종과 3D 장면 4개를 SIMA 지능의 학습 환경으로 선정하고 게임에서 인간 플레이어의 행동과 조작 데이터를 대량으로 수집하여 지능을 학습시켰습니다. 훈련 과정에서 지능은 화면 속 게임 영상 정보를 지속적으로 관찰하고 학습하며, 이를 게임 속 플레이어의 다양한 조작 명령과 결합한 후 키보드와 마우스[3]의 출력을 통해 게임 속 캐릭터를 제어하여 다양한 조작을 수행할 수 있도록 실현합니다.
그림 1 SIMA 인텔리전트 바디 프로젝트 개요
심마 프로젝트는 바둑 AI인 알파고와 알파제로, 게임 스타크래프트 2를 기반으로 한 알파스타에 이어 일반 인공 지능(AGI) 연구 분야에서 딥마인드 팀의 주요 이정표입니다. 대규모 언어 모델을 기반으로 한 SIMA까지, 딥마인드 팀은 게임 환경을 기반으로 범용 지능을 테스트하고 연구해 왔습니다. 딥마인드는 게임 환경에서 훈련된 지능의 의사 결정 및 행동 능력을 실제 시나리오로 마이그레이션하여 범용 AI 인큐베이팅을 위한 새로운 아이디어와 사례를 제공할 수 있을 것으로 기대하고 있습니다.
SIMA 출시 이전부터 업계에서는 범용 게임 인텔리전스에 대한 여러 연구 프로젝트가 진행되어 왔으며, 그 중 대표적인 두 가지 노력으로 딥마인드에서 발표한 Gato와 엔비디아에서 발표한 Minedojo가 있습니다.
Gato는 2022년 11월에 출시될 예정이며, 딥마인드 팀이 아타리 게임 시리즈 게임을 플레이하고 실제 로봇 팔을 조작하여 블록을 쌓을 수 있습니다.Gato는 대규모 언어 모델에 GPT와 유사한 아키텍처를 사용하며 이미지, 텍스트, 로봇 팔 관절 데이터 및 기타 멀티모달 데이터 세트(다중 모드 데이터 세트)를 훈련 자료에 포함합니다. 모달 데이터 세트(멀티모달 데이터 세트)[4]. 2023년 3월 연구에서 Microsoft는 멀티모달 정보를 통합하는 Gato와 같은 대규모 모델이 초기 지능을 탄생시킬 가능성이 높다는 점에 주목했습니다[5].
그림 2 . 딥마인드의 가토
가토와 유사한 스마트 바디는 마이월드 게임을 기반으로 엔비디아, 칼텍, 스탠퍼드에서 제작한 것입니다. 마이월드 게임 플레이어 영상(유튜브), 위키피디아(위키), 사용자 커뮤니티(레딧) 정보를 학습 자료로 삼아 텍스트 프롬프트에 따라 '마이월드' 게임을 학습하고, 그 정보에 따라 일반 지능형 바디의 다양한 작업을 수행하게 됩니다. 미네도조는 단순한 프로그래밍 작업뿐만 아니라 설명에 따라 라이브러리를 구축하는 등 간단한 설명을 기반으로 일련의 창의적인 작업을 완료할 수 있습니다[6].
그림 3 . 미네도조의 역량 모델
가토와 미네도조의 두 작품은 AI 연구에서 충분한 과제 해결 또는 충분히 복잡한 과제 해결이라는 서로 다른 두 가지 유형의 아이디어에 해당합니다. 그러나 이 두 연구에는 몇 가지 한계가 있는데, 예를 들어 미네도조는 특정 게임 클래스에 대한 전용 지능으로 단일 게임에서만 모든 종류의 작업을 완료할 수 있고 전이 학습 능력이 없으며, 가토는 전이 학습 능력이 있지만 주요 적용 환경이 3D 게임 환경이 아닌 일부 2D 게임으로 실제 시나리오와 큰 격차가 있습니다.
현재 게임 환경을 기반으로 범용 AI 에이전트를 학습시키는 것이 업계의 컨센서스가 되고 있습니다. 엔비디아의 수석 과학자 짐 팬(Jim Fan)은 TED 'AI 2023' 강연에서 가상 세계와 현실 세계에서 일반화할 수 있는 모델을 만드는 것이 AI 연구의 다음 개척지가 될 것이라고 주장하며 파운데이션 에이전트의 개념을 제안했습니다. AI 연구의 다음 개척지는 가상 세계와 현실 세계 모두에서 일반화할 수 있고, 다양한 기술을 습득하고, 많은 신체를 제어하며, 여러 환경에 일반화할 수 있는 모델을 '기초 모델'에서 형성하는 것이며, 이 모델의 훈련은 게임 환경과 분리할 수 없습니다[7]. 중국에서 텐센트는 또한 AI 다중 지능체와 복잡한 의사 결정 개방형 연구 플랫폼인 '깨달음'의 건설을 주도했으며, 텐센트 AI 연구소와 알고리즘, 산술, 실험 시나리오의 '왕의 영광'에 의존하여 학술 연구자와 알고리즘 개발자에게 핵심 이점을 제공하여 탐사 플랫폼의 응용 프로그램의 국내 선도적인 응용을 제공했습니다.
새로운 기능의 획기적인 발전:
AI 에이전트 학습과의 효과적인 통합
SIMA의 등장은 대규모 언어 모델과 지능형 에이전트 학습을 결합하여 AI 지능형 에이전트의 의사 결정 능력과 일반화에서 획기적인 발전을 이루었습니다. SIMA는 다양한 3D 게임 환경을 더 잘 이해할 뿐만 아니라 인간처럼 자연어 명령에 따라 다양한 3D 게임 세계에서 모든 종류의 작업을 수행하며, 의사 결정 효율성과 능력에서 다른 지능을 훨씬 능가하여 인간과 유사한 의사 결정 능력을 가지고 있습니다[8].딥마인드 창립자 겸 CEO 데미스 하사비스(Demis 하사비스)는 인터뷰에서 "대규모 언어 모델과 인공지능 지능 훈련, 게임 환경을 결합하는 이 분야는 발전 가능성이 매우 크며, 딥마인드는 앞으로도 이 분야에 대한 연구 투자를 계속 늘려나갈 것이다[9]"라고 말하기도 했습니다. ." 전반적으로 다른 SIMA와의 특징과 혁신은 주로 다음과 같은 측면에서 반영됩니다.
첫째, SIMA는 게임 환경을 훈련에 사용하지만 지능이 받는 명령과 행동의 일관성에 더 많은 주의를 기울이고 있습니다. 딥마인드 팀의 의견에 따르면, "게임은 인공지능(AI)의 중요한 시험장이며, 현실 세계와 마찬가지로 게임 역시 반응하는 실시간 설정과 끊임없이 변화하는 목표가 있는 풍부한 학습 환경입니다." SIMA는 훈련 과정에서 인간 플레이어로부터 대량의 행동 데이터를 관찰하고 학습한다는 점에서 이전에 딥마인드 팀이 공개한 게임 지능과 유사하지만, 인간 플레이어를 이기거나 게임 내에서 높은 점수를 획득하도록 훈련하는 것이 아니라 다양한 게임 환경에서 인간이 내리는 자연어 명령을 따르고 일관된 방식으로 행동하는 법을 학습한다는 점에서 차이가 있습니다. 명령과 일관된 방식으로 행동하는 법을 배우는 것입니다.
둘째, SIMA는 대규모 언어 모델과 지능형 신체 훈련 및 통합된 사용자 친화적인 인터랙션 인터페이스를 결합합니다. "언어와 환경의 학습은 상호 보완적이며, 자연어를 학습함으로써 일반적인 표현과 추상적 개념에 대한 지능의 이해를 높이고 학습 효율성을 향상시킬 수 있습니다." 게임 환경을 기반으로 하는 기존의 다양한 인공지능과 비교했을 때, SIMA는 훈련에 대규모 언어 모델을 도입하고 전체 훈련 과정이 언어 우선의 규칙을 따르며 모든 훈련 동작이 자연어에 의해 직접 구동됩니다. 즉, SIMA는 게임의 소스 코드에 액세스할 필요도 없고 사용자 지정 API도 필요하지 않으며 화면의 이미지 정보와 사용자가 제공하는 자연어 명령이라는 두 가지 입력만 있으면 키보드와 마우스를 사용하여 게임 속 캐릭터를 제어하여 이러한 명령을 실행할 수 있습니다. 상호 작용 측면에서 SIMA는 통합된 사용자 친화적인 인터페이스를 사용하여 사람이 SIMA에 자연어 명령을 내릴 수 있습니다(아래 그림 4).
그림 4 SIMA 인텔리전트 바디 아키텍처
세 번째로, SIMA는 일반화 능력이 뛰어나 다양한 가상 시나리오에서 높은 수준의 기능을 유지할 수 있습니다. 현재 딥마인드 팀이 공개한 데이터에 따르면, SIMA는 탐색(예: 좌회전), 사물 상호작용(사다리 오르기), 메뉴 사용(지도 열기) 등을 포함하는 600개의 기본 기술을 통해 평가되었으며, 여러 게임 환경에서 유사한 지능보다 높은 수준의 성능을 보여주었습니다.딥마인드 연구진은 다음과 같이 SIMA를 평가했습니다. 지침에 따라 약 1,500개의 게임 내 작업을 완료하도록 하고 그 중 일부는 인간을 사용하여 평가한 결과, SIMA는 게임 환경에 관계없이 유사한 지능을 훨씬 능가하는 성능을 보였습니다(그림 5).
그림 5 다양한 환경에서의 다중 인텔리전스 다양한 환경에서의 성능 비교
새로운 시나리오 적용:
AI가 게임 제작을 촉진
< strong mpa-from-tpl="t">콘텐츠 제작 효율성 향상
게임은 범용 AI 에이전트 구축을 위한 시험장이자 인큐베이터가 되어 의사 결정 AI 기술의 반복을 끊임없이 추진하고 있습니다. 동시에 안정적 확산 및 트랜스포머와 같은 생성 AI 기술의 성숙과 함께 AI 기술은 게임과 더 넓은 문화 산업의 콘텐츠 제작에 역으로 힘을 실어주기 시작했으며, 점점 더 많은 실무자가 사진, 텍스트, 오디오 및 비디오, NPC 및 기타 디지털 자산을 저렴한 비용으로 생성하여 제품 개발의 효율성을 개선하고 상호 작용을 더욱 줄일 수 있게 되었습니다.
애플리케이션 수준에서 제너레이티브 AI 모델은 게임 개발자를 위한 강력한 보조 도구가 되었습니다. 2024 유니티 게임 산업 보고서의 데이터에 따르면 게임 스튜디오의 71%가 AI 기술을 사용한 후 R&D 및 운영 효율성이 향상되었으며, 이러한 효율성 향상은 개별 콘텐츠 제작자의 역량 강화뿐만 아니라 다양한 부문에서 일하는 직원들의 커뮤니케이션 비용을 효과적으로 절감하는 데도 반영되고 있습니다.
게임 콘텐츠의 제작 측면에서는 텍스트 생성, 2D 아트 제작, 코드 생성 및 감지, 레벨 디자인 생성 등에 제너레이티브 AI가 널리 활용되고 있습니다. 게임 아트 워크플로에 AI 툴을 도입하기 전에는 게임 아티스트가 고품질 일러스트를 완성하는 데 약 1주일이 걸렸지만, 스테이블 디퓨전과 같은 제너레이티브 AI 툴을 사용하면 고품질 일러스트 생성 시간을 하루로 단축할 수 있습니다.
그림 6 AIGC 툴을 활용한 일러스트 캐릭터 그리기 프로세스
다양한 작업자의 커뮤니케이션 비용 절감 측면에서도 제너레이티브 AI는 활용 영역이 매우 넓습니다. 예를 들어 게임 제작 과정, 특히 게임 아트 스타일의 톤과 선택을 설정하는 게임 기획과 아트 작업자는 종종 많은 시간을 들여 커뮤니케이션을 해야 하는 경우가 많습니다. 제너레이티브 AI 툴의 개입은 기획자가 아이디어를 빠르게 실현하고 커뮤니케이션 비용을 크게 줄이는 데 도움이 될 수 있습니다.
도구 차원에서는 제너레이티브 AI가 게임 R&D의 효율성을 향상시키면서 다양한 게임 회사에서 이를 콘텐츠 제작 도구에 통합하기 시작했습니다. 게임 칩 기업 엔비디아는 2023년 6월 게임 개발자를 위한 AI 툴 플랫폼인 엔비디아 에이스 포 게임을 출시하여 게임 개발자가 게임 내 음성, 대화, 애니메이션을 위한 맞춤형 AI 모델을 구축 및 배포하여 게임 콘텐츠 제작 및 저작의 효율성을 크게 향상시킬 수 있도록 지원했으며, GDC 2024에서 엔비디아와 인월드는 게임 NPC가 플레이어와 실시간으로 상호작용할 수 있는 기술을 기반으로 한 새로운 디지털 휴먼 기술인 '코버트 프로토콜'을 공동 발표하고, 콘텐츠에 따라 상호작용할 수 있는 게임플레이의 실시간 생성 [10]을 선보였습니다.
그림 7 엔비디아가 공개한 프로토콜 기술 데모
게임 엔진 기업 유니티와 언리얼도 제너레이티브 AI 기반의 신제품을 출시하고 있다.2023년 7월 유니티는 AI 기술을 기반으로 한 신제품 2종을 출시했다. 센티스와 뮤즈로, 두 제품은 기존 콘텐츠 제작의 효율성을 10배까지 높일 수 있는 것으로 알려졌으며, 언리얼 역시 디지털 휴먼 제작 툴 메타휴먼 크리에이터 등 자체 엔진에 AIGC 툴을 대거 통합해 인공지능 기술로 고품질 캐릭터 제작과 대규모 씬 생성 효율화를 가속화하려는 시도를 하고 있다.
게임 제작사들도 인공지능 기술과 인공지능을 활용한 콘텐츠 제작 도구를 전면적으로 도입하여 콘텐츠 개발 효율성을 지속적으로 개선하고 있습니다. 예를 들어, 텐센트는 GDC 2024에서 텐센트 AI Lab이 자체 개발한 게임 전체 수명 주기 AI 엔진 'GiiNEX'를 공개했는데, 이 엔진은 텐센트가 자체 개발한 생성 AI와 의사 결정 AI 모델을 통해 AI 기반 NPC, 장면 제작, 콘텐츠 생성 등 다양한 분야에 3D 그래픽, 애니메이션, 도시, 음악 등 다양한 AIG 엔진을 제공할 수 있습니다. 이 엔진은 AI 기반 NPC, 장면 제작, 콘텐츠 생성 및 기타 영역에 맞춰져 있으며 3D 그래픽, 애니메이션, 도시, 음악 등 다양한 AIGC 기능을 제공할 수 있습니다. 기존에는 5일이 걸리던 도시 모델링 작업을 GiiNEX 엔진의 도움으로 25분 만에 완료할 수 있어 효율성이 최대 100배[11] 향상되었습니다.
그림 8 텐센트의 게임 AI 엔진, GiiNEX의 아키텍처 다이어그램
결론
1956년 다트머스 컨퍼런스 이후 인공지능 분야에서 초기 컴퓨터 과학자들은 AI를 "기계가 인간의 행동의 근간이 되는 지능과 같은 방식으로 반응하게 만드는 지능"[12]으로 정의했으며, 이후 거의 모든 AI 연구는 "시뮬레이션"[13]을 기반으로 이루어졌습니다. 그 이후로 거의 모든 AI 연구는 인간의 지능을 '시뮬레이션'하는 경로를 따라 듣고, 보고, 말하고, 생각하고, 학습하고, 행동할 수 있는 AI를 만들고, 현실 세계를 인식하고, 알고, 의사 결정 행동을 취하는 능력을 향상시키려고 노력해 왔습니다.
오늘날까지 AI 연구는 인간을 시뮬레이션한다는 목표와 경로를 따라 계속 진행되고 있습니다. ChatGPT, Sora 등으로 대표되는 생성형 AI 모델이 사물을 '인식'하고 '인지'하는 AI의 능력을 향상시켰다면, 일반 AI를 향한 첫 번째 단계를 완료한 것입니다. 그리고 머신러닝을 통해 복잡하고 다양한 게임 환경에서 AI가 적절한 '선택'을 할 수 있도록 하는 의사결정 AI 모델은 AI가 자신과 환경 정보를 바탕으로 '행동'하고 자율적으로 판단할 수 있는 능력을 부여함으로써 일반 AI를 향한 첫 걸음을 실현합니다.
AGI가 실현되려면 아직 갈 길이 멀지만, 생성 AI와 의사 결정 AI의 결합은 의심할 여지없이 새로운 가능성을 열어주며, AGI 연구에서 AI 학습을 위한 시험장으로서 게임의 역할도 점점 더 중요해지고 있습니다. 중요. 대규모 언어 모델과 AI 지능의 결합을 통해 주어진 환경에서 효과적인 의사 결정을 내릴 수 있을 뿐만 아니라 미지의 환경에 지속적으로 학습하고 적응하며 자연어 명령에 따라 모든 종류의 복잡한 작업을 완료하여 인간과 유사한 지능을 보여주는 SIMA와 같은 범용 게임 지능을 형성할 수 있다는 것을 확인했습니다. 앞으로 학습 환경이 지속적으로 증가함에 따라 범용 게임 지능체는 더 복잡하고 고급 언어 명령을 이해할 수 있는 이해력과 능력을 갖추게 될 것이며, 사람들은 더 유연하고 적응력이 뛰어나며 인간 지능에 가까운 AI 시스템을 만들 수 있을 것으로 기대합니다. 우리는 또한 보편적 지능체가 게임이라는 작은 세계의 시험을 통과하고 실제 큰 세계의 넓은 무대로 순조롭게 나아가 천 개의 무역과 산업의 인류 사회에 봉사할 수 있는 날을 고대하고 있습니다.
이 백서를 작성하는 동안 지도를 해주신 Cao Jianfeng, Liu Lin, Wang Peng에게 감사드립니다!