World Labs는 저명한 AI 전문가이자 스탠포드 교수인 페이페이 리가 '공간 지능'을 갖춘 차세대 AI 시스템을 개발하기 위해 설립한 2024년 스타트업입니다.
창업 이후 두 차례의 펀딩을 완료하여 총 2억 3천만 달러의 자금을 조달했습니다. 주요 투자자로는 a16z, Radical Ventures, NEA, NVIDIA NVentures, AMD Ventures, Intel Capital 등이 있습니다. 이 회사의 기업 가치는 불과 3개월 만에 10억 달러를 돌파하며 AI 분야의 새로운 유니콘으로 부상했습니다.
최근 페이페이 리는 a16z의 두 파트너인 마틴 카사도(Martin Casado), 에릭 토렌버그(Eric Torenberg)와 대담을 통해 처음으로 공개적으로 월드 랩스의 개념 구축과 설립 과정에 대해 이야기를 나눴습니다. 랩스, 개념 구축, 연구 방향, a16z 플랫폼 전략의 비전: VC의 "엉덩이를 닦아주지 않으려는" 태도에서 "풀스택 서비스"에 이르기까지.
페이페이 리는 대담의 핵심 아이디어인 "세계 모델이 정말 중요한 방향이라는 것을 확신시키기 위해 거창한 언어 모델이 필요하지 않다"는 말로 대화의 시작을 알렸습니다.
리 박사는 우리가 살고 있는 3차원의 물리적 세계든 상상 속의 디지털 세계든 공간 지능이 모두 중요한 요소라고 강조했습니다. -모두 지능의 필수 구성 요소입니다. 그리고 오늘날 우리는 마침내 이러한 우주를 생성하고 재구성할 수 있는 능력을 갖추게 되었습니다.
철학적언어보다 오래된 지능: 공간적... 지각과 3D 재구성
페이 페이 리는 공간 지각은 인간의 진화 과정에서 언어보다 훨씬 오래되고 본능적인 능력이라고 지적합니다. 그녀는 몇 년 전 각막 손상으로 인해 짧은 기간 동안 입체 시력을 잃었고, 그 기간 동안 혼자 운전하는 것이 두려웠으며 익숙한 길에서도 옆 차와의 거리를 판단하는 데 어려움을 겪었던 자신의 개인적인 경험을 공유했습니다.
이 실험적 경험을 통해 그녀는 인간의 행동에서 3D 지각의 근본적인 역할을 깨닫게 되었습니다. 그리고 AI의 경우 현실 세계를 3차원으로 모델링하지 않고서는 현실 세계를 진정으로 이해하거나 조작하거나 재구성할 수 있는 방법이 없습니다.
마틴 카사도는 이러한 3D 지능의 부족이 로봇과 구현형 지능 시스템의 보급이 더딘 주요 이유라고 덧붙였습니다. 그는 일반인의 예를 들어 설명합니다. 사람을 낯선 방으로 데려가 눈을 가리고 말로만 공간을 설명한 다음 작업을 완료하라고 하면 거의 불가능합니다. 대신 눈을 뜨면 뇌가 자동으로 공간 모델을 재구성하여 작업을 완료할 수 있습니다. 이러한 재구성 능력은 현재의 주류 언어 모델에는 전혀 없습니다.
철학적NeRF에서 세계 모델의 기술 티핑 포인트
이 시기에 월드 랩을 설립하게 된 이유에 대해 페이페이 리는 오랜 학술 연구와 산업 기반 축적의 결과라고 생각합니다.
그는 4년 전 NeRF(신경 방사장)라는 연구 혁신이 3D 시각 모델링에 완전히 새로운 길을 열었다고 회상했습니다. 현재 월드 랩의 공동 창립자 중 한 명인 벤 밀든홀(Ben Mildenhall)이 NeRF를 발명했습니다.
또 다른 창립자인 크리스토퍼는 효율적인 3D 표현이라는 아이디어를 개척하여 볼류메트릭 3D 모델의 개발을 이끌었습니다. 또 다른 설립자인 크리스토퍼는 효율적인 3D 표현에 대한 선구적인 연구를 수행하여 볼류메트릭 3D 모델링을 업계에 도입하는 데 앞장섰습니다.
이미지 스타일 마이그레이션을 위한 GAN의 얼리 어답터였던 저스틴 존슨과 함께 이제 이러한 서로 다른 연구 노력이 세계에서 가장 진보되고 가장 효율적인 이미지를 생성하는 데 사용할 수 있는 AI를 구축한다는 단일 폴라리스 수준의 목표를 중심으로 단일 팀으로 통합되고 있습니다. "
이러한 분산된 연구 노력은 이제 AI의 세계 모델링 기능을 구축한다는 단일 폴라리스 수준의 목표를 중심으로 단일 팀으로 통합되고 있습니다.
마틴은 이 목표를 달성하기 위해 AI 모델, 데이터, 아키텍처 자체와 그래픽 렌더링 및 공간 재구성을 위한 엔지니어링 시스템이라는 두 시스템을 깊이 융합한 덕분이라고 설명합니다. 두 분야의 전문가들이 단일 플랫폼에서 효율적으로 협업할 수 있도록 지원하는 것 자체가 기술 업계의 주요한 조직 혁신입니다.
철학언어 모델링은 끝이 아니라 시작입니다. 프롤로그
페이 페이 리는 세계 모델에 대한 자신의 믿음은 LLM에 대한 실망에서 비롯된 것이 아니라 지능의 본질에 대한 더 깊은 이해에서 비롯된 것이라고 강조합니다.
그녀는 언어는 세계를 추상화하지만 물리적, 지각적 풍부함도 잃는 인지의 '손실 압축'이라고 지적합니다. 언어는 세상을 추상화하지만 물리적, 지각적 정보의 풍부함도 잃게 됩니다. 세상의 진정한 현실에는 단어, 문법, 텍스트가 없고 오직 물리, 움직임, 3차원 구조만 존재합니다.
이런 관점은 AI 회사의 모습에 대한 그녀의 인식에도 변화를 가져왔습니다. 그녀는 공간 지능을 모델링하기 위해서는 학문적 연구만으로는 충분하지 않으며, 산업적 산술 투자, 시스템 수준의 아키텍처 스케줄링, 국경을 넘나드는 최고의 인재들의 협업 역량이 필요하다는 것을 깨닫고 스탠포드 교수에서 기업가로 전향했습니다.
이 모든 것은 고도로 조직화되고 뛰어난 풀스택 엔지니어링 시너지를 갖춘 회사에서만 실현할 수 있습니다.
철학로봇 공학을 훨씬 뛰어넘는 공간 지능 앱<.
대부분의 사람들에게 '세계 모델링'은 여전히 추상적인 과학 용어입니다. 하지만 페이페이 리와 마틴은 자율 주행과 로봇 공학 그 이상의 응용 분야가 있다고 지적합니다.
창의성은 본질적으로 시각적입니다. 산업 디자인, 영화 제작, 건축 구성, 심지어 게임 개발까지 모두 3D 구성과 조작에 의존합니다. AI가 세계를 모델링할 수 있다면 3D 세계를 '볼' 수 있을 뿐만 아니라 가상 공간을 '생성'하고 '조작'할 수 있게 될 것입니다.
마틴은 테이블 사진만 있으면 모델이 그 뒤에 있는 모양과 재료를 유추하고 완전한 공간 장면을 구축하는 방법을 설명합니다. 이를 기반으로 사용자는 공간을 측정, 추가, 제거 또는 재설계할 수도 있습니다. 이는 텍스트 기반 명령보다 훨씬 직관적이고 자유로운 인간과 컴퓨터의 상호 작용이며, 설계, 제작 및 시뮬레이션 실험에 완전히 새로운 차원을 열어줍니다.
페이페이 리는 디지털 공간이 이전에는 볼 수 없었던 변화의 기회를 제시하고 있다며 "인간은 지금까지 3차원의 물리적 세계에서만 살아왔습니다. 하지만 디지털 세계는 처음으로 '다중 우주'로 진입할 수 있게 해줄 것입니다."라고 말했습니다.
로봇 전용 우주, 인간의 창의성을 지원하는 우주, 내레이션, 커뮤니케이션, 체험 여행에 사용되는 우주 등 몇 가지 예를 들었습니다. 상상 속에서만 존재했던 이러한 공간은 이제 실제로 생성되고 기계에 의해 이해되고 사용되며 변형될 것입니다.
사진기본 모델링 다음 전투, 3D 파노라마 모델링
기술 자체로 돌아가서, 리 페이페이는 월드 랩이 단순히 '볼 수 있는' AI를 만드는 것이 아니라 AI가 세계의 3D 구조와 역학을 이해하도록 하는 것이라고 강조했습니다. AI가 세상의 3차원 구조와 역학, 조합 논리를 이해하도록 만드는 것입니다. 이는 더 어려운 공학적 문제일 뿐만 아니라 새로운 표현 철학이기도 합니다.
DNA의 이중 나선 구조나 버키볼과 같은 과학적 발견은 공간 지능의 결과라고 그녀는 주장합니다. 이러한 기하학적 구조를 순전히 언어만으로 도출하는 것은 불가능합니다. 그렇기 때문에 이 세계 모델은 기계의 이해를 향상시킬 뿐만 아니라 인간의 과학과 예술에 새로운 창의적 길을 열어줄 수 있습니다.
마틴은 LLM이 가져온 혁명은 올바른 데이터 구조와 모델 표현을 찾을 때 AI의 능력이 기하급수적으로 폭발한다는 사실을 증명하는 것이라고 결론지었습니다. 이제 월드 모델도 비슷한 전환점에 와 있다고 믿습니다. span>"우리는 사실 진화의 길을 거꾸로 걷고 있습니다." 마틴은 전체 대화가 철학적으로 흘러갈 때 이 점을 지적했습니다.
언어는 인간 두뇌의 진화에서 가장 최근에 만들어진 모듈 중 하나이지만 공간 지각 시스템은 5억 년 전 절지동물 때부터 존재해 왔습니다. 오늘날의 AI는 단순히 '언어 학습'만으로는 '세상을 이해한다'고 할 수 없습니다. 인간과 유사한 공간 모델을 구축해야만 AI가 진정으로 '구현된 지능'의 문에 들어설 수 있습니다.
리 페이페이는 평소와 같은 단호한 어조로 "저는 이 날을 기다려왔습니다. 언어 모델링을 믿지 않아서가 아니라 현실 세계는 텍스트로 이루어져 있지 않다는 것을 잘 알고 있기 때문입니다."
세계 모델은 AI가 그 세계를 진정으로 이해하고 구축할 수 있게 해주는 핵심입니다.I/O에서 iO로, Jony Ive는 새로운 디자인 운동인 AI를 주도할 것입니다. 는 컴퓨팅 패러다임과 하드웨어 정의를 다시 쓰고 있으며, 대형 모델 이후의 새로운 전쟁터입니다.