저자: Zhao Jian
1년 전, 1월 27일. 지난 1월 27일, '코시 라이트이어'는 인공지능으로 생성된 동영상을 주제로 한 살롱에 참여했는데, 이 자리에서 '인공지능 동영상 생성은 얼마나 빨리 '중간 여행의 순간'을 맞이할 수 있을까'라는 흥미로운 대화가 오고갔습니다.
6개월 이내, 1년 이내, 1~2년 또는 그 이상이라는 옵션이 있었습니다.
어제 OpenAI는 20일이라는 정확한 답을 발표했습니다.
오픈AI는 어제 놀라운 성능과 최대 60초의 동영상 생성 시간으로 텍스트(GPT-4)와 이미지(DALL-E 3)에 이어 동영상 생성에서도 '선두'를 달리고 있는 새로운 AI 생성 동영상 모델인 Sora를 공개했습니다. 텍스트(GPT-4)와 이미지(DALL-E 3)보다 "앞서" 있습니다. AGI(일반 인공 지능)에 한 걸음 더 가까워졌습니다.
스타 인공지능 기업 Stability AI가 어제 새로운 동영상 모델인 SVD1.1을 공개했지만, 소라와의 충돌로 인해 공식 트윗이 화염 속에 삭제된 것을 주목할 필요가 있습니다.
AI 동영상 생성 분야의 선두주자 중 하나인 Runway의 공동 창립자이자 CEO인 크리스토발 발렌수엘라는 "게임이 시작됐다(게임 온)"라는 트윗을 올렸습니다.
OpenAI는 또한 기술 문서를 공개했습니다.
하지만 1년여 전 ChatGPT와 마찬가지로, 비디오 모델이 "충분히 크다"면 이를 사용하는 것이 좋다는 검증된 확장 법칙이 OpenAI의 비결입니다. "충분히 크다"는 것은 지능을 발휘할 수 있는 능력이 생겨난다는 뜻입니다.
빅 모델 훈련의 '폭력적인 미학'은 거의 보편적으로 알려져 있는데 왜 이번에는 OpenAI일까요?
1. 데이터의 비밀: 토큰에서 패치까지
비디오를 생성하는 기술적 경로는 크게 네 단계를 거쳤습니다. 순환 네트워크(RNN), 생성적 적대적 네트워크(GAN), 자동 회귀 변환기, 확산 모델입니다.
오늘날 대부분의 주요 비디오 모델은 Runway, Pika 등과 같은 확산 모델입니다. 2023년 12월에 출시될 구글의 비디오포에트처럼 멀티모달 기능과 확장성이 향상된 자동 회귀 모델도 인기를 끌고 있습니다.
반면, 소라는 새로운 확산 트랜스포머 모델입니다. 이름에서 알 수 있듯이 확산 모델과 자동 회귀 모델의 특성을 결합한 것으로, 2023년 캘리포니아 버클리 대학의 윌리엄 피블스와 뉴욕 대학의 사이닝 시에에 의해 제안된 확산 트랜스포머 아키텍처입니다.
이 새로운 모델을 어떻게 훈련하나요? 기술 문서에서 OpenAI는 빅 언어 모델의 토큰에서 영감을 얻어 패치(시각적 패치)를 비디오 데이터로 사용하여 비디오 모델을 훈련하는 방법을 제안합니다. 토큰은 코드, 수학 및 다양한 자연어와 같은 여러 텍스트 모드와 패치를 우아하게 통합합니다. 이미지와 비디오를 통합합니다.
OpenAI는 시각적 데이터의 차원을 줄이기 위해 네트워크를 학습시켰습니다. 네트워크는 원시 비디오를 입력으로 받아 시간과 공간 모두에서 압축된 잠재적 표현을 출력하고, Sora는 이 압축된 잠재적 공간에 대해 학습한 후 비디오를 생성하며, OpenAI는 결과 잠재적 표현을 다시 픽셀 공간으로 매핑하는 해당 디코더 모델도 학습합니다.
OpenAI는 이미지와 비디오를 생성하는 과거의 방법은 일반적으로 비디오의 크기를 표준 크기로 조정하거나 자르거나 트리밍하여 생성된 비디오의 품질을 떨어뜨린다고 말합니다(예: 256x256 해상도의 4초짜리 비디오의 경우). 이미지와 동영상 데이터를 패치하면 데이터를 압축하지 않고도 다양한 해상도, 길이, 화면 비율의 동영상과 이미지의 원시 데이터로 학습할 수 있습니다.
이러한 데이터 처리 방식은 모델 학습에 두 가지 이점을 제공합니다.
첫째, 샘플링 유연성. Sora는 와이드스크린 1920x1080p 비디오, 세로 1080x1920 비디오 및 그 사이의 모든 비디오를 샘플링하여 다양한 디바이스에 맞는 기본 화면 비율로 콘텐츠를 직접 제작할 수 있으며, 전체 해상도로 비디오를 생성하기 전에 낮은 크기로 빠르게 프로토타입 콘텐츠를 제작할 수 있습니다. 모두 동일한 모델을 사용합니다.
두 번째, 향상된 프레임 및 구도. OpenAI는 원래 화면 비율로 동영상을 학습시키면 프레임과 구도가 개선된다는 사실을 경험적으로 밝혀냈습니다. 예를 들어, 모든 훈련 영상을 정사각형으로 자르는 일반적인 모델의 경우 피사체의 일부만 보이는 영상이 생성되는 경우가 있습니다. 이와는 대조적으로 Sora의 비디오 프레임은 개선되었습니다.
정사각형 작물을 학습한 모델(왼쪽), 소라의 모델(오른쪽)
언어 이해 수준에서 OpenAI는 설명력이 높은 동영상 자막을 학습하면 텍스트 충실도는 물론 영상의 전반적인 품질이 향상된다는 사실을 발견했습니다.
이를 위해 OpenAI는 DALL-E 3에 도입된 "리캡션 기법"을 적용합니다. OpenAI는 DALL-E 3에 도입된 '리캡션 기법'을 사용하여 먼저 설명력이 높은 캡션 생성기 모델을 학습시킨 다음, 학습 데이터 세트의 동영상에 대한 텍스트 캡션을 생성하는 데 사용합니다.
또한, DALL-E 3와 마찬가지로 OpenAI는 GPT를 사용하여 짧은 사용자 프롬프트를 더 길고 자세한 캡션으로 변환한 다음 비디오 모델로 전송합니다. 이를 통해 Sora는 사용자 프롬프트를 정확하게 따르는 고품질 동영상을 생성할 수 있습니다.
큐 워드: 청바지와 흰색 티셔츠를 입은 여성이 화려한 축제가 열리는 인도 뭄바이에서 즐거운 산책을 하고 있습니다.
큐 워드: 청바지와 흰색 티셔츠를 입은 여성이 화려한 축제가 열리는 인도 뭄바이에서 즐거운 산책을 하고 있습니다.
Cue word: 청바지와 흰색 티셔츠를 입은 여성이 다채로운 축제에 참여하며 즐거운 산책을 하고 있습니다.
Sora는 텍스트 비디오 외에도 이미지 비디오 및 비디오 비디오도 지원합니다.
큐 워드: 화려한 역사 홀에서 거대한 해일은 거대한, 거대한, 해일입니다. 역사적인 홀에서 거대한 해일이 정점에 이르러 부서지기 시작합니다. 순간을 포착한 두 명의 서퍼가 능숙하게 파도를 헤쳐나갑니다.
이 기능을 사용하면 소라가 다양한 이미지 및 동영상 편집 작업을 수행하여 완벽하게 반복되는 동영상 만들기, 스틸 이미지 애니메이션 만들기, 동영상 시간 앞뒤로 확장하기 등 다양한 작업을 수행할 수 있습니다.
2. 컴퓨팅의 비밀: 여전히 '폭력의 미학'
Sora의 기술 문서에서 OpenAI는 모델의 기술적 세부 사항을 공개하지 않고(Elon Musk는 한때 OpenAI가 의도한 만큼 "개방적이지 않다"고 비난한 적이 있습니다) 다음과 같은 핵심 아이디어를 표현하고 있습니다.
오픈AI는 2020년에 모델 학습의 비밀인 스케일링 법칙을 처음 소개했습니다. 스케일링 법칙에 따르면 언어 모델뿐만 아니라 멀티모달 모델도 대규모 연산 능력, 대규모 파라미터, 대규모 데이터를 기반으로 무어의 법칙처럼 모델 성능이 계속 향상될 것입니다.
OpenAI는 이러한 '폭력적인 미학'을 따라 대규모 언어 모델의 새로운 힘을 발견했고, 결국 획기적인 ChatGPT를 개발했습니다.
확장의 법칙 덕분에 2024년 2월에 예고 없이 비디오의 "중간 여정의 순간"을 맞이한 Sora 모델도 마찬가지입니다.
OpenAI는 트랜스포머가 언어 모델링, 컴퓨터 비전, 이미지 생성, 동영상 생성 등 다양한 영역에서 뛰어난 확장 특성을 보여 왔다고 말합니다. 아래 그림은 훈련 중 동일한 샘플로 훈련 계산의 크기가 증가함에 따라 비디오 품질이 크게 향상되는 것을 보여줍니다.
OpenAI는 비디오 모델에서 대규모 훈련 중에 실제 사람, 동물, 환경의 특정 측면을 시뮬레이션할 수 있는 여러 가지 흥미로운 특징이 나타난다는 사실을 발견했습니다. 이러한 속성의 출현은 3D, 물체 등에 대한 명백한 귀납적 편향이 아니라 순전히 모델 확장 현상입니다.
따라서 OpenAI는 비디오로 생성된 모델을 "월드 시뮬레이터" 또는 "월드 모델"이라고 명명했습니다.
따라서 OpenAI는 비디오 생성 모델을 "월드 시뮬레이터" 또는 "월드 모델"이라고 명명했으며, 이는 기계가 인간이 세상을 이해하는 방식을 학습할 수 있다는 의미로 해석할 수 있습니다.
NVIDIA의 과학자 Jim Fan은 다음과 같이 말합니다. "OpenAI Sora가 DALL-E와 같은 창의적인 장난감이라고 생각한다면 ...... 에서 시작하면 됩니다. 다시 생각해 보세요. Sora는 데이터 기반 물리 엔진입니다. 현실과 환상의 다양한 세계를 시뮬레이션합니다. 이 시뮬레이터는 노이즈 제거와 그라데이션 수학을 통해 렌더링의 복잡성, '직관적인' 물리학, 장기적인 추론, 의미론적 기초를 학습합니다."
메타의 수석 과학자인 얀 르쿤은 2023년 6월 월드 모델의 개념을 제안했고, 2023년 12월 런웨이는 차세대 유니버설 월드 모델을 공식 발표하며 전 세계를 생성형 AI로 시뮬레이션할 것이라고 주장했습니다.
오픈AI는 소라가 이미 익숙한 스케일링 법칙을 사용해 간단히 세계를 모델링할 수 있는 기능을 제공했습니다. 오픈AI는 "우리의 결과는 비디오 생성 모델을 확장하는 것이 물리적 세계의 일반 시뮬레이터를 구축하는 데 유망한 방법임을 시사합니다."라고 말했습니다.
특히, 소라 월드 모델은 세 가지 특징을 가지고 있습니다.
3D 일관성. Sora는 역동적인 카메라 움직임으로 동영상을 생성할 수 있습니다. 카메라가 움직이고 회전함에 따라 사람과 장면 요소가 3D 공간에서 일관되게 움직입니다.
원격연관성 및 오브젝트 지속성. 동영상 생성 시스템의 주요 과제는 긴 동영상을 샘플링할 때 시간적 일관성을 유지하는 것인데, OpenAI는 항상 그런 것은 아니지만 종종 Sora가 단기 및 장기 의존성을 모두 효과적으로 모델링할 수 있다는 사실을 발견했습니다. 예를 들어, 이 모델은 사람, 동물, 사물이 가려지거나 프레임에서 벗어난 경우에도 그 모습을 유지할 수 있습니다. 마찬가지로 단일 샘플에서 동일한 캐릭터의 여러 샷을 생성하고 비디오 전체에서 그 모습을 유지할 수 있습니다.
세계와 상호작용하세요. 소라는 때때로 간단한 방법으로 월드의 상태에 영향을 미치는 동작을 시뮬레이션할 수 있습니다. 예를 들어 화가는 캔버스에 시간이 지나도 지속되는 새로운 획을 남길 수 있습니다.
디지털 세계 시뮬레이션하기. Sora는 인위적인 프로세스를 시뮬레이션할 수도 있는데, 한 가지 예로 비디오 게임을 들 수 있습니다. Sora는 기본적인 전략을 통해 마이 월드에서 플레이어를 제어하는 동시에 월드와 그 역학을 충실하게 렌더링할 수 있습니다. 이러한 능력은 소라에게 "나의 세계"라는 제목을 알려주면 총을 쏘지 않고도 달성할 수 있습니다.
그러나 모든 대형 모델과 마찬가지로 소라는 아직 완벽한 모델이 아니며, 유리 깨기와 같은 기본적인 상호작용의 많은 물리적 과정을 정확하게 시뮬레이션할 수 없기 때문에 OpenAI는 많은 한계가 있음을 인정하고 있습니다. 다른 상호작용(예: 음식 먹기)은 항상 객체 상태에 올바른 변화를 일으키지 않습니다.
3. 산술이 핵심 역량인가요?
오픈AI는 '스케일링의 법칙'에 계속해서 의존할 수 있었던 반면 다른 기술은 그렇지 못한 이유는 무엇일까요? OpenAI는 "스케일링 법칙"에 의존하여 작동할 수 있지만 다른 기술은 그렇지 못한 이유는 무엇일까요?
아마도 AGI에 대한 믿음과 기술 고수 등 여러 가지 이유를 찾을 수 있을 것입니다. 그러나 한 가지 현실은 스케일링 법칙을 지원하려면 높은 연산 능력이 필요하며, 이는 OpenAI가 더 잘할 수 있는 부분입니다.
이런 식으로 비디오 모델링은 파라미터를 엔지니어링하는 팀의 능력과 컴퓨팅 파워가 중요하다는 점에서 언어 모델링과 비슷합니다.
결국, 이는 NVIDIA에게 또 다른 기회입니다. 이러한 AI 붐에 힘입어 NVIDIA의 시장 가치는 상승하여 Amazon과 Google을 모두 추월했습니다.
비디오 모델 학습은 언어 모델보다 산술 집약적일 수 있습니다. 전 세계적으로 컴퓨팅 성능이 부족한 상황에서 OpenAI는 이 문제를 어떻게 해결할 수 있을까요? 앞서 언급한 OpenAI의 코어 구축에 대한 소문과 결합하면 이해가 될 것 같습니다.
오픈AI의 CEO인 샘 알트먼은 작년부터 코드명 티그리스라는 칩 제조 프로젝트를 위해 80억~100억 달러를 모금하기 위해 노력해왔는데, 이는 구글의 TPU와 유사한 AI 칩을 생산하여 엔비디아에 경쟁하고 오픈AI의 운영 및 서비스 비용을 낮추는 데 도움이 되길 바라는 마음에서입니다. OpenAI는 운영 및 서비스 비용을 낮춥니다.
올트만은 2024년 1월에도 한국을 방문해 삼성전자와 SK하이닉스의 한국 경영진과 만나 칩 분야에서의 협력을 모색했습니다.
최근 외신 보도에 따르면 알트만은 글로벌 칩 제조 능력을 높이기 위한 프로젝트를 추진 중이며, UAE 정부를 비롯한 다양한 투자자들과 협의를 진행 중이라고 합니다. 이 자금 조달 계획은 5조~7조 달러에 달하는 것으로 알려졌다.
오픈AI 대변인은 "오픈AI는 AI와 관련 산업에 필수적인 칩, 에너지, 데이터 센터의 글로벌 인프라와 공급망을 늘리기 위한 생산적인 논의를 해왔다. 국가 우선순위의 중요성을 감안하여 미국 정부에 계속 정보를 제공할 것이며 추후 더 자세한 내용을 공유할 수 있기를 기대합니다."라고 말했습니다.
NVIDIA의 창립자 겸 CEO인 젠슨 황(Jen-Hsun Huang)은 이에 대해 약간 아이러니하게도 "컴퓨터가 더 빨리 진화할 수 없다고 생각한다면 14개의 행성, 3개의 은하, 4개의 태양이 필요하다고 결론 내릴 수 있을 것입니다. 하지만 컴퓨터 아키텍처는 실제로 발전하고 있습니다."
대형 모델이 더 빨리 진화할까요, 아니면 산술 비용이 더 빨리 내려갈까요? 100개 모델 전쟁의 승자는 누가 될까요?
2024년에 그 답이 밝혀질 것입니다.