출처: 제핀 매크로
OpenAI는 2월 16일 동영상 생성 모델인 Sora를 출시하여 AI의 동영상 콘텐츠 생성 능력을 크게 확장했습니다. Sora는 주요 지표에서 기존의 일부 비디오 생성 모델보다 훨씬 앞서 있으며, 비디오 생성에 사용하면 실제 세계에 대한 공간 시뮬레이션도 거의 사실적인 수준에 도달할 수 있습니다.
왜 소라가 AI의 새로운 이정표가 될까요? 어떻게 AI 콘텐츠 제작의 상한선인 AIGC를 깰 수 있었나요? 객관적으로 볼 때 현재 버전의 소라에는 어떤 한계와 단점이 있나요?
소라와 같은 동영상 생성 클래스 모델의 향후 업데이트 및 반복 작업의 방향은 무엇인가요? 어떤 산업에 변화를 가져올까요? 우리 각자에게 어떤 영향을 미칠까요? 그 뒤에 어떤 새로운 산업 기회가 있을까요?
1. 소라는 어떻게 구현되었나요? 소라가 AI의 새로운 이정표가 되는 이유는 무엇인가요?
소라가 AI의 이정표가 된 이유는 AIGC의 AI 기반 콘텐츠 제작의 한계를 다시 한 번 뛰어넘었기 때문입니다. 이전에는 Chatgpt와 같은 텍스트 기반의 보조 콘텐츠 제작, 보조 일러스트레이션 및 화면 생성, 짧은 동영상에 아바타를 사용하는 정도에 그쳤습니다. 소라는 텍스트 또는 이미지의 입력을 통해 생성, 연결, 확장 및 기타 방법으로 비디오를 편집 할 수있는 큰 모델의 비디오 생성 클래스이며, 다중 모드 큰 모델의 범주에 속하며,이 클래스는 추가 확장, 확장에 대한 큰 모델의 언어 클래스와 같은 GPT에 있습니다.GPT-4 텍스트 토큰과 유사한 방법을 통해 소라는 비디오를 처리하는 방법을 조작하기 위해 "패치 ". 이 모델의 핵심 혁신은 비디오 프레임을 언어 모델의 단어 토큰과 유사하게 패치 시퀀스로 취급하여 광범위한 비디오를 효율적으로 관리할 수 있도록 하는 것입니다. 이러한 접근 방식은 텍스트 조건부 생성과 결합되어 Sora가 텍스트 단서를 기반으로 문맥과 관련이 있고 시각적으로 일관된 동영상을 생성할 수 있게 해줍니다.
원칙적으로 Sora는 세 가지 주요 단계로 비디오 교육을 구현합니다. 첫 번째는 비디오 압축 네트워크로, 비디오나 이미지를 작고 효율적인 형태로 다운스케일링합니다. <두 번째는 시공간 패치 추출로, 뷰 정보를 더 작은 단위로 나누고 각 단위에는 뷰의 일부에 대한 공간 및 시간 정보가 포함되어 있어 Sora가 후속 단계에서 처리할 대상을 쉽게 찾을 수 있도록 도와줍니다. 마지막으로 비디오 생성이 있는데, 입력된 텍스트나 이미지가 디코딩 및 인코딩되고 트랜스포머 모델(즉, ChatGPT 기본 변환기)이 텍스트와 이미지 단서의 콘텐츠가 전체 비디오로 구성될 수 있도록 이러한 단위를 변환하거나 결합하는 방법을 결정합니다.
Sora는 동영상 생성 모델에서 가장 중요한 두 가지 지표인 지속 시간과 해상도에서 이전 동영상 생성 모델을 크게 뛰어넘는 성능을 발휘합니다. 모델보다 월등히 뛰어나며, 텍스트 이해와 디테일 생성 능력이 뛰어나 AI 업계에서 또 하나의 획기적인 제품이 될 것입니다. 소라 출시 전 주요 모델인 피카1.0, 에뮤 비디오, 젠2는 각각 3~7초, 4초, 4~16초의 영상을 생성할 수 있었지만, 소라는 1080p 해상도로 최대 60초의 영상을 생성할 수 있으며, 소라는 텍스트 프롬프트에 따라 영상을 생성할 뿐만 아니라 영상 편집 및 확장 기능도 갖췄습니다. Sora는 텍스트 프롬프트를 기반으로 동영상을 생성할 뿐만 아니라 동영상 편집 및 확장 기능도 갖추고 있습니다. 소라는 텍스트에 대한 깊은 이해도도 높습니다. 텍스트 파싱 훈련을 받은 소라는 텍스트 명령 뒤에 숨겨진 감정적 의미를 정확하게 포착하고 이해하며, 텍스트 프롬프트를 장면에 맞는 상세한 비디오 콘텐츠로 부드럽고 자연스럽게 변환할 수 있습니다.
Sora는 비디오 생성 시 가상 세계의 물리적 법칙을 더 잘 시뮬레이션하고 물리적 세계를 더 잘 이해하여 카메라에 대한 사실적인 감각을 구현할 수 있습니다. 기술적 특징은 크게 두 가지입니다.
첫 번째는 여러 샷으로 일관된 3D 공간 모션 비디오를 생성할 수 있다는 점입니다.
두 번째는 다양한 시점에서 동일한 물체의 일관성을 유지하는 기능입니다. 이러한 방식으로 이 모델은 영상 속 캐릭터, 오브젝트, 장면의 움직임의 일관성과 연속성을 유지하며, 간단한 상호작용을 위해 월드 내 요소에 영향을 미치도록 미세 조정할 수 있습니다. 피카와 같은 이전 모델과 달리 소라는 비디오 색상 스타일 및 기타 요소를 정확하게 이해하여 표현력이 풍부한 캐릭터와 생생한 감정이 담긴 비디오 콘텐츠를 생성합니다. 또한 피사체와 배경의 관계에 초점을 맞춰 영상 피사체와 배경 간의 상호 작용이 매우 유동적이고 안정적이며 서브 장면 전환이 논리적으로 이루어지도록 합니다.
제작된 동영상의 공식적인 예시: "한 세련된 여성이 따뜻한 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 입고 검은색 가죽 가방을 들고 있습니다. 선글라스와 빨간 립스틱을 바르고 있습니다. 그녀는 자신감 있고 캐주얼하게 걷습니다. 길은 비에 젖어 반사되어 화려한 조명과 함께 거울 효과를 만들어 냅니다. 많은 보행자가 걸어 다니고 있습니다." 소라는 빛과 그림자가 반사되는 방식과 카메라가 움직이는 방식에서 피부까지 완벽한 디테일과 사실감을 구현해냈습니다.
2. 소라의 수준은 어느 정도인가요? 어떤 제한이 있나요?
Sora는 언어 모델용 ChatGPT 3.5에 해당하며, 업계에서 획기적인 발전으로 매우 최첨단에 있지만 여전히 한계가 있습니다.
Sora와 ChatGPT는 확산 모델이 구축된 트랜스포머 아키텍처에서 파생되었으며 깊이, 객체 영속성 및 자연스러운 역학성을 보여주는 데 탁월합니다. 이전에는 일반적으로 3D 물리 모델링을 위해 GPU 기반 게임 엔진을 사용하여 실제 시뮬레이션을 실행했기 때문에 높은 수준의 환경 시뮬레이션과 다양한 인터랙티브 액션을 구현하려면 높은 수준의 정확도와 복잡한 프로세스가 필요했습니다. 그러나 소라 모델에는 데이터 기반 물리 엔진이나 그래픽 프로그래밍이 없으며, 까다로운 3D 빌드에서는 정확도가 떨어집니다. 그 결과 여러 캐릭터의 자연스러운 상호작용과 사실적인 환경 시뮬레이션을 구현하는 것이 여전히 어렵습니다.
예를 들어, 소라의 동영상 생성에서 발생하는 두 가지 버그의 예:
소라가 "유리를 쏟으면 액체가 튀어요"라는 문구를 입력하면 유리가 녹아 테이블에 부딪히고 액체가 유리 위로 뛰어오르지만, 유리 산산이 부서지는 효과는 없습니다.
또 다른 예는 해변에서 의자가 갑자기 파헤쳐졌을 때 AI는 의자가 매우 가벼운 물질이라고 생각하여 그냥 떠오를 수 있다고 판단하는 경우입니다.
이런 종류의 '오류'에는 두 가지 주요 이유가 있습니다."
하나. 하나는 자동 완성 생성 시 모델이 텍스트 계획의 일부가 아닌 개체나 엔티티를 자발적으로 생성하기 때문이며, 이는 특히 혼잡하거나 복잡한 장면에서 흔히 발생합니다. OpenAI의 '겨울철 일본 거리 걷기'와 같이 일부 시나리오에서는 영상에 사실감을 더할 수 있지만, 허공에서 생성된 테이블이 물로 변한 첫 번째 예와 같이 더 많은 환경에서는 영상 속 물리 법칙의 타당성을 떨어뜨릴 수 있습니다.
두 번째는 소라의 시뮬레이션에서 많은 동작이 일어날 때 시간적, 공간적 순서를 혼동하기 쉽다는 점입니다. 예를 들어 '러닝머신 위에서 뛰는 사람'을 입력하면 러닝머신 위에서 엉뚱한 방향으로 걷는 사람이 생성될 수 있습니다. 따라서 Sora는 보다 복잡한 실제 물리적 상호작용, 역학 및 인과 관계를 정확하게 모델링하며, 단순한 물리적 및 객체 속성을 시뮬레이션하는 데는 여전히 어려움을 겪고 있습니다.
이러한 지속적인 문제에도 불구하고 Sora는 비디오 모델링의 미래 잠재력을 보여주며, 충분한 데이터와 컴퓨팅 성능이 확보되면 비디오 컨버터는 실제 물리, 인과관계, 관계를 더 깊이 이해할 수 있게 될 것입니다. 이를 통해 시뮬레이션된 비디오 세계를 기반으로 AI 시스템을 훈련하는 새로운 방법이 가능해질 수 있습니다.
3. 소라는 어디로 향하고 있으며, 도전과 기회는 무엇인가요?
Sora는 비디오 생성 부문에서 AI의 최첨단을 대표하지만, 향후 그 효과는 크게 세 가지 방향으로 개선될 수 있습니다.
첫 번째는 데이터 차원에서 출발하는 것입니다. 학습을 위한 데이터 수요가 급증하면서 학습 가능한 데이터 샘플의 부족에 직면하고 있습니다. 현재 주요 빅 모델은 언어 텍스트에 의존하고 있지만, 소라는 이미지 입력도 가능하지만 학습 일반성은 텍스트만큼 좋지 않습니다. 단일 데이터 유형과 제한된 고품질 데이터는 참여자 수가 기하급수적으로 증가하는 상황에서 빠르게 고갈될 수 있습니다. 코넬 대학의 연구에 따르면 빅데이터 모델 학습을 위한 고품질 데이터는 2026년에 고갈될 것이며, 저품질 텍스트 데이터는 2030년 이후에 고갈될 것으로 예상됩니다. 데이터 소스의 차원을 확장하는 것이 Sora의 솔루션입니다. 텍스트와 이미지 외에도 오디오, 비디오, 열화상, 잠재력, 깊이 등이 모두 Sora의 학습을 위한 확장 영역이 될 수 있습니다. 진정한 멀티모달 그랜드 모델이 될 수 있도록 지원합니다. 예를 들어 메타의 오픈 소스 이미지바인드는 DINOv2의 이미지 및 비디오 인식 기능뿐만 아니라 적외선 및 관성 측정 장치를 통해 깊이, 열 에너지, 위치 에너지 등과 같은 다양한 모달리티를 인식하고 학습할 수 있는 다중 감각을 갖추고 있습니다. 또한 Sora는 입력 측면을 확장한 후 위의 차원을 비디오 생성에 결합하여 보다 현실적인 물리적 세계를 시뮬레이션하도록 학습할 수 있습니다.
두 번째는 알고리즘 레이어를 최적화하는 것으로, 이는 모델 학습에서 '과적합'과 '과소적합' 현상을 해결하는 데 핵심적인 역할을 합니다. 앞의 예에서 언급했듯이, 소라는 텍스트 계획에 없는 사물이나 개체를 자발적으로 생성하여 영상 효과의 사실감을 높이는 데 도움을 줍니다.
그러나 경우에 따라 관련성이 높은 두 요소가 적용되지 않는 시나리오에서 함께 나타날 수 있습니다. 즉, 알고리즘이 특정 결과를 얻기 위해 '과적합'하는 것입니다. 이러한 현상은 인간이 시험을 준비할 때 한 종류의 문제에 올바르게 답하기 위해 반복적으로 집중 훈련을 하면 시험에서 같은 종류의 문제에서 많은 수의 오류가 발생하는 것과 유사합니다.
그리고 같은 예에서 컵을 넘어뜨렸지만 깨지지 않고 녹은 것은 모델이 "적합하지 않은" 모델이었기 때문입니다. 이 두 가지 유형의 문제는 정확하게 분류되지 않은 샘플로 모델을 학습시켜 최적의 모델이 아닌 의사 결정 트리가 생성되어 실제 애플리케이션의 일반화 성능이 저하되기 때문에 발생합니다. 과적합과 과소적합은 완전히 제거할 수는 없지만 향후 정규화, 데이터 정리, 훈련 샘플 크기 줄이기, 드롭아웃 폐기, 가지치기 알고리즘 등의 방법을 통해 완화 및 감소시킬 수 있습니다.
세 번째는 산술 산업입니다. 소라는 AI 물결을 계속 폭발시켜 2024 년에도 산술 전력에 대한 수요가 계속 높아질 것이며, AI 회사는 멀티 모달 모델 개발에서 더 큰 것을 추구 할 것입니다. 산업 체인 업스트림의 강점, 칩 R&D 설계 레이아웃, 심지어 EDA 및 웨이퍼 분야로까지 확대될 것입니다.
현재 AI 모델 학습은 주로 NVIDIA GPU에 의존하고 있지만, 주류 연산 칩은 이미 공급이 부족하여 2024년까지 예상되는 수요는 150~200만 개에 달할 것으로 전망됩니다.
오픈AI의 설립자 샘 알트먼은 2018년부터 칩의 수요와 공급에 관심을 기울여 왔으며, AI 칩 회사인 레인 뉴로모픽스에 투자하고 2019년에 레인 칩을 구입했으며, 2023년 11월에는 코드명 '티그리스'라는 칩 회사를 위해 수십억 달러를 투자했습니다. 샘은 2023년 11월 코드명 '티그리스'라는 칩 회사를 위해 수십억 달러의 자금 조달을 모색하고 있습니다. 업계 리더로서, AI 산업 혁명을 통해 글로벌 반도체 지형을 재편하는 것을 목표로 국내 주도의 산술 산업 체인을 구축하기 위한 초기 단계에 있습니다.
스마트카로 AI의 첫발을 내디딘 테슬라도 자율주행 알고리즘의 기본 디스크에 대한 칩 설계로 업스트림으로 이동하며 점차 미들스트림의 장악을 모색하고 있다.
단기적으로는 ARM, 엔비디아, TSMC가 구축한 글로벌 AI 반도체 산업 체인이 가장 큰 수혜를 입겠지만, 중장기적으로는 더 큰 경쟁을 불러올 수 있다는 전망이 나온다. 산술 인프라, 특히 산술 칩의 자율적인 구축은 중국이 AI 분야에서 글로벌 발전과 보조를 맞추기 위한 중요한 방향으로 남아 있습니다.
4. 소라는 응용 분야 측면에서 어떤 산업을 혁신할 것인가요?
연초 애플의 비전 프로 헤드셋 출시, 주요 PC 제조업체의 잇따른 AIPC 출시, OpenAI의 소라 출시에 이르기까지 전 세계의 AI 혁신은 가속화되고 있으며 그 반복은 점점 더 빨라지고 있습니다.
미래에는 AI가 자동으로 생성하고 생성한 콘텐츠가 많은 산업 분야에 영향을 미칠 것이며, 핫 토픽의 '적시성 커버'가 AI의 주요 임무가 될 것이며, 이는 주로 AIGC의 효율성과 모든 사람의 AI 마스터 능력으로 경쟁하고 있으며 누가 소라와 같은 토픽을 마스터할 수 있는지, 누가 소라와 같은 토픽을 마스터할 수 있는지 경쟁이 되고 있습니다. 경쟁은 모든 사람이 AI를 활용할 수 있는 능력, 그리고 누가 소라와 같은 강력한 AI 제작 도구를 활용할 수 있는지에 대한 경쟁입니다. 미래에는 "소설, 블록버스터를 던져라"가 불가능하지 않으며, Sora는 최대 1분 분량의 동영상을 생성할 수 있고, 동영상은 끝까지 거울이 될 수 있으며, 다각도 렌즈 전환이 가능하고, 피사체는 항상 동일합니다. 또한 소라 동영상은 풍경, 표정, 색상 등의 카메라 언어를 사용하여 외로움, 분주함, 멍청함 등의 감정적 색채를 표현할 수 있습니다. 요컨대, 앞으로 더 많은 소라가 등장하거나 위에서 언급한 여러 각도에서 생성된 영상을 여러 각도로 촬영해 지연을 개선한다면, 인공지능 영상 효과의 미래는 거의 인공적인 촬영과 비슷하지 않을까요?
멀티 모달 모델의 적용은 2024 년에 시작되어 영화와 텔레비전, 라이브 방송, 미디어, 광고, 애니메이션, 예술 및 디자인 및 기타 여러 산업에 영향을 미칠 것입니다. 현재 숏 비디오 시대에 소라는 숏 비디오의 촬영, 연출, 편집을 담당하고 있습니다. 앞으로 소라는 현재 쇼트 비디오, 라이브, 영화 및 텔레비전, 애니메이션, 광고 및 기타 산업에 큰 영향을 미칠 다양한 비디오 용도를 창출했습니다.
예를 들어, 단편 비디오 제작 분야에서
Sora는 단편 드라마 제작의 포괄적 인 비용을 크게 줄이고 "무거운 제작과 가벼운 제작"이라는 일반적인 문제를 해결하기 위해 단편 드라마 제작의 초점이 고품질 대본과 콘텐츠 제작의 미래로 돌아갈 것으로 예상되며, 테스트는 우수한 제작자입니다! 시간과 비용을 최대한 활용할 수 있는 가장 좋은 방법이기 때문이다.
광고 제작사는 소라 모델을 활용해 브랜드에 맞는 광고 영상을 제작함으로써 촬영 및 후반 작업 비용을 크게 절감하고, 게임 및 애니메이션 회사는 소라를 활용해 게임 장면과 캐릭터 애니메이션을 직접 생성함으로써 3D 모델링 및 애니메이션 제작 비용을 절감할 수 있습니다. 기업은 절감된 비용을 제품 및 서비스 품질 개선이나 기술 혁신에 사용하여 생산성을 더욱 향상시킬 수 있습니다. 2023년이 글로벌 AI 빅모델의 폭발적 증가와 그래픽 생성의 원년이라면, 2024년에는 업계가 AI 비디오 생성 및 멀티모달 빅모델의 원년으로 접어들 것입니다. 챗봇에서 소라까지, 모든 개인과 모든 산업에 AI가 미치는 영향과 변화의 현실이 서서히 다가오고 있습니다.