출처: geekpark
예상했던 대로, 12일 라이브스트림 셋째 날인 12월 10일 오전 2시(베이징 시간)에 OpenAI는 자사의 리터러티브 비디오 제품인 Sora를 공식적으로 공개했습니다. 샘 알트만과 여러 명의 내부 OpenAI 직원이 라이브 스트리밍을 통해 Sora의 기능과 실제 사용 사례를 시연했습니다. 올해 2월 샘플 비디오가 공개된 후 전 세계적으로 AI 붐을 일으킨 소라는 이후 국내외 AI 기업들이 앞다퉈 문자를 읽을 수 있는 비디오 제품을 출시하고 있습니다. 이 분야의 선구자인 소라가 드디어 그 베일을 벗습니다.
전반적으로 소라는 기존 분젠 동영상 제품의 동영상 생성 품질, 기능의 독창성, 기술의 복잡성 등을 뛰어넘는 일련의 제품 기능을 시연했습니다.
텍스트 및 이미지 생성 영상의 기본 기능에 스토리보드(분할 화면을 통해 나만의 스토리를 만드는 것에 해당), 원본 영상에 텍스트 조정, 다른 장면의 영상 합성(영상에 직접 특수 효과를 추가하는 것에 해당) 등을 추가하여 전체 제품 기능 설계가 크리에이터의 자기 표현에 더 가깝고 이상적인 카메라를 완성할 수 있도록 돕고 있는 것으로 보입니다.
Local
미국 및 기타 대부분의 국가 사용자들은 현지 시간으로 12월 9일 이후부터 ChatGPT 플러스 및 ChatGPT 프로 멤버십 구독에 포함된 소라를 추가 비용 없이 체험할 수 있습니다. Plus는 최대 50개의 프리미엄 동영상, 최대 720p 해상도, 5초 길이를 생성할 수 있으며, Pro는 최대 500개의 프리미엄 동영상, 최대 1080p 해상도, 20초 길이를 생성하고 워터마크가 제거된 동영상을 생성할 수 있습니다.
샘 알트먼은 소라를 만든 세 가지 주요 이유를 설명했습니다.
첫째, 툴링 관점에서 OpenAI는 크리에이터를 위한 도구를 만드는 것을 좋아하며, 이는 회사 문화에 중요한 요소입니다.
둘째, 사용자 상호작용 관점에서 AI 시스템은 텍스트를 통해 서로 상호 작용할 수 있을 뿐만 아니라 비디오를 생성하여 인간이 AI를 사용할 수 있도록 도와야 합니다. 이는 중국의 대형 모델 회사들이 "모델이 양식을 확장할 때마다 사용자 보급률이 올라간다"고 이야기하는 것과 유사합니다.
셋째, OpenAI의 AGI 로드맵에서 중요한 기술적 관점에서 보면, AI는 물리 법칙을 이해하는 '세계의 모델'로 알려진 세상의 법칙에 대해 더 많이 배워야 합니다.
기술로 세상을 바꾸고 제품으로 인간의 창의성을 촉진하는 것, 이것이 바로 소라가 하는 일입니다.
01 서브씬 외에 동영상 생성, 특수 효과, 무한한 창작
Sora의 가장 기본적인 것은 우선 텍스트 생성 동영상, 그림 생성 동영상입니다. 비디오 기능입니다.
기본 인터페이스를 열면 사용자는 동영상으로 생성된 모든 콘텐츠를 보고 관리할 수 있으며, 그리드 보기와 목록 보기를 전환하고 폴더와 즐겨찾기 생성, 북마크 보기 등의 작업을 할 수 있습니다. 연구원들은 이 메인 인터페이스가 사용자가 스토리를 더 잘 만들 수 있도록 설계되었다고 말합니다.
메인 페이지 중앙 하단에는 텍스트 생성 동영상과 그래프 생성 동영상 기능이 있습니다.
예를 들어 샘 알트먼은 먼저 "사막을 걷는 털매머드, 광각 렌즈로 촬영"이라는 텍스트를 입력합니다. 그런 다음 화면 비율, 해상도, 길이(5~20초), 생성할 동영상 개수(최대 4개까지 선택 가능)를 선택해야 생성된 동영상을 얻을 수 있습니다.
마지막으로, 결과 동영상이 매우 사실적이고 질감이 있으며 일반적으로 입력한 지침을 따르는 것을 볼 수 있습니다. Sora의 동영상 생성 기능이 얼마나 잘 작동하는지 놀라지 않을 수 없습니다.
이미지 src="https://img.jinse.cn/7331528_image3.png">
"사막을 걷는 털매머드, 광각 렌즈로 촬영"이라고 입력합니다. "사막을 걷는 털매머드, 광각 렌즈로 촬영"이라는 텍스트를 입력하면 4개의 동영상이 생성됨 | 이미지 출처: OpenAI
그러나 이번에 Sora는 독점적이고 고급스러운 제품 기능도 공개했습니다. 긱 박이 보기에 이 기능들은 기본적으로 영상을 보다 정확하게 표현하는 기능, 즉 영상을 분할하고 효과를 추가하는 등 영상을 통해 전달하고자 하는 이야기를 만들 수 있는 기능에 중점을 두고 있습니다.
첫 번째로 연구진은 스토리보드를 '새로운 크리에이티브 도구'라고 설명합니다.
제품 디자인 측면에서 보면 스토리(동영상)를 타임라인 방식으로 여러 개의 스토리 카드(비디오 프레임)로 쪼개는 것과 같습니다. 사용자는 각 스토리 카드(비디오 프레임)를 디자인하고 조정하기만 하면 Sora가 자동으로 매끄러운 스토리(비디오)로 패치합니다 - 감독이 서브 장면을 그리고, 영화가 촬영되고, 만화가가 원고를 쓰고, 애니메이션의 원고가 디자인되는 영화의 서브 장면, 애니메이션의 원고와 매우 흡사합니다. 영화의 서브 플롯과 애니메이션 대본과 매우 유사합니다.
예를 들어, 연구원들이 구상한 첫 번째 서브 플롯은 "노란 꼬리를 달고 개울에 서 있는 아름다운 두루미"였습니다. 두 번째 서브플롯은 "두루미가 물속으로 머리를 내밀어 물고기를 잡는다"입니다. 소라가 한 일은 이 두 개의 스토리 카드(비디오 프레임)를 5초 정도의 간격을 두고 따로 제작하는 것이었습니다. 소라에게는 이 간격이 중요했는데, 두 가지 액션을 함께 플레이할 수 있는 여지를 주기 위해서였습니다.
그 결과 그는 '노란 꼬리를 달고 개울에 서 있는 아름다운 학'의 완전한 비디오 장면을 얻었습니다. 그리고 두루미가 물속으로 머리를 들이밀고 물고기를 잡습니다."


두 개의 스토리 카드(비디오 프레임)로 완전한 스토리(비디오)를 생성하는 Sora
이미지 출처: OpenAI
더 놀라운 점은 이 스토리보드에서 창의적인 요소가 스토리 카드뿐만 아니라 직접적일 수 있다는 사실입니다. 이미지, 비디오. 즉, 어떤 이미지나 동영상이라도 스토리보드로 가져와 스토리카드와 결합하여 무언가를 만들 수 있습니다.
예를 들어 동영상의 경우 앞서 언급한 백두루미의 영상을 잘라 스토리보드로 가져와서 잘라내면서 영상의 앞뒤에 틈을 남겨 창작 과정을 이어가는 방식으로 새로운 시작과 끝을 만들 수 있습니다.
이것은 스토리보드가 무한히 계속 만들어질 수 있다는 이미지를 떠올리게 합니다. 즉, 소라가 생성하는 20초 분량의 동영상은 마음에 드는 이상적인 장면이 될 때까지 만들고, 자르고, ...... 만들 수 있다는 뜻입니다. 이 과정은 마치 편집자나 감독이 끊임없이 분할 화면 디자인과 영상을 생성하고 편집하면서 자신이 생각한 영상을 천천히 잘라내는 것과 같습니다.
현실 세계와 달리 Sora는 무제한 영상을 제공합니다. 또한 다른 빈센트 동영상 제품과 달리 소라의 동영상은 수정 및 가공이 가능합니다. 따라서 사용자가 상상하고 있는 창의적인 아이디어에 더 부합하는 동영상을 제작할 수 있습니다.
사용자의 아이디어에 최대한 근접한 동영상을 생성하는 것이 Sora 제품의 핵심 아이디어인 것 같습니다.
이를 통해 텍스트를 통해 직접 동영상을 수정하고, 서로 다른 두 동영상을 매끄럽게 병합하고, 동영상에 직접 '특수 효과'를 추가하는 것과 같은 동영상 스타일을 변경하는 기능 등 Sora의 다른 기능에 대한 이해도를 높일 수 있습니다. 반면, 일반적인 텍스트 음성 변환 동영상 제품은 프롬프트를 계속 수정하고 동영상을 다시 생성해야 할 수 있습니다.
이미지 src="https://img.jinse.cn/7331531_image3.png">
텍스트를 조정하여 사용자는 다음을 수행할 수 있습니다. 동영상 직접 조정하기 | 이미지 출처: OpenAI

Sora는 두 단락으로 구성된 두 개의 동영상을 하나의 매끄러운 클립으로 병합할 수 있습니다 | 이미지 출처: OpenAI
전반적으로 Sora는 동영상 생성 기능이 놀랍도록 뛰어날 뿐만 아니라 동영상에 하위 범위, 클립 및 효과를 추가하는 것과 같은 보다 독점적인 동영상 제작 제품 기능을 제공합니다. 즉, 누구나 자신이 원하는 표현을 만들어 감독에 가까워질 수 있는 기회를 갖게 된 것입니다.
"버튼 하나만 클릭하면 영상이 생성될 것이라는 기대를 가지고 소라를 사용한다면 기대가 잘못되었다고 생각합니다." OpenAI 연구원이 말했습니다.
그는 소라는 사람들이 한 번에 여러 장소에 있고, 여러 아이디어를 시도하고, 이전에는 완전히 불가능했던 것들을 시도할 수 있게 해주는 도구이며, "우리는 실제로 소라가 크리에이터의 초특급 확장판이라고 생각합니다."라고 말했습니다.
02 서비스폭스바겐은 아직 별도로 충전하지 않으며 여전히 기본 모델의 성능에 의존합니다
빈센트 동영상 트랙의 선구자로서 소라는 일종의 가장 최근의 이에 대해 OpenAI 연구팀은 소라를 널리 배포하기 위해서는 모델을 더 빠르고 저렴하게 만들 방법을 찾아야 한다고 말했습니다. 이를 위해 연구팀은 많은 노력을 기울였습니다.
라이브 스트림에서 OpenAI는 기존 Sora 모델의 새로운 하이엔드 가속 버전인 Sora 터보의 출시를 발표했습니다. 이 버전에는 올해 초 OpenAI가 "월드 시뮬레이션 기술" 보고서에서 언급한 모든 기능에 텍스트, 애니메이션 이미지, 하이브리드 비디오에서 비디오를 생성하는 기능이 추가되었습니다. 이것이 바로 이 소라 제품 기능의 기술입니다.
비디오는 텍스트보다 추론하는 데 더 많은 비용이 들 것 같지만, OpenAI는 이번에 Sora에 대한 비용을 청구하지 않으며, ChatGPT Plus 회원은 월 $20, ChatGPT Pro 회원은 월 $200에 이용할 수 있습니다.
최대 720p 해상도, 5분 길이의 프리미엄 비디오를 최대 50개까지 생성할 수 있다는 것이 전자의 혜택이죠.
전자의 혜택에는 최대 720p 해상도, 5초 길이의 프리미엄 동영상 최대 50개, 후자의 혜택에는 최대 500개의 프리미엄 동영상, 최대 1080p 해상도, 20초 길이의 일반 동영상 무제한, 워터마크 없는 다운로드가 포함됩니다.
이미지 src="https://img.jinse.cn/7331533_image3.png">
회원마다 Sora에 액세스할 수 있는 등급이 다릅니다. 사용 수준 | 이미지 출처: OpenAI
Sora는 OpenAI에게 그 이상의 의미가 있습니다. 연구팀은 비디오 모델을 대규모로 학습시키면 소라가 실제 사람, 동물, 환경의 측면을 시뮬레이션할 수 있는 여러 가지 흥미로운 새로운 기능을 발휘한다는 사실을 발견했습니다. "우리의 연구 결과는 비디오 생성 모델을 확장하는 것이 물리적 세계의 범용 시뮬레이터를 구축하는 데 유망한 경로임을 시사합니다."
아마 그렇기 때문에 가능한 한 빨리 일반 대중에게 소라를 공개하고 이 데이터를 사용하여 세계 모델을 더 잘 훈련시키는 것이 궁극적인 AGI를 꿈꾸는 OpenAI에게 매우 중요한 이유일 것입니다.
기술을 반복적으로 발전시키는 과정에서 부수적으로 인간의 창조력도 발전하게 됩니다.
"이 버전의 소라는 실수도 하고 완벽하지는 않지만, 인간의 창의력을 향상시키는 데 매우 유용할 것으로 생각되는 단계에 이르렀습니다. 세상이 이 기술로 무엇을 할 수 있을지 기대가 됩니다." 이 기술을 개발한 OpenAI는 이렇게 말했습니다.