출처: 하트 오브 더 머신
12일 연속 작업 중인 OpenAI의 세 번째 작업일, 드디어 헤비급 출시가 시작되었습니다!
< p>방송 전 댓글에서 예상했던 대로, 영상 제작의 대세 모델인 소라의 정식 버전이 드디어 공개되었습니다!
올해 2월 16일에 소라가 공개된 이후 약 10개월이 지났습니다.
이제 드디어 Sora의 강력한 동영상 생성 기능을 체험할 수 있게 되었습니다!
이미지 src="https://img.jinse.cn/7331379_image3.png">
동시에 OpenAI는 2월의 프리뷰 버전보다 훨씬 더 빠른 새로운 버전의 Sora, Sora Turbo를 개발했습니다. 모델보다 훨씬 빨라졌습니다. 이 버전은 현재 ChatGPT Plus 및 Pro 사용자를 위한 독립형 제품으로 제공됩니다.
이미지 src="https://img.jinse.cn/7331380_image3.png">
오늘 라이브스트림에 따르면, 소라 사용자는 와이드스크린, 세로 또는 정사각형으로 최대 20초 분량의 1080p 해상도 동영상을 생성할 수 있습니다. 또한 사용자는 리소스를 확장, 리믹스 및 혼합하거나 텍스트를 기반으로 완전히 새로운 콘텐츠를 생성할 수 있습니다. openAI는 텍스트, 이미지 및 비디오로 Sora를 더 쉽게 큐업할 수 있는 새로운 인터페이스와 각 프레임에 대한 정확한 입력을 지정할 수 있는 스토리보드 도구를 개발했습니다.
생성된 비디오의 몇 가지 예를 살펴보면 다음과 같습니다.
이미지: 영상은 안개가 자욱하고 색상이 대비되어 있으며 가시성이 낮은 카메라 화질의 느낌을 살려 즉각적이고 혼돈스러운 느낌을 줍니다. 이 장면은 17세기 해적선에 탑승한 선원의 시점으로 흔들리는 카메라 영상을 보여줍니다. 파도가 나무로 된 선체에 부딪히면서 수평선이 심하게 흔들려 세부 사항을 식별하기 어렵습니다. 갑자기 거친 바다에서 거대한 바다 괴물이 갑자기 나타납니다. 거대하고 미끄러운 촉수가 위험하게 뻗어 나오고 끈적끈적한 부속물이 무서운 힘으로 배를 감싸고 있습니다. 선원들이 공포에 질린 채 이 무시무시한 바다 생물과 맞서 싸우면서 풍경이 극적으로 변합니다. 혼돈 속에서 배의 신음 소리와 바다의 포효가 들릴 정도로 긴장감이 감도는 분위기입니다.
힌트: 록펠러 센터에는 골든 리트리버가 가득해요! 어디를 둘러봐도 골든 리트리버를 볼 수 있습니다. 이곳은 거대한 크리스마스 트리가 있는 뉴욕의 겨울 원더랜드입니다. 택시와 다른 뉴욕의 요소들을 배경으로 볼 수 있습니다
샘 알트먼은 다른 사람들과 함께 창작하는 것이 새롭고 재미있다는 점이 자신을 가장 흥분시키는 요소 중 하나라고 말합니다. 사람들은 소라를 GPT-1의 비디오 버전이라고 생각할 수 있습니다.
OpenAI 연구 과학자 노암 브라운은 소라가 규모의 힘을 가장 시각적으로 보여준다고 말합니다.
소라의 출시에 대해 어떤 사람들은 역대 최고의 크리스마스 선물이라고 말했고, 어떤 사람들은 소라가 게임 체인저가 될 것이라고 주장했습니다.
텍스트, 이미지 또는 동영상으로 상상의 나래를 펼치세요
설레는 마음으로 기계의 심장도 소라를 손에 넣고 싶어했습니다! center;">체험하기 https://sora.com/onboarding
그런 다음, 공식 출시와 함께 독자들에게 소라의 기능을 소개합니다.
리믹스를 사용하여 동영상에서 요소를 교체, 삭제 또는 재구성하기
도서관의 문 열기
> p>
프렌치 도어로 문 교체
문 밖 장면을 달 풍경으로 대체
재- 컷: 최적의 프레임을 찾아서 분리한 다음 어느 방향으로든 확장하여 장면을 완성
스토리보드: 타임라인에서 비디오의 고유 시퀀스를 구성하고 편집
비디오의 첫 114프레임의 장면은 "멀리 우주선이 정박해 있는 광대한 붉은 풍경. ."
그런 다음 비디오의 114-324 프레임의 장면을 "우주선 안에서 바라보면, 우주 카우보이가 프레임 중앙에 서 있습니다."로 변환할 수 있습니다.
마지막으로 비디오는 "니트 천으로 만든 마스크로 가려진 우주비행사의 눈을 클로즈업한 장면"이라고 설명할 수 있습니다.
루프: 루프를 사용하여 매끄럽게 반복되는 동영상을 편집하고 제작
strong>Blend: 두 개의 동영상을 하나의 매끄러운 클립으로 병합
스타일 프리셋: '프리셋'을 사용하여 나만의 상상력을 자극하는 스타일을 만들고 공유
Sora가 생성하는 더 멋진 동영상에는 일반적인 상상력이 필요합니다.
소라 공식 시스템 카드
소라가 처음 출시된 2월, OpenAI는 소라에 대한 기술 보고서를 발표했습니다.
OpenAI는 비디오 생성 모델을 확장하는 것이 물리 세계의 범용 시뮬레이터를 구축하는 유망한 방법이라고 주장했습니다.
오늘 Sora의 출시와 함께 OpenAI는 Sora용 시스템 카드도 공개하여 관심 있는 개발자들이 기술적인 세부 사항을 살펴볼 수 있도록 했습니다.
이미지 src="https://img.jinse.cn/7331391_image3.png">
주소: https:// openai.com/index/sora-system-card/
Sora는 텍스트, 이미지, 동영상 입력을 받아 새로운 동영상을 출력으로 생성하도록 설계된 OpenAI의 동영상 생성 모델입니다. 사용자는 최대 1080p 해상도(최대 20초)의 동영상을 다양한 포맷으로 제작할 수 있습니다.
Sora는 DALL・E 및 GPT 모델을 기반으로 하며, 창의적인 표현을 위한 도구를 제공하도록 설계되었습니다.
Sora는 정적인 노이즈처럼 보이는 기본 영상에서 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점차적으로 변형하여 새로운 영상을 생성하는 확산 모델입니다. 한 번에 여러 프레임 예측을 모델에 제공함으로써 Sora는 프레임의 피사체가 일시적으로 시야에서 벗어난 경우에도 그대로 유지되도록 하는 까다로운 문제를 해결합니다. GPT 모델과 마찬가지로 Sora는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 구현합니다.
Sora는 시각 훈련 데이터에 대해 설명력이 높은 캡션을 생성하는 DALL・E 3의 리캡처링 기법을 사용합니다. 그 결과, Sora는 생성된 영상에서 사용자의 텍스트 지시를 보다 충실히 따를 수 있습니다.
모델은 텍스트 지침만으로 비디오를 생성할 수 있을 뿐만 아니라 기존 정지 이미지를 가져와 비디오를 생성하여 이미지 콘텐츠에 세심한 주의를 기울여 정확하게 애니메이션을 적용할 수 있습니다. 또한 기존 비디오를 가져와 확장하거나 누락된 프레임을 채울 수도 있습니다. sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 토대이며, OpenAI는 sora를 AGI로 나아가는 중요한 이정표로 보고 있습니다.
데이터 측면에서 OpenAI가 2월 기술 보고서에서 설명한 것처럼, sora는 인터넷 규모의 데이터로 훈련된 대규모 언어 모델에서 영감을 얻어 제너럴리스트 기능을 확보했습니다. lLM은 토큰 사용 방식을 혁신함으로써 새로운 패러다임을 구축할 수 있었습니다. 연구원들은 코드, 수학, 다양한 자연어 등 여러 가지 텍스트 양식을 영리하게 결합했습니다.
Sora에서 OpenAI는 시각 데이터를 생성하는 모델이 이러한 접근 방식의 이점을 어떻게 상속받을 수 있는지 고려합니다. 대규모 언어 모델에는 텍스트 토큰이 있는 반면, Sora에는 시각적 패치가 있으며, 이전 연구에 따르면 패치가 시각 데이터 모델의 효과적인 표현이라는 것이 입증되었습니다. OpenAI는 패치가 다양한 유형의 비디오와 이미지를 생성하는 모델을 학습시키는 데 확장 가능하고 효과적인 표현이라는 것을 발견했습니다.
큰 틀에서 OpenAI는 먼저 비디오를 저차원 잠재 공간으로 압축한 다음 시공간 패치로 분해하여 패치로 변환합니다.
소라는 공개된 데이터, 파트너를 통한 독점 데이터, 자체 개발한 맞춤형 데이터 세트 등 다양한 데이터 세트에 대해 학습을 진행했습니다.
ul class=" list-paddingleft-2">
공개적으로 사용 가능한 데이터. 이 데이터는 주로 업계 표준 머신 러닝 데이터 세트와 웹 크롤러에서 수집됩니다.
데이터 파트너의 독점 데이터.OpenAI는 비공개 데이터에 액세스하기 위해 파트너십을 구축합니다. 예를 들어, Shutterstock Pond5와 협력하여 AI가 생성한 이미지를 구축하여 제공하며, OpenAI는 자체 필요에 맞는 데이터 세트의 생성도 의뢰합니다.
인공 데이터. AI 트레이너, 레드팀 선수 및 스태프의 피드백.
더 자세한 내용은 시스템 카드 프레젠테이션에서 확인할 수 있습니다.
가격 형평성
오픈AI는 소라의 공식 출시와 함께 사용 가격도 발표했습니다. 이 역시 저렴하지는 않을 것으로 보입니다.
한 달에 20달러에 ChatGPT Plus 사용자가 이용할 수 있는 동영상 생성 혜택은 다음과 같습니다.
월 $200의 ChatGPT Pro 사용자에게 제공되는 동영상 생성 혜택은 다음과 같습니다:
최대 500개의 우선순위 동영상(10,000 크레딧)
무제한의 편안한 동영상
최대 1080p의 해상도, 최대 20초 길이, 최대 5개 동시 생성 기능