ソース:Heart of the Machine
OpenAIの12日連続営業3日目、いよいよヘビー級のリリースが登場です!
放送前のコメント欄で予想されていた通り、ついに映像世代のビッグモデル「そら」の正式版が公開されました!
今年2月16日に発売されてから約10ヶ月。
これでようやく、Soraの動画生成機能の実力を体感することができます!
一方、OpenAIはSoraの新バージョンであるSora Turboを開発しました。モデルよりもはるかに高速でした。このバージョンは、ChatGPT PlusとProユーザー向けに、スタンドアロン製品として本日から提供されています。
今日のライブストリームによると、Soraユーザーは1080pの解像度で、最大20秒、ワイドスクリーン、縦長、正方形のビデオを生成できます。openAIは、Soraをテキスト、画像、動画でキューアップするのを簡単にする新しいインターフェースと、ユーザーが各フレームの正確な入力を指定できるストーリーボードツールを開発しました。
まずは、生成された映像の例をいくつか見てみましょう。
キュー: 映像は霧がかかっており、対照的な色彩で、視認性の低いカメラ画質の雰囲気を捉えており、即時性とカオス感を提供しています。このシーンでは、17世紀の海賊船の船員の視点から、手ぶれカメラの映像が映し出される。波が木造の船体にぶつかり、水平線が激しく揺れ、細部を見極めるのが難しくなる。突然、荒波の中に巨大な海の怪物がどこからともなく現れる。その巨大でヌルヌルした触手が危険なまでに伸び、ぬるぬるした付属物が恐ろしい力で船を包み込む。船員たちはパニックに陥り、恐ろしい海の生き物に立ち向かおうと奔走し、景色は一変する。緊迫した雰囲気のなか、船のうめき声と海の轟音が聞こえてくる。
ヒント:ロックフェラー・センターにはゴールデンレトリバーがたくさんいる!どこを見てもゴールデンレトリバーだらけ。巨大なクリスマスツリーもあり、夜のニューヨークは冬のワンダーランドです。背景にはタクシーや他のニューヨークの要素も見えます
サム・アルトマンは、最も興奮することのひとつは、他の人々と簡単に共同制作できることであり、それは楽しい新しいことのように感じられると言います。
OpenAIの研究科学者であるノーム・ブラウン氏は、Soraはスケールの力を最も視覚的に示すものだと述べています。
Soraのリリースに対して、最高のクリスマスプレゼントだと言う人もいれば、Soraはゲームチェンジャーになるだろうと主張する人もいた。
興奮とともに、マシンの心臓部も「そら」を手に入れたがった!center;">https://sora.com/onboarding
それではまず、正式リリースされたSoraで何ができるかを読者にお見せしましょう。
Remixを使って、ビデオの要素を置き換えたり、削除したり、再構築したり
Opening the Door to the Library
ドアをフレンチドアに取り替える
⇦ドアの外の風景を月の景色に置き換える
再cut: 最適なフレームを見つけて分離し、どちらかの方向に伸ばしてシーンを完成させる
ストーリーボード: 動画のユニークなシークエンスをタイムライン上で整理して編集する
動画の最初の114フレームには、「広大な赤い風景が広がり、遠くに宇宙船が停泊している。."
動画の114~324フレームのシーンは、"宇宙船の中から外を見ると、フレームの中央にスペースカウボーイが立っている "と読めるように変形できる。
最後に、動画は "編み物でできたマスクに縁取られた宇宙飛行士の目のアップショット "と表現できる。
⇦ループ:ループを使って、シームレスに繰り返される動画を編集・作成
する。strong>ブレンド: 2つの動画を1つのシームレスなクリップに統合します
スタイルプリセット: 「プリセット」を使って、自分の想像力を刺激するスタイルを作成し、共有します
Soraによって生成される、より魅力的な動画を作成するには、一般的な想像力が必要になります。
Sora公式システムカード
Soraが初めてリリースされた2月に、OpenAIはSoraに関する技術レポートを発表しました。
OpenAIは、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する有望な方法であると主張しました。
今日、Soraのリリースに伴い、OpenAIはSoraのシステムカードもリリースしました。
アドレス: https://openai.com/index/sora-system-card/
SoraはOpenAIのビデオ生成モデルで、テキスト、画像、ビデオの入力を受けて、出力として新しいビデオを生成するように設計されています。ユーザーは、さまざまなフォーマットで最大解像度1080p(最大20秒)の動画を作成できます。
Soraは、DALL・EおよびGPTモデルを基盤としており、人々に創造的な表現のためのツールを提供するように設計されています。
Soraは拡散モデルであり、静的ノイズのようなベースビデオから新しいビデオを生成し、複数のステップでノイズを除去することによって徐々に変換します。一度に複数のフレーム予測をモデルに提供することで、Soraは、一時的に視野から外れてもフレームの被写体が損なわれないようにするという困難な問題を解決します。GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを使用して、優れたスケーリング性能を解き放ちます。
Soraは、DALL・E 3のリキャプション技術を使用しており、視覚学習データに対して非常に説明的なキャプションを生成します。その結果、Soraは、生成されたビデオにおいて、ユーザーのテキストによる指示により忠実に従うことができます。
このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取り込み、そこからビデオを生成することもできます。soraは、現実世界を理解し、シミュレートできるモデルの基礎であり、OpenAIはsoraをAGIへの道における重要なマイルストーンと見なしている。
データ面では、OpenAIが2月のテクニカルレポートで説明したように、Soraは大規模言語モデルからインスピレーションを得ている。lLMは、トークンの使用方法を革新することで、新しいパラダイムを確立することができた。研究者たちは、コード、数学、さまざまな自然言語など、テキストの複数のモダリティを巧みに統合した。
Soraにおいて、OpenAIは視覚データを生成するモデルが、このアプローチの利点をどのように受け継ぐかを考えています。
大規模な言語モデルがテキストトークンを持つのに対し、Soraは視覚的なパッチを持ち、以前の研究では、パッチが視覚データモデルの効果的な表現であることが実証されています。
openAIは、パッチが、さまざまな種類のビデオや画像を生成するモデルをトレーニングするためのスケーラブルで効果的な表現であることを発見しました。
高度なレベルでは、OpenAIはまずビデオを低次元の潜在空間に圧縮し、その表現を時空間パッチに分解することでパッチに変換します。
Soraは、一般公開されているデータ、パートナー経由の専有データ、社内で開発したカスタムデータセットなど、さまざまなデータセットでトレーニングされています:
公開データ。このデータは主に、業界標準の機械学習データセットやウェブクローラから収集されたものです。
データパートナーからの独自データ。OpenAIは非公開データにアクセスするためのパートナーシップを確立しています。例えば、Shutterstock Pond5と協力して、AIが生成した画像を構築し、利用できるようにしています。OpenAIはまた、独自のニーズに合わせたデータセットの作成を委託しています。
人工データ。AIトレーナー、レッドチームの選手、スタッフからのフィードバック。
詳細については、システムカードのプレゼンテーションをご覧ください。
価格の公平性
もちろん、Soraの正式リリースに伴い、OpenAIは使用価格も発表しています。
ChatGPT Plusのユーザーが月額20ドルで利用できる動画生成の特典は以下の通りです。paddingleft-2">
最大50本の優先動画(1,000クレジット)
解像度は720p、5秒まで
月額200ドルのChatGPT Proユーザー向けの動画生成特典には以下が含まれます:
最大500本の優先動画(10,000クレジット)
無制限のリラックス動画
最大1080pの解像度、最大20秒の継続時間、最大5本の同時生成機能
これだけ期待されています。皆さんは急いでいますか?