mpa-from-tpl="t">mpa-paragraph-type="ignored">出典:Geekpark
案の定、12日間のライブ配信の3日目に、OpenAIはリテレートビデオ製品であるSoraを正式に発表しました。
北京時間12月10日午前2時。Sam Altman氏とOpenAIの内部スタッフ数名が、ライブストリームでSoraの機能と実際の使用例を実演しました。今年2月のサンプル動画公開後、Soraは世界的なAIブームを巻き起こし、それ以来、国内外のAI企業がリテラシーの高い動画製品を発表している。今日、この分野のパイオニアであるSoraが、ついにその謎を解き明かす。
全体として、Soraは現行の文春ビデオ製品のビデオ生成の質、機能の独創性、技術の複雑さを上回ることを示す一連の製品機能を実演した。
テキストや画像による動画生成という基本的な機能に加え、ストーリーボード(画面分割による独自のストーリー作成に相当)、テキストによる元動画の調整、異なるシーンの動画のブレンド(動画に直接特殊効果を加えることに相当)などが追加されている。製品全体の機能設計は、動画を制作者の自己表現に近づけ、理想的なカメラを完成させる手助けをしているようだ。
ローカル
米国をはじめとするほとんどの国のユーザーは、ChatGPT PlusとChatGPT Proのメンバーシップサブスクリプションに追加料金なしで含まれているSoraを、現地時間の12月9日以降に体験できるようになります。Plusは最大50本、解像度720p、長さ5秒のプレミアムビデオを生成し、Proは最大500本、解像度1080p、長さ20秒のプレミアムビデオを生成し、ウォーターマークを削除します。
サム・アルトマン(Sam Altman)は、Soraを開発した3つの主な理由を次のように説明しました:
第一に、ツールの観点から、OpenAIはクリエイターのためのツールを作ることを好みます。
第二に、ユーザーとのインタラクションの観点から、AIシステムは単にテキストを通じて相互に作用するだけでなく、人間がAIを使用するのを助けるためにビデオを理解し生成する必要があります。これは、中国の大手モデル企業が「モデルがそのモダリティを拡大するたびに、ユーザーの普及率が上がる」と話していることに似ている。
これは、中国の大手モデル企業が「モデルがそのモダリティを拡大するたびに、ユーザーの普及率が上がる」と話していることに似ている。
第三に、技術的な観点から、これはOpenAIのAGIロードマップにとって重要なことですが、AIは世界の法則についてもっと学ぶべきであり、これはまさに物理法則を理解する「世界のモデル」として知られているものです。
テクノロジーで世界を変えることも、製品で人間の創造性を促進することも、Soraが行っていることだ。
01 サブシーンに加えて動画を生成し、さらに特殊効果、無制限の創造
そらの最も基本的なものは、まずテキスト生成動画、フィギュア生成動画機能です。ビデオ機能です。
メインインターフェイスを開くと、ユーザーはすべての動画生成コンテンツを閲覧・管理でき、グリッドビューとリストビューを切り替えられるほか、フォルダやお気に入りの作成、ブックマークの閲覧などが可能です。研究者によれば、このメイン・インターフェースは、ユーザーがストーリーを作成するのをよりよく助けるように設計されているとのことだ。
メインページの中央下部には、Soraのテキスト生成ビデオとグラフ生成ビデオ機能がある。
たとえば、サム・アルトマンにはまず「砂漠を歩くウーパールーパーを広角レンズで撮影」というテキスト入力が与えられる。次に、生成された動画を得るために、アスペクト比、解像度、継続時間(5~20秒)、生成したい動画の数(最大4つまで選択可能)を選択する必要があります。
最後に、生成された動画は非常にリアルで、テクスチャがあり、入力された指示に概ね従っていることがわかります。Soraのビデオ生成機能がいかに優れているかは、おそらく驚くほどのことではないでしょう。

「砂漠を歩くウーパールーパー、広角レンズで撮影」と入力。Soraは「広角レンズで撮影された、砂漠を歩くウーリーマンモス」というテキストを入力すると、4つの動画を生成する|Image credit: OpenAI
しかし今回、Soraは一連の独占的で高度な製品機能も発表しました。Geek Parkの見解では、これらの機能は基本的に、より正確な動画表現、つまり、動画を分割したり、エフェクトを追加したりすることで、動画を通して伝えたいストーリーを作成する機能が中心となっています。
最初に紹介するのはストーリーボードで、研究者はこれを「まったく新しいクリエイティブツール」と表現している。
製品デザインで言えば、ストーリー(動画)をタイムライン方式でいくつかの異なるストーリーカード(動画フレーム)にスライスすることに相当する。ユーザーは各ストーリーカード(ビデオフレーム)をデザインし、調整するだけで、Soraは自動的にそれらをスムーズなストーリー(ビデオ)にパッチします。映画の小場面やアニメの原稿によく似ている。
たとえば、研究者たちが思い描いた最初のサブプロットは、"黄色い尾を引いて小川に立つ美しい鶴 "だった。2つ目のサブプロットは、"鶴が水に頭を突っ込んで魚を捕まえる"。そして、この2つのストーリーカード(ビデオフレーム)を別々に、約5秒の間隔を空けて作成した。この間隔はソラにとって重要で、2組のアクションを一緒に遊ぶ余地を与えた。
最終的に、彼は「美しい鶴が黄色い尾を引いて小川に立っている」という完全なビデオショットを手に入れた。そして、鶴は水の中に頭を突っ込み、魚を捕まえる。"


2つのストーリーカード(ビデオフレーム)を使って、Soraは完全なストーリー(ビデオ)を生成する|Image credit: OpenAI
さらに驚くべきは、このストーリーボードでは、クリエイティブな要素はストーリーカードだけでなく、直接的な画像や動画にもなるという事実です。画像や動画であることもあります。つまり、どんな画像や動画でもストーリーボードに引き込むことができ、ストーリーカードと組み合わせて、それに関する何かを作り出すことができる。
たとえばビデオの場合、研究者たちは前述のアメリカシロヅルのビデオをカットしてストーリーボードに取り込み、カットすることで、ビデオの前後に隙間ができ、創作プロセスを続けることができる。つまり、新たな始まりと終わりがあり得るということだ。
このことから、ストーリーボードは無限に作り続けることができるというイメージが浮かび上がる。つまり、ソラが生成する20秒のビデオは、まさに理想的なショットになるまで、作成、カット、作成......を繰り返すことができるのです。このプロセスは、まるで編集者や監督のように、常に分割画面のデザインや映像を生成・編集することで、自分の思い描く映画をゆっくりと切り出していくようなものだ。
現実世界とは異なり、Soraは無制限に映像を提供します。また、他のヴァンセンヌのビデオ製品とは異なり、Soraのビデオは修正や加工が可能です。そのため、Soraが生成する動画は、ユーザーが思い描く想像力豊かでクリエイティブなアイデアに沿ったものになるはずだ。
これがSoraの製品の核心的な考え方のようだ:生成されるビデオをユーザーのアイデアにできるだけ近づける。
このことは、Soraの他の機能、例えば、テキストを通して直接ビデオを修正する機能、2つの異なるビデオをシームレスに結合する機能、ビデオのスタイルを変更する機能(これはビデオに直接「特殊効果」を追加することに等しい)に対する理解を深めることになる。対照的に、典型的な音声合成ビデオ製品は、常にプロンプトを微調整し、ビデオを再生成する必要があるかもしれません。

テキストを調整することで、ユーザーは次のことができます。動画を直接調整する|画像引用元:OpenAI

Soraは、2つの2段落の動画を1つのシームレスなクリップに統合することができます|Image credit: OpenAI
全体的に、動画を生成することに驚くほど優れていることに加えて、Soraは、動画にサブスコープ、クリップ、エフェクトを追加することに相当する、より排他的な動画作成製品機能をもたらします。つまり、誰もが本当に望む表現を作り出し、監督に近づけるチャンスがあるということだ。
「ボタンをクリックするだけで、映画を生成できると思ってSoraに入ったとしたら、その期待は見当違いだと思います。とOpenAIの研究者は語った。
彼は、Soraは人々が一度に複数の場所にいることを可能にし、複数のアイデアを試すことを可能にし、以前は完全に不可能だったことを試すことを可能にするツールであり、"我々は実際にそれがクリエイターの超特別な拡張であると考えている "と述べた。
02サービスフォルクスワーゲンはまだ別途課金しておらず、まだ根本的なモデルの力に頼っている
ヴィンセントのビデオトラックのパイオニアとして、Soraはある種のものを立ち上げた。最新のものだ。これに対し、OpenAIの研究チームは、Soraを広く展開するためには、モデルをより高速で安価にする方法を見つける必要があると述べています。そのために、研究チームは多くの仕事をしてきた。
ライブストリームの中で、OpenAIはSora turboの発売を発表した。これは、今年初めにOpenAIが「世界のシミュレーション技術」報告で語ったすべての機能に加えて、テキスト、アニメーション画像、ハイブリッド動画から動画を生成する機能が追加されています。それが、このSora製品の特徴を支える技術です。
動画はテキストよりも理屈が高いように思えるかもしれませんが、OpenAIは今回、Soraだけに課金しているわけではなく、ChatGPT Plusメンバーは月額20ドル、ChatGPT Proメンバーは月額200ドルで利用できます。
前者の特典には、最大解像度720p、時間5分のプレミアム動画が50本まで含まれています。
前者の特典には、最大50本のプレミアムビデオ(解像度720p、再生時間5秒)が含まれ、後者の特典には、最大500本のプレミアムビデオ、無制限の通常ビデオ(解像度1080p、再生時間20秒)、ウォーターマークなしのダウンロードが含まれます。

会員によって、Soraへのアクセスレベルは異なります。利用レベル | Image credit: OpenAI
Sora は OpenAI にとってそれ以上の意味を持ちます。研究チームは、Soraが現実世界の人、動物、環境の側面をシミュレートすることを可能にし、大規模に訓練されたときに、ビデオモデルが多くの興味深い新しい能力を示すことを発見した。"我々の結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレータを構築するための有望な道であることを示唆している。"
おそらくそれが、Soraをできるだけ早く一般公開し、そのデータを使って世界のモデルをよりよく訓練することが、OpenAIの最終的なAGIの夢にとって非常に重要な理由なのだろう。
技術を反復する過程で、それはまた付随的に人間の創造を進歩させる。
「Soraのこのバージョンは間違いを犯しますし、完璧ではありませんが、人間の創造性を高めるのに非常に役立つと思われるところまで来ています。このソラを使って世界が何をするのか、楽しみでなりません」。と、これを構築したOpenAIは語った。