Author: Josie; Source: NewGeek
2日前、海外メディアは「そら」のコアチームへのインタビューを行ったが、元動画を見た後、彼らは全く何も語らず、その様子は国家発展改革委員会(NDRC)の馬主席が行ったスピーチと似ていた。
ネチズンの言葉を借りれば、まるでカメラに映っていない弁護士が暴力団に銃を突きつけているようだ。"ネチズン "の言葉を借りれば、カメラに映っていない弁護士が暴力団に銃を突きつけているようなものだ。
Soraが発売されて約1ヶ月が経つが、発売当初は以下のような感じだった。Soraは人々に無限のイマジネーションをもたらした見事で素晴らしいデバイスであり、多くの人がAGIがもうすぐやってくるとさえ言っている。
しかし、これまでSoraを使ってきた人はほんのわずかで、十分に良いものを使えないと、時間が経つにつれて興味を失ってしまいます。
人々がSoraをひっくり返し、もう話すことは何もないかのように話していたちょうどその時、OpenAIは何人かの人をインタビューに送り出した。
16分間のインタビューの中で、Soraチームの中心メンバーは多くのことを語っています。
16分のインタビューでは、Soraチームの中心メンバーが多くのことを語ったが、それはすべて既知の内容で、新しいものはなく、Soraの技術文書ほどの情報ではなかった。
外国人がどのように太極拳をするのか、見に来てください。
このインタビューに登場するSoraの中心メンバーは、Bill Peebles、Tim Brooks、Aditya Rameshの3人です。
まずは、誰もが気になる「Soraはいつリリースされるのか?
「ご心配なく、すぐに一般公開されることはありません。"
Soraのメンバーによると、Soraはまだ一般に公開されておらず、利用可能になる具体的なタイムラインもないとのことです。OpenAIはユーザーからのフィードバックを集めている段階で、人々がSoraをどのように使っているのか、どのようなセキュリティ作業が行われているのかについて、さらに話をしたいと考えています。
使うことはできないので、Soraがどのように実装されているのか探ってみましょう。はどのように実装されているのか。
Soraは、大量のビデオデータを分析し、ビデオを生成するために学習することで動作するビデオ生成モデルだと、Soraチームは言います。具体的な作業方法は、拡散モデル(DALL-Eなど)や大規模言語モデル(GPTファミリーなど)の技術を取り入れている。
GPTのような構造になっているという事実は、Soraが登場したときから多くの人に分析されており、Soraの主な技術的特徴の一つでもある。
次に、同様に興味深いことですが、そらのトレーニングデータはどこから来るのでしょうか?
コーヒーカップの中の海賊船であろうと、Soraが生成した公式ビデオの中の東京の街を歩く女性であろうと、Soraが世界の物理法則の多くを理解しているように見えることの表れです。
これまで、多くの伝承的な議論では、SoraはUE5で生成されたテキストとビデオを合成データとしてデータセットに追加した可能性が高いとされてきました。
このような疑問に対して、SoraのメンバーであるTim Brooks氏は明確な見解を示しませんでした。
このような質問に対して、ブルックスは明確な返答をせず、安全策をとり、あまり詳しく話す自由はないと言ったが、大体において、彼は一般に入手可能なデータとOpenAIが使用を許可されているデータを使用し、「技術革新」を共有したことを明らかにした。
以前は、画像であれ動画であれ、生成モデルは通常、単一の解像度の動画など、非常に固定されたサイズでトレーニングされていました。
Soraのトレーニングでは、アスペクト比、長さ、HD、低解像度に関わらず、多種多様な画像や動画を取り込み、一口サイズの塊に分割した。研究者たちは、入力ビデオのサイズに応じて異なる数のチャンクを認識するようにモデルを訓練することができ、これはまた、Soraが多種多様なデータから学習し、異なる解像度やサイズのコンテンツを生成するための柔軟性を与える。
Soraの技術文書にも記載されているこのテクニックは、パッチとして知られています。
ビッグ言語モデルはテキストをトークンとしてモデル化し、ビッグビデオモデルの場合、トークンはパッチです。
このテクニックはOpenAIによって作られたものではありません。そして、OpenAIがこの技術を使ったと発表したとき、なぜOpenAIは他人の技術を使って良いAI製品を作れるのかという議論が巻き起こりました。
そこで司会者はこう尋ねた。まだ足りない分野は何ですか?例えば、片手の指が6本あるビデオを見ました。
Soraチームはこう語る。Soraはリアルな動画を得意としており、1分程度の動画を生成することに長けています。しかし、手のディテール(すべてのAIの悪夢)カメラの軌跡、物理現象の変化など、まだいくつかの問題があります。
これに加えて、Soraチームは、プロンプトを除いて動画を合成して動画を生成するなど、クールな機能を導入しました。これにより、全く異なるテーマやシーンで構成されたビデオ間のシームレスなトランジションが可能になります。
OpenAIのTiktokには、コロッセオで変身したサンゴ礁の中を飛ぶ蝶に変身したドローンの動画があります。
技術的にも経験的にも、完全に異なる動画生成モデルであり、アディティヤ・ラメッシュは、彼らがやっていることは自然を模倣し、そしてそれを超越しているとさえ述べている!
これまでのところ、TiktokにおけるOpenAIのAI生成動画は、AIがシームレスに音を生成するのではなく、ナレーションを使っている。頻度である。
しかし、Pika Sound Effects機能のリリースにより、Soraプラスサウンドがすぐそこまで来ているかどうかはわかりません。
ホストに「Soraの次は何ですか?
1つ目は、Soraが人々にどのような価値をもたらしているのかについて、ユーザーからもっとフィードバックを得ることだ。
その一方で、Soraのセキュリティは強化される必要があり、OpenAIは起こりうるあらゆる影響を考慮する予定です。現在、動画に適用されるトレーサビリティ分類器は、動画がAIによって生成されたかどうかを識別できるように訓練されており、Soraが生成した動画にはすべて透かしが入れられている。
さらに、Soraチームは、AIによって生成された動画にも多くの機会があると述べている。アイデアから映画完成までのコストを劇的に削減でき、一人で映画を作ることも十分に可能だ。
彼らにとってさらにエキサイティングなのは、AIの新しいツールを使って、まったく新しいものを創造し、創造性の限界を押し広げ、不可能を可能にする人々が現れることだ。
しかし、これは科学者にとっては素敵な空想にすぎない。結局のところ、Soraが実際に一般人の手に届くようになるまでには、まだまだ時間がかかりそうだ。
そして、そらメンバーが明らかにしたように。AIは映像データから学習することで、映像制作以外にも役立つだろう。GPTのようなモデルは賢いですが、私たちと同じように世界を "見る "ことができなければ、何らかの情報を見逃していることになります。Soraのようなモデルは、この問題を解決しています。
これは、AGIがやってくるという確認なのでしょうか?
最後のモデレーターが興味深い質問をした。
「状況にもよりますが、その場を離れてコーヒーを飲みに行き、戻ってきてもまだ処理中です。
以上がSoraチームへのインタビューですが、簡単にまとめると、Soraは素晴らしく、世界を見ることができる。そのため、一般の人がすぐに使えるようにすることはできないし、セキュリティの面でもまだやるべきことがたくさんある。
うーん、どんな仕事も軽いものにはかじりつきません。