Written by |Miao Zheng
少し前にSoraがリリースされ、Stable AIがStable 3をリリースしました。クリエイティブなデザインにAIを使う人々にとって、今年は大きな年だったことは確かです。この記事では、そんなユーザーに向けて、Stable Diffusion 3の2つの特徴である「拡散変換モデル」と「フローマッチング」について、モデルリリース後の制作にもっと上手に使ってもらえるように、よりわかりやすい言葉で語ります。
拡散トランスフォーマー(略してDiTと呼びます) は、トランスフォーマーアーキテクチャに基づく画像の潜在変数拡散モデルです。トランスフォーマーアーキテクチャに基づく画像のための潜在変数拡散モデルです。Silicon Planet Proの記事「Sora: A Big Language Modelling Approach to Understanding Video and Surfing the Physical World」をお読みになった方なら、DiTsで何が出てくるかはもうお分かりでしょう。Soraのように「パッチ」という概念を使いますが、DiTsは画像を生成するために使われるので、Soraのようにフレーム間の論理的なつながりを維持する必要がなく、時間的・空間的なブロックを生成する必要がありません。
安定拡散3世代 DiTの場合、画像がDiTによってパッチに分割され、連続ベクトル空間に埋め込まれて、変換器が処理するための一連の入力を形成するという点で、4、5年前にコンピュータビジョン分野で旋風を巻き起こしたVision Transformer(ViT)に似ています。しかし、DiTがビジネスである以上、条件付き画像生成タスクでは、DiTがカテゴリーラベルやテキスト記述などの外部条件情報を受け取り、融合する必要があることにここで注意することが重要である。これは通常、モデルが与えられた条件情報に基づいて生成プロセスをガイドすることを可能にする、追加の入力ラベリングまたはクロスアテンションメカニズムを提供することによって達成されます。
その後、ブロックがDiTs内部に到着すると、DiTs内部のDiTブロックによって処理することができる。DiTブロックはDiTsの中核であり、拡散モデルで使用するために設計された特別な変換器構造である。画像や条件情報を処理することができる。一般的には、ブロック自体はblockと訳されるが、パッチと区別するために、ここではblockとだけ表記する。
安定した拡散3世代 DiTブロックは、クロスアテンション、adaLN、adaLN-Zero の3つのサブブロックに細分化される。クロスアテンションとは、マルチヘッド自己アテンション層の後に、追加のマルチヘッドクロスアテンション層を追加することで、生成された画像がキューワードによりよく一致するように、条件情報を使用して画像生成をガイドする役割を果たします。
adaLNのLNは、ニューラルネットワークの各層の内部ユニットの出力を正規化することで、内部の共変量シフト(covariate shifts)の問題を軽減することを指し、その結果、収束の速度とモデル学習中のパフォーマンスが向上する。adaLNは標準的なレイヤー正規化を拡張したもので、レイヤー正規化のパラメータを入力データや追加条件情報に応じて動的に調整することができる。これは、モデルの安定性と適応性を高めるために、自動車のサスペンションと同じように使用されます。
安定した拡散第3世代 次に、Stable AIは、γとβに加えて、次元レベルのスケーリングパラメータαを回帰し、DiTブロック内で残差が接続される直前にこれらのパラメータを適用することによって、adaLN DiTブロックの改良を行う。順番に、この1つのブロックはadaLN-Zeroであり、これは、モデルの効率的なトレーニングと最適化を容易にするために、残差ネットワークにおける有益な初期化戦略を模倣するために行われます。標準的な線形デコーダでは、これら2つの予測は入力画像と同じサイズと空間次元を持つ。最後のステップは、予測されたノイズと共分散値を得るために、これらのデコードされたトークンを元の空間レイアウトに並べ替えることです。ー
<ー "figcaption style="text-align: center;">安定拡散3世代 第2章、フロー・マッチング(以下FM) 。Stable AIによれば、CNFモデル学習に対する効率的でシミュレーション不要のアプローチであり、一般的な確率的経路を用いたCNF学習プロセスの監視を可能にする。
いわゆるCNFとは、Continuous Normalising Flows(連続正規化フロー)のことです。ディープラーニングにおける確率的で生成的なモデリング手法です。 CNFでは、単純な確率分布が、一連の可逆的かつ連続的な変換によって、複雑な高次元データの確率分布に変換されます。これらの変換は通常ニューラルネットワークによってパラメータ化され、元の確率変数が連続変換後のターゲットデータ分布をシミュレートできるようになります。平たく言えば、CNFはサイコロを振るようにデータを生成する。ー
<ー "figcaption style="text-align: center;">安定拡散3世代 CNFと比較して、FMは最適化手法とみなされるべきであり、その目的は、理想的な目標確率経路上のベクトル場にできるだけ近いベクトル場を生成するようにCNFモデルを訓練することである。
安定した拡散3生成 ステイブル・ディフュージョン3の2つの核となる技術的特徴を見れば、それが実際には「そら」に非常に近いことがわかるだろう。どちらもトランスフォーマーモデル(Stable Diffusionは以前はU-Netを使用していた)であり、どちらもブロックを使用し、どちらもエポック級の安定性と最適化を備えている。
しかし、この兄弟には根本的な違いがあります。それは、Soraはクローズドソースで、Stable Diffusion 3はオープンソースだということです。実際、MidjourneyとDALL-Eはクローズドソースだが、Stable Diffusionはオープンソースだ。Stable Diffusion 2とStable Diffusion XLは、生成される画像の美しさを向上させただけだが、Stable Diffusion 1.5では、すでに以下のことができる。Stable Diffusion 1.5では、すでにこのようなことが可能です。Stable Diffusion 3での革命的な改善を見て、オープンソースコミュニティの多くの人々の信頼を回復することができるでしょう。
安定した拡散3世代 興奮をさらに盛り上げるために、Stable AIのCEOであるモハマド・エマド・モスタク(Mohammad Emad Mostakはツイートで次のように述べた。Stable AIのリソースは、この分野のAIでは他社の100分の1にも満たないが、Stable Diffusion 3のアーキテクチャは、まだあまり発表できないものの、動画や画像以外のコンテンツを受け入れる準備はすでに整っている。
画像や動画は理解できますが、「その他の」コンテンツとはどういう意味ですか?実は、私が思いつくのは、音の一部から画像を生成するオーディオだけです。ちょっとわかりにくいですが、Stable AIの最新研究が発表されたら、すぐにチェックしたいと思います。
安定した拡散3世代