618ZXW

ByteDance は NeurIPS 最優秀論文賞を受賞した直後に、VAR テキスト画像化バージョンをオープンソース化し、最先端 (SOTA) ステータスを達成して、拡散モデルに勝利しました。

文勝図(絵画の一種)が戻ってきてから、新たな王が現れた。

ByteDance の商業化技術チームが開発した新しいオープンソース モデル Infinity は、Diffusion Model を上回ります。

なお、これは実際には、少し前に NeurIPS 最優秀論文賞を受賞したVAR論文から派生したテキストベースの画像のバージョンです。

Infinityは、次世代の解像度予測に基づき、より細粒度のビット単位トークナイザーを用いて画像空間をモデル化します。また、語彙を無限大に拡張することで、画像トークナイザーの表現空間を拡大し、自己回帰テキスト生成画像の上限を大幅に引き上げました。さらに、モデルサイズを20バイトに拡張しました。

その結果、画像生成品質においてStable Diffusion3を直接上回っただけでなく、推論速度においてもVARの速度優位性を完全に継承しました。2Bモデルでは同サイズのSD3の3倍、Flux devの14倍、8Bモデルでは同サイズのSD3.5の7倍の速度を実現しました。

モデルとコードは現在オープンソースになっており、デモ Web サイトも利用可能です。

具体的な内容を見てみましょう。

新王の土文勝が帰国して以来

自己回帰モデルと拡散モデルとの過去の比較では、自己回帰モデルは低品質の画像を生成し、高頻度の詳細が欠如しているとして広く批判されてきました。

この文脈において、Infinity は豊富なディテールを備えた画像を生成し、さまざまなアスペクト比の画像も生成できるため、VAR が動的解像度をサポートしていないという長年の懸念が解消されます。

特定のパフォーマンスの点では、純粋な離散自己回帰テキスト グラフ モデルとして、Infinity は自己回帰メソッドのグループの中で際立っており、HART、LlamaGen、Emu3 などのメソッドをはるかに上回っています。

同時に、Infinity は、SDXL や安定拡散 3 などの拡散アプローチにおける最先端 (SOTA) 手法も上回っています。

人間による評価では、ユーザーは、全体的な画像品質、コマンドのコンプライアンス、および美観を考慮して、Infinity によって生成された画像と、HART、PixArt-Sigma、SD-XL、および SD3-Meidum によって生成された画像との二重盲検比較を実施しました。

HARTは、拡散モデルと自己回帰モデルを組み合わせたVARアーキテクチャに基づく手法です。PixArt-Sigma、SD-XL、SD3-Meidumは最先端の拡散モデルです。

Infinity は、約 90% のビート レートで HART モデルを上回り、自己回帰モデルの中で強力な地位を確立しました。

さらに、Infinity は、75%、80%、65% のビート率で PixArt-Sigma、SD-XL、SD3-Meidum などの最先端の拡散モデルを上回り、Infinity が同サイズの拡散モデルを上回ることができることを証明しました。

それで、これは具体的にどのように達成されるのでしょうか?

Bitwise Token の自己回帰モデリングにより、モデルの高頻度表現が向上します。

最もシンプルな真実は、往々にして最善です。Infinityの核となるイノベーションは、自己回帰型のBitwise Tokenフレームワークにあります。

元の「インデックス単位のトークン」を破棄し、+1 または -1 で構成される細粒度の「ビット単位のトークン」を使用して、次のレベルの解決を予測します。

このフレームワーク内で、 Infinity は強力なスケーリング機能を発揮し、ビジュアル トークナイザーとトランスフォーマーを継続的にスケーリングすることで、より優れたパフォーマンスを実現します。

ビットワイズトークン自己回帰フレームワークにおける重要な技術は、マルチスケールのビット粒度ビジュアルエンコーダー (Visual Tokenizer) です。

H×W×3の画像を1×1×d、2×2×d、…、h×w×dといったマルチスケール特徴量にエンコードおよび量子化します。ここで、dはビジュアルエンコーダの次元であり、各次元は+1または-1です。語彙サイズは2dです。従来の手法では、d次元の特徴量をさらにインデックスワイズトークン(インデックスの範囲は0から2d-1)に結合していました。このインデックスワイズトークンは、多クラス予測のラベルとして使用され、クラスの総数は語彙サイズ、つまり2dに等しくなります。

インデックスワイズトークンはファジー監視の影響を受けます。下図に示すように、量子化前の連続特徴量に小さな摂動(0.01が-0.1になる)が加わると、インデックスワイズトークンのラベルは劇的に変化し(9が1になる)、モデルの最適化が困難になります。

対照的に、ビットワイズトークンでは1つのビットタグのみが反転され、他のビットタグは安定した監視を維持します。インデックスワイズトークンと比較して、ビットワイズトークンは最適化が容易です。

研究者は、同じ実験設定でインデックスワイズトークンとビットワイズトークンを比較しました。

結果は、ビット単位のトークンを予測することで、モデルがよりきめ細かい高周波信号を学習し、より詳細な画像を生成できることを示しています。

無限の語彙により、トークナイザーの表現空間が拡張されます。

情報理論の観点から見ると、拡散モデルは無限に大きい連続的な視覚トークナイザー表現空間を使用し、自己回帰モデルは有限の離散的な視覚トークナイザー表現空間を使用します。

その結果、自己回帰トークナイザーは画像をより効果的に圧縮しますが、高周波の詳細を復元することができません。自己回帰テキスト画像レンダリングの上限を改善するため、研究者たちは語彙を拡張し、ビジュアルトークナイザーの性能向上を図りました。

しかし、インデックスワイズトークンに基づく自己回帰フレームワークは、語彙の拡張には適していません。インデックスワイズトークンに基づく自己回帰モデルがトークンを予測する方法は、下の図の左側に示されています。モデルパラメータの数は語彙サイズと正の相関関係にあります。

d=32 の場合、語彙サイズは 2^32 となり、インデックスごとのトークンを予測するためのトランスフォーマー分類器には 2048×2^32=8.8×10^12=8.8T 個のパラメータが必要になります。

たった 1 つの分類器のパラメータ数は GPT3 の 50 個に相当し、語彙を無限に拡張することは明らかに不可能です。

研究者たちの解決策はシンプルで明快です。上の画像の右側に示すように、インデックスを破棄し、ビットを直接予測するのです。ビットワイズトークン自己回帰モデリングでは、d個のバイナリ分類器(+1または-1)を用いて、次の解像度レベルのビットタグ(+1または-1)を並列に予測しました。この変更により、パラメータ数は8.8兆から0.13億に削減されました。つまり、ビットワイズトークンを用いて自己回帰をモデル化することで、語彙を無限に拡張できるのです。

語彙が無限に大きい場合、離散化されたビジュアルトークナイザーが連続的なビジュアルトークナイザーより遅れをとるという問題はそれほど深刻ではないようです。

上の表に示すように、語彙サイズが増加すると、ImageNet 上の離散ビジュアル エンコーダーによって再構築された FID は、Stable Diffusion によって提案された連続 VAE の FID を実際に上回ります。

視覚化の観点から見ると、無限に大きい語彙 (Vd=232) を使用すると、小さい語彙の場合と比較して、高周波の詳細 (上の画像の人物の目や指など) の再構築が大幅に改善されます。

モデルスケーリングによりパフォーマンスが着実に向上します。

品質生成を制限する視覚エンコーダの問題を解決した後、研究者は語彙のスケーリングとモデルのスケーリングに関する一連の実験を開始しました。

研究では、125M の小さなモデルの場合、Vd=216 の小さな語彙を使用すると、Vd=232 の大きな語彙を使用するよりも収束が速く、収束が良くなることがわかりました。

しかし、モデルサイズが大きくなるにつれて、大規模語彙の利点が徐々に明らかになります。モデルサイズが2バイトに増加し、トレーニング反復回数が50,000回を超えると、大規模語彙の方がより良い結果を達成します。最終的に、InfinityはVd=2^32という大規模語彙を採用しました。2^32はint32の数値範囲を超えるため、無限大とみなすことができ、これがInfinityという名前の由来です。

要約すると、より大きな(無限の)語彙とより大きなモデルを十分なトレーニングと組み合わせると、より小さな語彙とより大きなモデルよりも大幅に優れたパフォーマンスを発揮します。

研究者らは語彙のスケーリングに加えて、Infinity モデルのサイズのスケーリング実験も実施しました。

彼らは、まったく同じ実験設定で、125M、361M、940M、2.2B、4.7Bという異なるサイズの5つの異なるモデルを比較しました。

ご覧のとおり、モデルサイズと学習リソースの増加に伴い、検証セットの損失は着実に減少し、一方で検証セットの精度は着実に向上しています。さらに、研究者らは、検証セットの損失と様々なテスト指標の間に強い線形関係があることを発見しました。線形相関係数は最大0.98でした。

以下の画像は、モデル サイズとトレーニング ステップが異なる、9 つのグリッド セルごとに同じプロンプト ワードが生成された画像を示しています。

  • 上から下に向かって、これらは徐々に大きくなるモデル サイズを表し、125M、1B、および 5B モデルによって生成された画像に対応します。
  • これらは、左から右へ、モデルのトレーニング ステップの数が徐々に増加するにつれて生成される画像です。

Infinity には優れたスケーリング特性があることがはっきりとわかります。モデルが大きく、トレーニングが多いほど、より優れた意味構造と高頻度の詳細を持つ画像を生成できます

さらに、Infinity は、視覚的な自己回帰テキストから画像へのモデルに自己修正機能を持たせるビット自己修正技術を提案し、自己回帰推論中に累積されるエラーの問題を軽減しました。

Infinity はさまざまなアスペクト比の画像を生成することもできるため、VAR が動的解像度をサポートしていないという問題を解決します。

下の画像は、Infinity と他のテキストベースのグラフ モデルを比較した例を示しています。

ご覧のとおり、Infinity は命令のコンプライアンス、テキストのレンダリング、視覚的な美しさの点で優れたパフォーマンスを発揮します。

Infinity は、そのパフォーマンスに加えて、次のレベルの解像度を予測する際の VAR の速度の利点を完全に継承し、拡散モデルと比較して推論速度の点で大きな利点を持っています。

2Bモデルは1024×1024の画像をわずか0.8秒で生成します。これは同サイズのSD3-Mediumの3倍、12B Flux Devの14倍の高速化です。8Bモデルは同サイズのSD3.5の7倍の高速化です。20Bモデルは1024×1024の画像を3秒で生成します。これは12B Flux Devの約4倍の高速化です。

現在、Infinity のトレーニングおよび推論コード、デモ、モデルの重みはすべて GitHub リポジトリで入手できます。

Infinity 2Bと20Bは現在ウェブサイトでテスト可能です。ご興味のある方はぜひお試しください。

オープンソース アドレス: https://github.com/Foundation... プロジェクト ページ: https://foundationvision.gith... デモ Web サイト: https://opensource.bytedance....