618ZXW

GoogleとMIT Kaiming Heのチーム:視覚的な大規模モデルはLLMと同じくらい効率的に拡張可能

視覚的自己回帰モデルにおけるスケーリングは、言語モデルの場合ほど効果的ではないことがよくあります。

Google と MIT の Kaiming He チームのコラボレーションは、この行き詰まりを打破し、自己回帰テキストベースのグラフ モデルを拡張する方向性を示す可能性を秘めています。

  • 連続トークンに基づくモデルは、離散トークンに基づくモデルよりも視覚的な品質が優れています。
  • ランダム順序生成は、ラスター順序生成と比較して、GenEval テストで大幅に優れたスコアを獲得しました。

これらの発見にヒントを得て、研究チームは連続ラベルに基づく確率的自己回帰モデルである Fluid をトレーニングしました。

数百億のパラメータに拡張された Fluid は、MS-COCO 30K のゼロショット条件下で FID スコア 6.16 を達成し、GenEval ベンチマークで総合スコア 0.69 を獲得しました。

研究チームは、これらの発見と結果が、視覚モデルと言語モデル間のスケールギャップを埋めるためのさらなる取り組みを促進することを期待しています。

100億パラメータの自己回帰テキストグラフモデル

振り返ってみると、自己回帰画像生成モデルのパフォーマンスを制限していた主な設計要因は次の 2 つです。

  • 離散トークン。このタイプのモデルのほとんどは自然言語処理(NLP)の手法を借用しており、まずベクトル量子化(VQ)法を用いて画像をトークンの集合に離散化します。VQ法では、各トークンは有限個の離散値しか取ることができません。この量子化によって、必然的にかなりの量の情報が失われます。
  • ラスター順。これは、左から右、上から下へ固定された順序でトークンを生成することを意味します。この方法は推論を高速化しますが、生成品質にも影響を及ぼします。

Fluid は、6 月に行われた「ベクトル量子化を使用しない自己回帰画像生成」に関する研究でのチームのアプローチを踏襲しており、離散トークンを放棄して連続トークンを採用しています。

これは拡散モデルを借用したもので、小さなノイズ除去ネットワークを使用して各トークンの連続分布を近似します。

具体的には、このモデルは各トークンの位置を条件としてベクトルzを生成し、これを小規模なノイズ除去ネットワークに入力します。このノイズ除去ネットワークは、トークンxの条件付き分布p(x|z)を、トークンzが与えられた場合に定義します。学習中、このネットワークは自己回帰モデルと共同で最適化され、推論中はp(x|z)からサンプリングすることでトークンが取得されます。このプロセス全体で離散化は不要であるため、量子化損失を回避できます。

トークンが生成される順序を見てみましょう。固定されたラスター順序に従ってトークンを1つずつ生成することで、キーバリューキャッシュを用いた推論を高速化できますが、因果関係の制限は生成品質にも影響を与えます。

Fluid は異なるアプローチを採用しており、生成するトークンをランダムに選択しBERT の双方向アテンションに類似したメカニズムを使用してグローバル情報を取得します。

推論プロセスでは完全にランダムな順序が使用されるため、学習と推論の間のシーケンス分布の一貫性が向上します。また、GPTと同様に、トークンごとに温度サンプリングを行うことも可能で、これにより生成の多様性がさらに高まります。

拡散損失と MAR パラダイムの利点を組み合わせることで、著者らはモデルパラメータの数を 100 億以上に拡張し、MS-COCO および GenEval データセットで優れた結果を達成しました。

さらに重要なのは、パラメータ数と学習エポック数の増加に伴い、モデルは検証損失、FID、GenEvalスコアなどの指標において良好なスケーラビリティを示し、さらなるスケーリングを理論的に裏付けていることです。これは言語モデルにおけるスケーリング現象と非常に類似しており、大規模視覚モデルの潜在能力がまだ十分に探求されていないことを示しています。

Fuld モデルによって生成されたその他の選択された画像:

論文の宛先:
https://arxiv.org/abs/2410.13863