|
視覚的自己回帰モデルにおけるスケーリングは、言語モデルの場合ほど効果的ではないことがよくあります。 Google と MIT の Kaiming He チームのコラボレーションは、この行き詰まりを打破し、自己回帰テキストベースのグラフ モデルを拡張する方向性を示す可能性を秘めています。
これらの発見にヒントを得て、研究チームは連続ラベルに基づく確率的自己回帰モデルである Fluid をトレーニングしました。 数百億のパラメータに拡張された Fluid は、MS-COCO 30K のゼロショット条件下で FID スコア 6.16 を達成し、GenEval ベンチマークで総合スコア 0.69 を獲得しました。 研究チームは、これらの発見と結果が、視覚モデルと言語モデル間のスケールギャップを埋めるためのさらなる取り組みを促進することを期待しています。 100億パラメータの自己回帰テキストグラフモデル振り返ってみると、自己回帰画像生成モデルのパフォーマンスを制限していた主な設計要因は次の 2 つです。
Fluid は、6 月に行われた「ベクトル量子化を使用しない自己回帰画像生成」に関する研究でのチームのアプローチを踏襲しており、離散トークンを放棄して連続トークンを採用しています。 これは拡散モデルを借用したもので、小さなノイズ除去ネットワークを使用して各トークンの連続分布を近似します。 具体的には、このモデルは各トークンの位置を条件としてベクトルzを生成し、これを小規模なノイズ除去ネットワークに入力します。このノイズ除去ネットワークは、トークンxの条件付き分布p(x|z)を、トークンzが与えられた場合に定義します。学習中、このネットワークは自己回帰モデルと共同で最適化され、推論中はp(x|z)からサンプリングすることでトークンが取得されます。このプロセス全体で離散化は不要であるため、量子化損失を回避できます。 トークンが生成される順序を見てみましょう。固定されたラスター順序に従ってトークンを1つずつ生成することで、キーバリューキャッシュを用いた推論を高速化できますが、因果関係の制限は生成品質にも影響を与えます。 Fluid は異なるアプローチを採用しており、生成するトークンをランダムに選択し、 BERT の双方向アテンションに類似したメカニズムを使用してグローバル情報を取得します。 推論プロセスでは完全にランダムな順序が使用されるため、学習と推論の間のシーケンス分布の一貫性が向上します。また、GPTと同様に、トークンごとに温度サンプリングを行うことも可能で、これにより生成の多様性がさらに高まります。 拡散損失と MAR パラダイムの利点を組み合わせることで、著者らはモデルパラメータの数を 100 億以上に拡張し、MS-COCO および GenEval データセットで優れた結果を達成しました。 さらに重要なのは、パラメータ数と学習エポック数の増加に伴い、モデルは検証損失、FID、GenEvalスコアなどの指標において良好なスケーラビリティを示し、さらなるスケーリングを理論的に裏付けていることです。これは言語モデルにおけるスケーリング現象と非常に類似しており、大規模視覚モデルの潜在能力がまだ十分に探求されていないことを示しています。 Fuld モデルによって生成されたその他の選択された画像: 論文の宛先: |
GoogleとMIT Kaiming Heのチーム:視覚的な大規模モデルはLLMと同じくらい効率的に拡張可能
関連するおすすめ記事
-
先ほど、Zhipuが新たに30億人民元を調達しました!評価額は200億人民元を超え、大規模モデルスタートアップ分野をリードしています。
-
テスラの FSD 実世界テストの中国における第一波が到来しました。
-
ACM の著名な科学者である Xiaofeng Wang 教授は、2025/26 年秋学期の博士課程の学生と研究インターンを募集しています。
-
大規模な安全性比較で、自動車メーカーはいかにして一位を獲得したのか?
-
ビッグニュース!「AI界の拼多多」が再び登場!国産大規模AIモデルDeepSeek-V3がオープンソース公開され話題沸騰中。総学習コストは557万ドル、性能はGPT-40に匹敵。
-
スタンフォードの大規模モデル数学問題が暴露されました。問題文のわずかな変更が総合的な知能の低下を引き起こし、O1 数学のスコアさえも不正確になります。