|
視覚的自己回帰モデルにおけるスケーリングは、言語モデルの場合ほど効果的ではないことがよくあります。 Google と MIT の Kaiming He チームのコラボレーションは、この行き詰まりを打破し、自己回帰テキストベースのグラフ モデルを拡張する方向性を示す可能性を秘めています。
これらの発見にヒントを得て、研究チームは連続ラベルに基づく確率的自己回帰モデルである Fluid をトレーニングしました。 数百億のパラメータに拡張された Fluid は、MS-COCO 30K のゼロショット条件下で FID スコア 6.16 を達成し、GenEval ベンチマークで総合スコア 0.69 を獲得しました。 研究チームは、これらの発見と結果が、視覚モデルと言語モデル間のスケールギャップを埋めるためのさらなる取り組みを促進することを期待しています。 100億パラメータの自己回帰テキストグラフモデル振り返ってみると、自己回帰画像生成モデルのパフォーマンスを制限していた主な設計要因は次の 2 つです。
Fluid は、6 月に行われた「ベクトル量子化を使用しない自己回帰画像生成」に関する研究でのチームのアプローチを踏襲しており、離散トークンを放棄して連続トークンを採用しています。 これは拡散モデルを借用したもので、小さなノイズ除去ネットワークを使用して各トークンの連続分布を近似します。 具体的には、このモデルは各トークンの位置を条件としてベクトルzを生成し、これを小規模なノイズ除去ネットワークに入力します。このノイズ除去ネットワークは、トークンxの条件付き分布p(x|z)を、トークンzが与えられた場合に定義します。学習中、このネットワークは自己回帰モデルと共同で最適化され、推論中はp(x|z)からサンプリングすることでトークンが取得されます。このプロセス全体で離散化は不要であるため、量子化損失を回避できます。 トークンが生成される順序を見てみましょう。固定されたラスター順序に従ってトークンを1つずつ生成することで、キーバリューキャッシュを用いた推論を高速化できますが、因果関係の制限は生成品質にも影響を与えます。 Fluid は異なるアプローチを採用しており、生成するトークンをランダムに選択し、 BERT の双方向アテンションに類似したメカニズムを使用してグローバル情報を取得します。 推論プロセスでは完全にランダムな順序が使用されるため、学習と推論の間のシーケンス分布の一貫性が向上します。また、GPTと同様に、トークンごとに温度サンプリングを行うことも可能で、これにより生成の多様性がさらに高まります。 拡散損失と MAR パラダイムの利点を組み合わせることで、著者らはモデルパラメータの数を 100 億以上に拡張し、MS-COCO および GenEval データセットで優れた結果を達成しました。 さらに重要なのは、パラメータ数と学習エポック数の増加に伴い、モデルは検証損失、FID、GenEvalスコアなどの指標において良好なスケーラビリティを示し、さらなるスケーリングを理論的に裏付けていることです。これは言語モデルにおけるスケーリング現象と非常に類似しており、大規模視覚モデルの潜在能力がまだ十分に探求されていないことを示しています。 Fuld モデルによって生成されたその他の選択された画像: 論文の宛先: |
GoogleとMIT Kaiming Heのチーム:視覚的な大規模モデルはLLMと同じくらい効率的に拡張可能
関連するおすすめ記事
-
マスク氏はテスラ・ロボタクシーにハンドルを取り付けた。
-
MMLU-Proベンチマークデータセットが利用可能になりました。難易度と課題がさらに高まった、12,000点の複雑な学際的問題が含まれています。DeepSeekの数理モデルはワンクリックで展開できます。
-
マイクロソフトとテンセントが技術衝突、TRELLISが3D生成におけるマルチフォーマットサポートの新たな方向性をリード、5,000問以上が正答!VIS-BenchがAIによる「空間記憶」学習を可能に。
-
10秒で世界を創る!Wu Jiajunチームの新作:リアルタイムインタラクティブ3Dワールド生成。
-
テンセントima Androidアプリが正式にリリースされ、クラウドストレージスペースが無料で2GBに拡張されました。
-
DeepSeekオープンソースパート3:わずか300行のコアコードでV3/R1のトレーニングと推論の重要な秘密