618ZXW

すごい!ビッグランゲージ拡散モデルが登場。なぜ次のトークンを予測するだけなの? | 人民大学、ヒルハウスキャピタル、アントファイナンシャル

自己回帰を拡散モデルに置き換えると、大規模モデルの逆の呪いが解消されます。

中国人民大学ヒルハウス人工知能研究所とアントファイナンシャルは共同でLLaDA (mAskingによる大規模言語拡散)を提案した。

LLaDA-8Bはコンテキスト学習では LLaMA3-8B に匹敵し、倒置詩課題では GPT-4o を上回ります。

大規模言語モデルの分野では、逆詩は言語モデルにおける双方向の依存関係と論理的推論を処理するモデルの能力を評価するために使用される特別なタスクです。

たとえば、大きなモデルに「一列の白い白鷺が青い空に舞い上がる」の前の行を書いてもらいます。

一般的に、自己回帰モデル(GPTなど)は、後続の情報か​​ら先行情報を推論する際に優れたパフォーマンスを発揮しません。これは、自己回帰モデルの原理が、シーケンス内の先行する要素を用いて現在の要素、つまり次のトークンを予測することであるためです。

一方、LLaDA は拡散モデルに基づく双方向モデルであり、テキスト内の双方向の依存関係をより適切に捉えることができます。

要約では、著者らは、LLaDA が LLM の主要な機能と自己回帰モデルとの間の固有のつながりに疑問を投げかけていると述べています。

これらの研究もまた大きな議論を巻き起こしました。

誰かが提案しました:

マスクされた言語モデリングをリファクタリングしていますか?

このパラダイムは、RAG および埋め込み類似性検索でより優れたパフォーマンスを発揮できますか?

特筆すべきは、LLaDA がわずか 130,000 個の H800 GPU を使用して 2.3 兆個のトークンのコーパスをトレーニングし、その後 450 万個のトークンのペアに対して SFT を実行したことです。

前方マスク + 逆予測

この論文で提起された中心的な疑問は、「自己回帰は LLM でインテリジェンスを実現するための唯一の道なのか?」ということです。

結局のところ、自己回帰LLMには依然として多くの欠点があります。例えば、トークンを1つずつ生成するメカニズムは計算コストが高く、左から右へのモデリングは逆推論タスクのパフォーマンスを制限します。

これらすべての要因により、LLM がより長く複雑なタスクを処理する能力が制限されます。

これに対処するため、彼らはLLaDAを提案しました。このモデルは、前方マスキングと後方予測のメカニズムを通じて、テキスト内の双方向の依存関係をより適切に捉えることができます。

この研究では、標準的なデータ準備、事前トレーニング、教師あり微調整 (SFT)、および評価手順を採用して、LLaDA を 80 億のパラメータに拡張します。

130,000 個の H800 GPU を使用して 2.3 兆個のトークンで最初から事前トレーニングされ、その後 450 万組のデータで教師あり微調整が行われました。

言語理解、数学、コーディング、中国語など、さまざまなタスクにおけるパフォーマンスは次のとおりです。

強力なスケーラビリティ: LLaDA は、10²³ FLOP のコンピューティング リソースに効果的に拡張でき、6 つのタスク (MMLU や GSM8K など) では、同じデータでトレーニングされた独自構築の自己回帰ベースライン モデルと同等のパフォーマンスを発揮します。

コンテキスト学習: 特に、LLaDA-8B は、ほぼすべての 15 の標準的なゼロショット/少数ショット学習タスクで LLaMA2-7B よりも優れたパフォーマンスを発揮し、LLaMA3-8B と同等のパフォーマンスを発揮します。

指示のコンプライアンス: LLaDA は、マルチターンダイアログなどのケーススタディで実証されているように、SFT 後の指示のコンプライアンス機能を大幅に強化します。

逆推論:LLaDAは逆推論の呪いを効果的に打ち破り、順方向タスクと逆方向タスクの両方で一貫したパフォーマンスを発揮します。特に逆詩完成タスクでは、LLaDAはGPT-4oよりも優れたパフォーマンスを発揮します。

LLaDAはマスク予測器としてTransformerアーキテクチャを採用しています。自己回帰モデルとは異なり、LLaDAのTransformerは因果マスクを使用しないため、入力シーケンス内のすべてのトークンを同時に認識できます。

モデルパラメータの数は従来の大規模言語モデル(GPTなど)とほぼ同等ですが、アーキテクチャの詳細(マルチヘッドアテンションの設定など)はマスク予測タスクに適応するために若干異なります。

フォワードマスキングのプロセスは次のとおりです。

LLaDAはランダムマスキングメカニズムを採用しています。入力シーケンスx0に対して、モデルはマスクするラベルの一定割合をランダムに選択し、部分的にマスクされたシーケンスxtを生成します。

各トークンは確率tでマスクされます。ここで、tは[0,1]から均一にサンプリングされます。従来の固定マスク率(BERTの15%など)とは異なり、LLaDAのランダムマスク機構は大規模データにおいて優れたパフォーマンスを発揮します。

このモデルの目標は、部分的にマスクされたトークンのシーケンスxtに基づいて、マスクされたトークンを予測できるマスク予測器を学習することです。トレーニング中、モデルはマスクされたトークンの損失のみを計算します。

ここで、1[·]はインジケータ関数であり、損失はマスクされたトークンに対してのみ計算されることを示します。

SFT ステージでは、LLaDA は教師ありデータ (対話ペアや指示応答ペアなど) を使用してモデルをさらに最適化し、特定のタスクでのパフォーマンスを向上させます。

各タスクにおいて、モデルはタスクデータの特性に基づいて微調整されます。例えば、対話生成タスクでは、モデルは与えられた対話履歴に基づいて適切な応答を生成する方法を学習します。

SFT フェーズでは、モデルはタスク データの特性に基づいて応答トークンの一部を選択的にマスクします。これにより、モデルはタスク関連のパターンをより適切に学習できるようになります。

推論部分の生成タスクにおいて、LLaDAはバックサンプリングプロセスを通じてテキストを生成します。完全にマスクされたシーケンスから開始し、マスクされたトークンを段階的に予測し、完全なテキストが生成されるまで続けます

LLaDA は、サンプリング プロセス中に、さまざまな戦略 (ランダム再マスキング、低信頼度再マスキング、半自己回帰再マスキングなど) を採用して、生成効率と品質のバランスをとります。

条件付き確率評価タスクにおいて、LLaDAは与えられたプロンプトと部分的なマスク応答に基づいてモデルの条件付き確率を評価します。これにより、LLaDAは様々なベンチマークタスクでパフォーマンス評価を実行できます。

さまざまなベンチマークにおける事前トレーニング済み LLM のパフォーマンスは次のとおりです。

異なるベンチマークにおけるトレーニング後のパフォーマンスは次のとおりです。LLaDAはSFTのみを実施し、他のモデルは追加の強化学習アライメントを実施しました。

逆詩タスクでは、LLaDA が GPT-4o を上回りました。

マルチターン対話タスクでは、LLaDA は次のように実行しました。暗い色はサンプリングの後期段階で予測されたトークンを表し、明るい色はサンプリングの初期段階で予測されたトークンを表します。

ネットユーザー:実際に使えることを期待しています。

研究チームはLLaDAの実際のパフォーマンスデータもいくつか公開しました。

通常の数学的推論問題を解くことができます。

プログラミングに関する質問でも構いません。

一部の海外ネットユーザーは、これは中国のAI研究が小規模モデルに重点を置くことを確実に促すだろうとコメントしています。しかし、だからといってスケーリングを諦めたわけではありません。

一方、これによりハイブリッドモデルの可能性が広がるかもしれないとコメントする人もいます。

また、Meta もトランスフォーマーと拡散を組み合わせた同様の作業を行ったと述べている人もいます。

もちろん、Transformer を超える多くのアーキテクチャがこれまでに提案されてきたが、そのどれもが学界や産業界に実際に採用されていないことを懸念する人もいます。

次に何が起こるか待ってみましょう。

この研究は、中国人民大学人工知能学院とAnt Groupの共同研究です。責任著者は、現在中国人民大学人工知能学院の終身在職権准教授であるChongxuan Li氏です。彼は現在、深層生成モデル、既存モデルの能力と限界の理解、そして効果的でスケーラブルな次世代モデルの設計に注力しています。

論文の宛先:
プロジェクトのホームページ: https://arxiv.org/abs/2502.09992
https://ml-gsai.github.io/LLa...