618ZXW

SFTは不要!推論モデルはRLのみで長い思考連鎖を実現可能。清華大学とCMUのチームがブラックボックスを突破。

DeepSeek-R1 の遅い思考と長い推論パフォーマンスは、トレーニング ステップの数を増やすと、長い CoT が出現することを示しています。

人間の思考をシミュレートして段階的に答えを導き出すことで、大規模な AI モデルの推論能力と解釈可能性を向上させます。

しかし、長いCoTを引き起こす条件は何でしょうか?どうすれば最適化できるでしょうか?まるでブラックボックスのようで、まだ解明できていません。

清華大学、CMU、IN.AI の研究チームは最近、大規模モデルにおける長い CoT の動作メカニズムと最適化戦略を調査しました。

この研究の主な4つの発見は以下のとおりです。

  • SFT は必須ではありませんが、トレーニングを簡素化し、効率を向上させることができます。
  • トレーニング計算が増えると推論能力が現れますが、必ずしもそうとは限りません。
  • 検証可能な報酬関数は、CoT の増加に不可欠です。
  • エラー訂正などのコア機能は基本モデルに内在していますが、RL を通じてこれらのスキルを効果的に実現するには、大量の計算が必要です。

この論文はネット上で話題になり始め、ネットユーザーからは「これはすごい!」という声が上がった。

一部のネットユーザーも、予想通り、報酬機能は確かに非常に重要であるとコメントしました。

SFTとRLの両方の観点からLong CoTを研究する

研究チームは明確に次のように述べています。

私たちの目標は、大規模モデルにおける長い CoT 推論の謎を解明することです。
システム分析とアブレーションを通じて重要な洞察が抽出され、パフォーマンスを強化および安定させるための実用的な戦略が提供されます。

チームは 2 つの基本モデルを使用しました。

  • Llama-3.1-8B : Metaからは代表的な汎用モデルです。
  • Llama-3.1-8B : Alitonge から派生した、代表的な数学モデルです。

代表的な推論ベンチマーク 4 つも採用されました。

MATH-500、AIME 2024、TheoremQA、および MMLU-Pro-1k。

デフォルトでは、温度 t=0.7、上位の −p 値 = 0.95、最大出力長 = 16384 トークンです。

具体的なプロセスには、SFT (教師あり微調整) と RL (強化学習) という 2 つの側面が含まれます。

研究者は、検証可能な真実の回答を提供するために、MATH のデフォルトで設定されている 7,500 のトレーニング サンプル ヒントを使用します。

SFTの長いCoTに対する効果

研究チームはまず、SFT が長い CoT に及ぼす影響を調査しました。

長い CoT データに対して SFT を実行することで、モデルはより複雑な推論パターンを学習できるようになります。

ただし、現時点では短い CoT の方が一般的であるため、それらの SFT データの収集は比較的簡単です。

そのため、チームは長い CoT の抽出に Alitongyi の QwQ-32B-Preview を使用し、短い CoT の抽出に Alitongyi の Qwen2.5-Math-72B-Struct を使用することを選択しました

具体的には、研究者はまず各プロンプトに対して N 個の候補応答をサンプリングし、次に正解の応答を選択しました。

長い CoT の場合は N∈{32, 64, 128, 192, 256} を使用します。短い CoT の場合は N∈{32, 64, 128, 256} を使用します (ここでは効率性のために 1 つの N がスキップされます)。

いずれの場合も、SFT タグの数は N に比例します。

下の図の点線で示されているように、 SFT トークンが増加すると、ロング CoT の SFT はモデルの精度を向上させ続けますが、ショート CoT の場合、SFT の利点は非常に早く飽和状態に達します。

例えば、MATH-500ではロングCoT SFTの精度は70%を超えており、トークン数が35億に達してもまだボトルネックにはなっていません。

対照的に、ショート CoT SFT のトークン数を約 0.25B から 1.5B に増やしても、精度はわずか 3% しか向上しませんでした。

実験結果によると、長い CoT SFT によりモデル パフォーマンスの上限が大幅に向上することが示されています。

さらに、より高いパフォーマンスを実現しながら、ショート CoT よりも大きなパフォーマンス拡張の可能性も備えています。

長期CoTに対するRLの影響

業界では一般的に RL の上限は SFT の上限よりも高いと考えられているため、チームは RL の異なる SFT 初期化方法として長い CoT と短い CoT を比較しました。

研究者らは SFT チェックポイントを使用して RL を初期化し、4 つのエポックにわたってトレーニングして、各プロンプトで 4 つの応答を生成しました。

さらに、チームは、MATH データセットからの PPO とルールベースの検証トレーニングを RL のキュー セットに分割しました。

具体的な結果は次の図にも示されています。

図の実線と破線の間のギャップは、長い CoT SFT で初期化されたモデルは通常、 RL によって大幅に改善されるのに対し、短い CoT SFT で初期化されたモデルは RL からほとんどメリットが得られないことを示しています。

たとえば、MATH-500 では、RL によって長い CoT SFT モデルの精度が 3% 以上向上しますが、短い CoT SFT モデルの精度は RL の前後でほぼ同じです。

RL では思考連鎖の長さと複雑さを必ずしも確実に拡張できるわけではないことに注意することが重要です。

これに対処するため、研究チームは、繰り返しペナルティを伴うコサイン長さスケーリング報酬メカニズムを導入しました。これにより、思考チェーンの成長が効果的に安定し、推論プロセス中にモデルが分岐してバックトラックすることが促進されました。

長いCoTデータの整理

上記の研究に加えて、研究チームは長い CoT データを処理するために 2 つの方法を比較しました。

1 つのアプローチは、短い CoT モデルをプロンプトして生のアクションを生成し、それらを順番に組み合わせて長い CoT 軌跡を構築することです

もう 1 つのアプローチは、既存の長い CoT モデルから長い CoT 軌跡を抽出することです。これらのモデルは、出現する長い CoT を示します。

結果は、出現した長い CoT パターンから抽出されたモデルが構築されたパターンよりも一般化が優れており、RL によってさらに大幅に改善できることを示しています。

建物のパターンでトレーニングされたモデルではこれが実行できません。

さらに、DeepSeek-R1 では、ベース モデルで RL 計算を拡張すると CoT が長くなる可能性があることが実証されているため、自己検証動作は、モデル探索中に緊急動作または「洞察の瞬間」としてフラグが付けられることがあります。

このパターンは短い CoT データではまれですが、研究者は、台座モデルがすでに自己検証動作を示している場合があり、これらの動作を RL で強化するには厳しい条件が必要であると指摘しています。

下の図に示すように、Qwen2.5Math-7B の RL は精度を効果的に向上させますが、ベースモデル出力に存在する「再確認」モードの頻度を増加させず、「再試行」や「代替」などの他の反射モードを効果的に刺激しません。

これは、パフォーマンスの改善は顕著であるものの、台座モデルからの RL が必ずしも反射モードを励起するわけではないことを示しています。

4つの重要な発見

研究チームは、長い CoT 推論のメカニズムを体系的に研究した後、4 つの重要な発見を提案しました。

まず、SFT は必須ではありませんが、トレーニングを簡素化し、効率を向上させることができます。

SFT は長い CoT をトレーニングするための必須条件ではありませんが、モデルを効果的に初期化し、その後の RL トレーニングのための強固な基盤を提供できます。

第二に、トレーニング計算が増加すると推論能力が生まれますが、必ずしもそうとは限りません。

長い CoT の出現は必然的ではなく、単純な RL 手法は必ずしも CoT の長さを延長するのに効果的ではありません。

CoTの長さの増加を安定化させるには、報酬シェーピングなどの技術が必要です。チームのアプローチは、コサイン長スケーリング報酬を導入し、繰り返しペナルティを付加することで、推論の深さのバランスを取り、無意味な長さの増加を防ぐというものです。

第三に、検証可能な報酬関数は CoT 拡張にとって重要です。

高品質で検証可能なデータが不足しているため、検証可能な報酬関数を拡張することが RL にとって重要です。

この論文では、ネットワークを使用して抽出されたノイズの多いソリューションを含むデータを調査し、この「シルバー」監視信号が、特に STEM 推論などの OOO タスクを扱う場合に RL で大きな可能性を示すことを発見しました。

4 番目に、ベース モデルは本質的にエラー訂正やバックトラッキングなどのスキルを備えていますが、RL を通じてこれらのスキルを効果的に刺激するには、大量の計算が必要です。

これらの能力の出現を測定するには、より洗練された方法と RL 刺激の慎重な設計が必要です。

最後に、研究チームは、次のようないくつかの将来の研究方向を提案しました。

モデルサイズの拡大、RL インフラストラクチャの改善、より効果的な検証信号の探索、基盤となるモデルの潜在的な機能のさらなる深掘り。

これらの指示により、大型モデルにおけるロング CoT の適用がさらに促進されると期待されます。

参考リンク:
[1]https://arxiv.org/abs/2502.03373 [2]https://x.com/omarsar0/status...

- 以上-