618ZXW

上海 AI ラボは RL を使用して、蒸留なしでも数学的推論の限界を押し広げ、R1 で DeepSeek を上回ります。

強化学習だけでDeepSeekを上回るパフォーマンスを発揮します!

上海 AI ラボは、結果報酬に基づいた強化学習の新しいパラダイムを提案しました。

Qwen2.5-32B-Baseモデルから始めて、微調整と結果ベースの強化学習のみを通じて、DeepSeek-R1などの超大規模モデルを蒸留することなく、DeepSeek-R1-Distill-Qwen32BやOpenAI-O1シリーズの優れた数学的推論性能を上回ることができます。

研究チームは、現在の大規模な数学的推論タスクが「3つのハードル」に直面していることを発見した。

  • まばらな報酬のジレンマ: 正しい最終回答と間違った最終回答の間のバイナリ フィードバックにより、複雑な推論の最適化が困難になります。
  • 部分的な正しさの罠: 長い思考の連鎖におけるいくつかの正しいステップが、実際にはモデルの学習を誤らせる可能性があります。
  • スケール依存の呪い:従来の蒸留法は研究者を「パラメータスケールの軍拡競争」に追い込む

そこで研究チームは、既存の成果に基づく強化学習アルゴリズムを再検討しました。厳密な理論的導出と証明を経て、新たな成果に基づく強化学習アルゴリズムを再設計し、その過程で3つの重要な結論を導き出しました。

  • 正のサンプルの場合: バイナリ フィードバック環境では、Best Trajectory Sampling (BoN) による動作のクローニングによって最適なポリシーを学習できます。
  • 負のサンプルの場合: ポリシー最適化目標の一貫性を維持するために報酬の再構成が必要です。
  • 長いシーケンスの場合: シーケンスの異なる部分が結果に異なる貢献をするため、結果の報酬を通じて学習できる、よりきめ細かい報酬割り当て関数が必要です。

簡単に言えば、正しいサンプルを模倣することによる学習、誤ったサンプルを優先することによる学習、そして重要なステップに焦点を当てることによる学習です。DeepSeek-R1のような非常に大規模なモデルに依存せず、強化学習のみで驚くべき結果を達成しています。

さらに、研究チームは異なる開始点を持つモデルにおける強化学習の訓練の比較分析を行い、開始モデル訓練データの分布が最終モデルのパフォーマンスにも重要であることを発見しました。そのため、研究チームはコミュニティ内での公平な比較とさらなる研究を促進するため、強化学習の訓練データ、開始点、そして最終モデルを完全にオープンソース化しました。プロジェクトへのリンクはこの記事の最後にあります。

ゼロからのデザインの結果報酬を通じて学習を強化します。

数学的推論タスクの強化学習におけるスパース報酬局所的正確性の課題に対処するために、研究チームは新しいポリシー最適化フレームワークOREAL を提案しました。

的を絞ったアルゴリズムの改善は、理論的な革新によって実現されます。実験を通して「どのように改善するか」を示す前に、まず「なぜこの方法の方が優れているのか」を示す必要があります。

正と負のサンプルの報酬の再形成によるスパース報酬ジレンマの解決

数学的推論課題のサンプリングプロセスにおいて、研究チームは理論分析と導出を通して、核心的な洞察を提示しました。バイナリフィードバックメカニズムの下では、正解を含むBoN(Best-of-N)設定を任意の数サンプリングすることで、正解軌道の一貫した分布が得られます。この発見は、直接的な行動クローニングによって得られた正解軌道が、ポジティブサンプルトレーニングに最適な設定を構成することを示しています。

研究チームは、正サンプルの模倣学習に基づき、負サンプルに直接ペナルティを課すことが勾配バイアスにつながることを提案しました。負サンプルのトレーニング原則は、学習済みのBoN分布と一致する最適化された勾配形状を維持することです。正サンプルと負サンプルのトレーニング勾配を詳細に分析することにより、研究者らは平均精度pに基づく報酬再形成係数を提案し、この一貫性を維持することで、GRPOなどのアルゴリズムの改良のための理論的根拠を提供しました。この設定により、モデルは成功体験を効果的に吸収しながら、重要なエラー境界を正確に特定することができ、トレーニング性能が大幅に向上します。

その結果、「原因の帰属」に対する報酬が得られ、部分的な正しさの罠から逃れるのに役立ちます。

複雑で長い推論連鎖の問題に対処するため、ORALは革新的なトークン重要度推定器を設計しました。シーケンス蓄積の形で報酬関数を構築することで、得られた報酬を各推論ステップに逆分解します(下記のトークンレベルのRMヒートマップを参照)。この手法により、コアエラーステップを正確に特定し、トレーニング中に勾配更新をより精密に実現し、長いシーケンスタスクにおけるモデルのパフォーマンスを大幅に向上させることができます。

口頭フレームワーク

これらの洞察を組み合わせて、チームは、正しいサンプルについては模倣によって学習し、誤ったサンプルについては好みによって学習し、重要なステップに焦点を当てるという、最適な強化学習戦略を提案しました。

合理的な分析と実践を通じて、強化学習のパフォーマンスを徐々に最適なレベルまで押し上げることができます。

強化学習は蒸留を超え、スケール依存の呪いから解放されます。

チームは、わずか 4,000 個の高品質トレーニング サンプルを使用して、7B と 32B の両方のスケールでモデルをトレーニングおよびテストしました。

7バイトスケールにおいて、Oral-7BはMATH-500で91.0のpass@1精度を達成しました。蒸留ではなく強化学習によってこれほど高い精度が達成されたのは初めてです。この成果は、強化学習ベースの手法にとって新たなマイルストーンとなるだけでなく、QWQ-32B-PreviewやOpenAI-O1-Miniといった、より大きなパラメータセットを持つモデルを凌駕しています。

さらに、Oliverをこれまでの最高峰の7Bモデル(DeepSeek-r1-Distill-Qwen-7B)に適用することで、新たなモデルOREL-DSR1-Distill-Qwen-7Bが誕生しました。MATH-500においてpass@1の精度94.0を達成し、7Bモデルの新記録を樹立しました。上海AIラボでDeepSeek Distillationと強化学習によって訓練されたQianwenの基盤は、中国における独創的なイノベーションの新たなレベルに到達しました。

32Bモデルについても、Oreal-32BはMATH-500で95.0のスコアを達成し、同クラスのDeepSeek-r1-Distill-Qwen-32Bを上回り、32Bモデルとしては新たな最先端(SOTA)スコアを達成しました。

もう一つ

最後に、研究チームは異なるベースモデルのパフォーマンスを比較し、強化学習後のポリシーモデルのパフォーマンスの上限は、パフォーマンスの開始点によって異なることを発見しました。開始モデルが強力であるほど、強化学習後のパフォーマンスは向上します。

さらに、ほとんどのベンチマーク パフォーマンスは、複数のペデスタル モデルにわたって RL 後に向上しますが、平坦なパフォーマンス (AIME2025-I の OREAL-32B) またはパフォーマンスの低下 (AIME2024 の DSR1-Distill-Qwen-7B と比較) が時々発生します。

この研究は、これらの状況はトレーニングコーパスの質、難易度、量の面での準備不足に関連している可能性があることを示唆しており、今後の研究の余地を残しています。

そのため、チームは強力な RL アルゴリズムに加えて、数学的推論タスクにおける RL の成功に不可欠な 2 つの重要な要素も特定しました。

強力な開始モデルは、RL がモデルの潜在的な機能を効果的に発揮するための前提条件です。

強化学習フェーズで使用されるデータは、品質、難易度、量、多様性の面で十分に保証されている必要があります。高品質なデータセットは、モデルが幅広い課題や学習機会に直面することで、その潜在能力を最大限に発揮することを可能にします。

モデルデータは完全にオープンソースであり、強化学習の研究に役立ちます。

研究チームはまた、DeepSeek-R1の出現によりコミュニティ内で大規模言語モデルの強化学習の学習と研究への熱意が高まったものの、各人が使用した開始モデル、トレーニングデータ、トレーニングアルゴリズム、ハイパーパラメータの詳細が同じではなかったため、アルゴリズムとモデルのパフォーマンスの明確な比較ができなかったと指摘した。

そこで研究チームは、RLトレーニングプロセス全体で使用したトレーニングデータ、開始モデル、RL後モデルを完全にオープンソース化し、トレーニングコードもXTunerにオープンソース化する予定です。

ぜひダウンロードして体験してください:

プロジェクトリンク: https://github.com/InternLM/O... 論文リンク: https://arxiv.org/abs/2502.06781 RL トレーニングデータリンク: https://huggingface.co/datase... モデルシリーズリンク: https://huggingface.co/collec...