Microsoft が実現しました。Qwen2.5 7B が O1 を超えました。MSRA は、小規模モデルの数学的推論の自己進化のための新しい方法を導入します。

70 億のパラメータを持つ Qwen2.5 の数学的推論パフォーマンスが o1-preview を上回るなんて、どうしてあり得るのでしょう?

これは、MSRA の最新の革新的なアルゴリズムであるrStar-Mathに依存しています。

rStar-Math は、コードとモンテカルロツリーサーチ (MCTS) を使用して CoT を強化することで、小規模から大規模のモデルが、精製された教師モデルに頼ることなく、深い思考と複数回の自己進化を通じて数学的推論を習得できるようにします。

彼は軍で輝かしい記録を残した。

AIME 2024 アメリカ数学コンペティションでは、rStar-Math は難しい問題の平均 53.3% を解き (OpenAI o1-preview では 44.6%)、他のすべてのオープンソースの大規模モデルを打ち負かし、最も優秀な高校生数学者トップ 20 にランクインしました。

MATHベンチマークテストでは、rStar-Mathは、アリババのオープンソースの大規模モデルQwen2.5-Math-7Bの精度を58.8%から90.0%に、Qwen2.5-Math-1.5Bの精度を51.2%から87.8%に、Phi3-mini-3.8Bの精度を41.4%から86.4%に向上させました。

— これらすべての結果は OpenAI o1-preview を上回りました。

教えてください、それはすごいことじゃないですか！

ささやきながら、Microsoft は最近、小規模から大規模までのモデルのコミュニティに力を入れています。昨日は、14B を使用したこれまでで最も強力な小規模から大規模までのモデルである phi-4 をオープンソース化し、今日は小規模言語モデル (SLM) を直接対象とした論文を掲載した rStar-Math をリリースしました。

この傾向が現れ始めたばかりでしたが、すぐにインターネット上で幅広い議論が巻き起こりました。

一部のネットユーザーは、推測せずにはいられなかった。

私たちが話しているのは、計算予算が固定されている場合、特定の推論問題では、実際に小規模-大規模モデルが大規模モデルよりも優れている可能性があるかどうかということです。

rStar – Math はどのようにしてこれを達成したのでしょうか?

質問してみましょう:

高度な教師モデルから抽出することなく、O1 の数学的推論能力に匹敵、あるいはそれを上回る小型言語モデルをどのように実現するのでしょうか。

MSRA は論文の中で、これはモンテカルロツリー検索 (MCTS) による深い思考を通じて実現されると述べています。MCTS では、小さな数学的戦略モデルが、その小さなモデルに基づくプロセス報酬モデルのガイダンスの下でテスト時の検索を実行します。

現在、業界では一般的に、数学的推論モデルの機能を向上させるために、自然言語から生成された推論ステップに依存しています。

このアプローチは単純ですが、その鍵となるのは、ソリューションのステップを生成するための堅牢なポリシーモデルをトレーニングすることと、正確な評価のための信頼性の高い報酬モデルをトレーニングすることにあります。

ただし、上記のモデルはどちらも高品質のトレーニングデータに依存しています。

残念なことに、私たち全員が知っているように、高品質の数学的推論データが現在非常に不足しており、高品質の合成データにも特定のバグがあるということです。

さらに、実験プロセスでは、多くの無関係で不必要なステップが発生したり、エラーが発生したりする傾向があることが示されています。

このような無駄やエラーは、複雑な数学の問題で発生すると、検出するのが難しいことがよくあります。

ポリシーモデルをトレーニングするための蒸留ベースのデータ合成方法 (GPT-4 蒸留からの CoT データの拡張など) などの既存の方法では、収益が減少することが示されており、最終的には他の教師モデルを上回ることができません。

一方、数学的推論のための信頼性の高い PRM (プロセス報酬モデル) をトレーニングすることは、今日まで未解決の問題のままです。

MSRA の新しい rStar-Math では、2 つの小さなモデルをトレーニングするという課題に対処するために、次の 3 つの革新的な方法が導入されています。

コード強化CoTデータ合成法
プロセス報酬モデルのトレーニング方法
四輪セルフマインドディープエボリューション

これについて詳細に議論しましょう。

コード強化CoTデータ合成法

rStar-Math は、上記の問題を解決するためにコード拡張 CoTを使用することを選択しました。

この方法は、広範な MCTS 展開を実行し、それによって自己注釈付き MCTS Q 値を持つ段階的な検証推論軌跡を生成します。

具体的には、数学の問題の解決は、 MCTS 内で複数の生成ステップに分割されます。

各推論ステップを生成する際に、モデルは候補ノードをポリシーモデルとしてサンプリングし、そのステップの CoT 思考面の説明だけでなく、対応する Python コードも生成します。

生成されたコードの品質を検証するために、 Python コードを正常に実行したノードのみが保持されます。これにより、中間ステップでのエラーが削減され、推論の各ステップの正確性が保証されます。

これを基にして、推論ステップの品質をさらに保証するために、rStar-Math は MCTS を使用して段階的な推論軌跡を生成します(複雑な数学の問題を複数の単一ステップ生成タスクに分解するために使用されます)。

多数の MCTS ロールバックでは、最終的な正解への貢献に基づいて、各中間ステップに Q 値が自動的に割り当てられます。

正解につながるより多くの軌跡を生成するのに役立つステップには、より高い Q 値が割り当てられ、高品質であると見なされます。

これにより、SLM によって生成される推論軌跡が、正確で高品質の中間ステップで構成されることが保証されます。

プロセス報酬モデルのトレーニング方法

現在、ほとんどの大規模モデルは推論数学的問題を解決する際に問題に直面しています。

推論プロセス中に、よりよい選択を行うのに役立つきめ細かな段階的なフィードバックを提供することができません。

MCTS 展開は広く普及していますが、Q 値の精度が十分でないため、各推論ステップをスコアリングできない場合があります。

この目的のために、rStar-Math は、プロセス選好モデル (PPM) をトレーニングするために使用される SLM を導入することで、数学的推論の各ステップの報酬ラベルを確実に予測します。

PPM の中心的な考え方は、正確なステップレベルのスコアに直接依存するのではなく、ステップレベルの肯定的および否定的な好みのペアを構築することによってモデルをトレーニングすることです。

Q 値に基づいて各ステップの優先順位ペアを構築し、ペアワイズランキング損失を使用して各推論ステップの PPM スコア予測を最適化し、信頼性の高いラベル付けを実現します。

前述のように、 Q 値は正確ではなくノイズが含まれていますが、PPM ではこれを使用して、正(正しい)ステップと負(無関係/誤り)ステップを確実に区別できます。

四輪セルフマインドディープエボリューション

SLM は大規模なモデルよりも弱いため、チームは4 ラウンドの深層自己思考進化を設計し、徐々に高品質のデータを生成し、より困難な数学的問題を通じてトレーニングセットを拡張しました。

注目すべきは、チームが最初に 747,000 件の数学の問題を含むオープンソースデータセットを選択したことです。

しかし、各ラウンドで研究チームは747kの数学データセットからの元のソリューションを使用せず、代わりに広範なMCTS展開を実行しました。

4 つのラウンドのそれぞれで、MCTS を使用して段階的に検証された推論軌跡が生成され、その後、新しいポリシー SLM および PPM のトレーニングに使用されます。次のラウンドでは、新しいモデルが適用され、より高品質のトレーニングデータが生成されます。

四輪自己思考ディープ進化の詳細は以下になります。

第1ラウンド:

基本モデルは最初に教師ありの微調整を通じて改善され、その後の自己進化の基盤が築かれます。

改良モデルは SLM-r1 として表されます。

表 2 に示すように、研究者は DeepSeek-Coder-V2-Instruct (236B) を使用して MCTS を実行し、SFT データを収集しました。

このラウンドでは報酬モデルが利用できなかったため、研究者は Q 値にターミナルガイドの注釈を使用し、効率を向上させるために MCTS の起動を 8 回に制限しました。

正しい解を得るために、チームは平均 Q 値が最も高い上位 2 つの軌跡を SFT データとして選択しました。

一方、チームはこのラウンドで PPM-r1 もトレーニングしました。

このラウンドの鍵となるのは、高品質の初期トレーニングデータを生成し、このデータを使用してベースモデルを微調整することです。

第2ラウンド:

信頼性の高い PPM-r2 モデルをトレーニングし、PPM を通じてその推論機能を大幅に向上させます。

このラウンドでは、ポリシーモデルが 7B SLM-r1 に更新されたため、チームはより信頼性の高い Q 値アノテーションを取得するために広範な MCTS 展開を実施しました。さらに、最初の信頼性の高い報酬モデル PPM-r2 をトレーニングしました。

具体的には、研究チームは各問題に対して16回のMCTS展開を実施しました。その結果得られた段階的な検証推論軌跡は、品質とQ値の精度の両方において大幅な改善を示しました。

表 4 に示すように、PPM-r2 はブートストラップラウンドに比べて大幅に効果的です。

さらに、表 3 に示すように、ポリシーモデル SLM-r2 は期待どおりに改善を続け、後続の推論でより良い選択を行うように導いています。

第3ラウンド:

PPM によって強化された MCTS は、より高品質のデータを生成し、モデルの推論機能をさらに向上させます。

研究者たちは、堅牢なPPM-r2を活用し、このラウンドでPPM強化MCTSを実施してデータを生成し、より高品質な軌跡を作成しました。トレーニングセットに含まれる数学およびオリンピックレベルの問題については、ここでさらに詳しく説明します（詳細は表2を参照）。

その後、研究者らは、生成された推論軌跡と自己注釈付き Q スコアを使用して、新しいポリシー SLM-r3 と PPM-r3 をトレーニングしました。どちらも大幅な改善が見られました。

第4ラウンド:

これにより、MCTS ロールバックの数を増やすことで、難しい数学の問題が解決されます。

最初の 3 ラウンド後、rStar – Math は初等および数学の問題における SLM の正解率を向上させましたが、オリンピックレベルの問題でのスコアは依然として 62.16% にとどまりました。

これに対処するために、チームはシンプルな戦略を採用しました。16 回の MCTS 展開後も解決されなかった問題に対して、さらに 64 回の展開を実行するというものです。

必要に応じて、この数を 128 回まで増やすことができます。

さらに、研究者らは異なるランダムシードを使用して複数の MCTS 拡張を実行し、最終的にオリンピックレベルの問題の成功率を 80.58% まで向上させました。

△表2を便宜上再度貼り付けます。

要約すると、4 ラウンドの自己進化を経て、747,000 個の数学の問題のスコアは 90.25% に達しました。

未解決の残る問題のうち、大部分は複雑な問題です。

研究者らはランダムに選んだ20の質問を手作業で確認し、そのうち19問が誤って不正解としてマークされていることを発見した。

これに基づいて、チームは、残りの未解決の問題は品質が低いと結論付け、そのため自己進化プロセスは第 4 ラウンドで終了しました。

実験評価と結果

以下の表 5 は、rStar-Math と最先端の推論モデルを比較した結果を示しています。

言及する価値のある観察事項が 3 つあります。

まず、rStar-Math は SLM の数学的推論能力を大幅に向上させ、はるかに小さいモデルサイズで OpenAI o1 に匹敵するかそれを超えるパフォーマンスを実現します。

たとえば、Qwen2.5-Math-7B は当初MATH で58.8% の精度でしたが、rStar-Math を使用した後は精度が 90.0% に大幅に向上し、o1-preview や Claude 3.5 Sonnet を上回り、o1-mini と同等になりました。

College Math ベンチマークテストでは、rStar-Math とそれに続く Qwen2.5-Math-7B が o1-mini を 2.7% 上回りました。

AIME 2024では、rStar-Mathに倣ったQwen2.5-Math-7Bモデルの得点は53.3%で、o1-miniの56.7%を下回りました。しかし、7BモデルはAIME IとIIで15問中8問を解答し、高校数学の成績上位20%以内にランクインしました。

未解決の問題のうち 8 つは視覚認識を必要とする幾何学の問題であり、rStar-Math は現在この機能をサポートしていません。

第二に、より小規模なポリシーモデル(15 億～ 7 億)と報酬モデル(7 億) を使用しているにもかかわらず、rStar-Math は最先端の System 2 ベースラインを大幅に上回っています。

同じベースモデル (Qwen2-Math-7B、Qwen2.5-Math-1.5B/7B) を使用しながら、報酬モデル (Qwen2.5-Math-RM-72B) が 10 倍以上大きい Qwen Best-of-N ベースラインと比較すると、rStar-Math はすべての基本モデルの推論精度を一貫して最先端レベルまで向上させます。

10 倍以上大きい Qwen2.5-Math-72B-Instruct の N-Best-of-N ポリシーモデルと比較しても、rStar-Math は同じ数のサンプリングソリューションを使用した GSM8K を除くすべてのベンチマークで優れています。

3 番目に、過剰に最適化されている可能性のある MATH、GSM8K、AIME などのよく知られたベンチマークとは別に、rStar-Math は他の難しい数学ベンチマークでも優れた汎用性を示しています。

オリンピックのベンチマーク、大学の数学、中国の大学入学試験（Gaokao）の数学テストなどを含みますが、これらに限定されません。

さらに、rStar-Math トレーニングセットは主に公開データセットから取得されており、これらのベンチマーク用に特別に最適化されていないことを強調しておく必要があります。

要約すると、実験結果によって、自己進化、推論軌跡の段階的な検証、および PPM の有効性が検証されました。

もう一つ

この研究の共同筆頭著者は、MSRA の Xinyu Guan 氏と Li Lyna Zhang 氏です。

プロジェクトリーダーはLi Lyna Zhangです。彼女は中国科学技術大学で学士号と博士号を取得しており、現在はMSRAのシステム・ネットワークグループで上級研究員を務めています。

もう一人の共著者であるXinyu Guan は、この研究が完了した当時、MSRA でインターンをしており、当時はまだ北京大学で勉強していました。

ちなみに、この論文のもう一人の著者であるYouran Sun氏も、このプロジェクトに参加した当時はMSRAでインターンをしており、現在は清華大学の学生です。

あぁ、若者の世界、またインターンかぁ〜

arXiv:
https://arxiv.org/pdf/2501.04519

詳細なコードとデータについては、GitHub をご覧ください。
https://github.com/microsoft/...

参考リンク:
[1]https://x.com/\_akhaliq/status/1877206745652592763 [2]https://www.reddit.com/r/sing...\_says\_with\_rstarmath\_it\_has\_demonstrated/ [3]https://www.reddit.com/r/Mach...\_rstarmath\_small\_llms\_can\_master\_math\_reasoning/ [4]https://www.microsoft.com/en-...

618ZXW