えっ？7BのDeepSeekが本格的なR1バージョンを上回りました。これは上海AIラボのBowen Zhou氏のチームによる新たな成果です。

形勢は逆転しました! 新しい方法により、DeepSeek の洗練された Qwen 数学的能力は本格的な R1 バージョンを超え、 7B は 671B を上回ります。

さらに、0.5B モデルは GPT-4o よりも優れており、1.5B DeepSeek 蒸留 Qwen は o1-mini および o1-preview よりも優れており、3B Llama は 405B Llama よりも優れています...

これは上海AIラボ/清華大学/ハルビン理工大学/北京郵電大学のチームによる最新の研究成果であり、責任著者はQi Biqing氏とZhou Bowen氏です。

最適なテスト時間スケーリング（TTS）の計算の再考

研究チームは、TTS は言語モデルの推論能力の向上に進歩を遂げてきたものの、現在の研究では戦略モデル、プロセス報酬モデル (PRM)、質問の難易度などの要因の影響の体系的な分析がまだ不足していると考えています。

したがって、この研究は次の 2 つの中心的な質問に焦点を当てています。

さまざまな戦略モデル、PRM、質問の難易度にわたる最適な TTS アプローチは何ですか?
TTSは複雑なタスクにおける言語モデルのパフォーマンスをどの程度向上させることができるでしょうか？小規模なモデルは大規模なモデルよりも優れたパフォーマンスを発揮できるでしょうか？

テスト時間のスケーリングを再考する

これらの問題を調査するために、研究チームは複数のポリシーモデルとさまざまなサイズの PRM を使用して、 MATH-500 および AIME24数学的推論データセットに対する包括的な実験評価を実施しました。

彼らは推論問題をマルコフ決定プロセスとしてモデル化し、状態空間、行動空間、遷移関数、報酬関数、割引率などの要素を定義しました。

TTS については、Best-of-N、ビーム検索、および多様な検証ツリー検索 (DVTS) の 3 つの方法が検討されました。

実験により、最適な TTS 方法は、特定の戦略モデル、プロセス報酬モデル (PRM)、および問題の難易度に大きく依存することが示されています。

小規模なポリシーモデルの場合、検索ベースの方法は BoN よりも優れていますが、大規模なポリシーモデルの場合はその逆になります。

研究チームは、この違いは、大規模なモデルは推論能力が強く、段階的な選択を検証者が行う必要がないため生じると考えています。一方、小規模なモデルでは、各ステップの選択を検証者が行い、中間ステップの正確性を確保します。

プロセス報酬モデル（PRM）については、SkyworkとQwen2.5-MathのPRMは、Llama3.1-8B-Instructで使用した場合に非常に優れています。MATH-500データセットでは、計算予算の増加に伴い、探索手法の性能が大幅に向上します。

Math-Shepherd と RLHFlow を使用した PRM のパフォーマンスは悪く、多数決よりもさらに悪かったです。

7 個未満のパラメータを持つ小規模なポリシーモデルの場合、単純な問題には BoN が適していますが、より難しい問題にはビーム検索が適しています。

パラメータが 7B から 32B の範囲のポリシーモデルの場合、DVTS は単純な問題と中程度の難易度の問題で優れたパフォーマンスを発揮しますが、ビーム検索は難しい問題に対してより効果的です。

さらに、72B パラメータ戦略モデルでは、BoN がすべての難易度レベルに最適な方法です。

そのため、チームは、TTS 計算が特定のポリシーモデル、キュー、報酬関数に適応できるように、より一般的な報酬を考慮した最適計算 TTS フレームワークを提案しました。

報酬を考慮した最適な TTS フレームワークを使用して、MATH-500 と AIME24 で次の結果が得られました。

3B Llama3.2 は Llama3.1-405B の 135 倍の大きさで、以前の TTS 研究 (モデルの 23 倍の大きさ) と比較して 487% の改善を示しています。

DeepSeek-R1-Distill-Qwen-7B は、OpenAI-o1 (パラメータ数不明) および DeepSeek-R1 (671B) よりも優れています。

0.5B および 1.5B のより小さなモデルでも、GPT-4o や o1-preview などの特殊な推論モデルに匹敵するパフォーマンスが実証されました。

この研究では、最適な TTS と、長い CoT に基づく現在普及している方法も比較しました。

結果は、TTS が MATH-500 および AIME2024 のほとんどの長い CoT 方式よりも優れていることを示しています。

しかしながら、TTSはMATH-500ではDeepSeek-R1-Distill-Qwen-7Bに近いパフォーマンスを示しましたが、AIME24では大幅に低下しました。これは、TTSが比較的単純なタスクでは明確な優位性を示す一方で、より複雑なタスクでは非常に大規模なモデルから抽出されたモデルに遅れをとっていることを示しており、改善の余地があることを示唆しています。

最後に、チームは、現在の「強対弱」戦略最適化監督メカニズムではなく、真の「弱対強」手法を研究することの重要性を強調しました。

今後の研究では、複雑なタスクにおける小規模言語モデルのパフォーマンスを向上させ、効果的な推論戦略を開発するための新しい方法を提供するために、より適応的で汎用的な監督メカニズムの開発に重点を置く必要があります。

現在の研究では、数学タスクに対する TTS の包括的な評価が行われていますが、コードや化学などのより多くのタスクに TTS を拡張したり、最適な TTS を計算するためのより効率的な方法を探ったりするなど、まだいくつかの制限と今後の検討すべき方向性があります。

論文リンク: https://arxiv.org/abs/2502.06703

618ZXW

えっ？7BのDeepSeekが本格的なR1バージョンを上回りました。これは上海AIラボのBowen Zhou氏のチームによる新たな成果です。

テスト時間のスケーリングを再考する

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ