618ZXW

たった1万元!清華大学のチームは強化学習を用いて、7BモデルがGPT-4oを数学的に上回る性能を実現しました。

OpenAIのo1およびo3モデルの公開は、強化学習によって大規模モデルが人間と同様に、迅速な反復的な試行錯誤や深い思考といった高次推論能力を習得できることを実証しています。模倣学習に基づくスケーリング則が徐々に疑問視される中、探索に基づく強化学習は新たなスケーリング則をもたらすことが期待されています。

最近、清華大学 NLP ラボ、上海 AI ラボ、清華大学電子工学部、OpenBMB コミュニティのチームが、プロセス報酬を組み合わせた新しい強化学習手法、 PRIME (Process Reinforcement through Implicit Rewards) を提案しました。

PRIME法を使用すると、研究者は蒸留データや模倣学習に頼ることなく、わずか8枚のA100シートと約10,000元の費用で、GPT-4oやLlama-3.1-70Bを上回る数学的機能を備えた7Bモデル、Eurus-2-7B-PRIMEを10日以内に効率的にトレーニングできます。

具体的には、研究者らはQwen2.5-Math-7B-Baseをベースモデルとして用い、新しいモデルEurus-2-7B-PRIMEを学習させました。このモデルは、アメリカ国際数学オリンピック(IMO)AIME 2024において26.7%の精度を達成し、GPT-4o、Llama3.1-70B、Qwen2.5-Math-7B-Instructを大幅に上回りました。しかも、Qwen Mathデータセットのわずか1/10しか使用していません。強化学習法PRIMEは、このモデルに16.7%の絶対的な改善をもたらし、既知のオープンソースソリューションをはるかに上回りました。

このプロジェクトはオープンソース化されるやいなや海外のAIコミュニティで瞬く間に人気となり、わずか数日間でGitHubで300近くのスターを獲得した。

将来的には、PRIME メソッドに基づくモデルや、より強力なペデスタル モデルをトレーニングして、OpenAI o1 のパフォーマンスに近づける可能性があります。

PRIMEメソッドの紹介

長い間、オープンソース コミュニティは、モデルの推論機能を強化するためにデータ駆動型の模倣学習に大きく依存してきましたが、このアプローチの限界も明らかです。より強力な推論機能にはより高品質のデータが必要ですが、高品質のデータは常に不足しており、模倣と蒸留を維持することが困難になっています。

OpenAI o1とo3の成功は強化学習の限界が高いことを示していますが、強化学習には(1)正確でスケーラブルな高密度報酬をどのように得るか、(2)これらの報酬を最大限に活用できる強化学習アルゴリズムをどのように設計するかという2つの重要な課題があります。

PRIMEアルゴリズムは、暗黙的なプロセス報酬という概念を出発点として、これら2つの問題に対処します。暗黙的なプロセス報酬モデルは、出力報酬モデル(ORM)のデータ、すなわち最終的な回答の正誤情報のみを用いて学習することができ、同時にプロセス報酬を暗黙的にモデル化し、最終的にプロセス報酬モデルを自動的に学習します。このプロセス全体は理論によって厳密に保証されています。

詳細な導出については、https://huggingface.co/papers... を参照してください。

研究者は、暗黙的プロセス報酬モデルのこの特性に基づいて、強化学習にそれを適用すると 3 つの大きな利点があると指摘しています。

  • プロセス報酬:暗黙的なプロセス報酬モデルは、追加の価値モデルをトレーニングすることなく、各トークンの価値の推定値を提供できます。
  • スケーラビリティ:暗黙的プロセス報酬モデルは、オンライン更新に結果ラベルのみを必要とします。そのため、ポリシーモデルサンプリングと結果検証を組み合わせることで、PRMを直接更新することができ、分布バイアスとスケーラビリティの問題を効果的に軽減できます。
  • シンプルさ:暗黙的プロセス報酬モデルは本質的に言語モデルです。実際には、研究者たちは初期ポリシーモデルを用いてPRMを直接初期化できることを発見しました。

暗黙的プロセス報酬は、大規模強化学習モデルにおけるPRMの活用、学習、スケール化という3つの主要な問題を解決します。追加の報酬モデルを学習することなく強化学習を開始でき、優れた使いやすさとスケーラビリティを備えています。

PRIMEアルゴリズムの具体的なフローを下図に示します。これは、各トークンのプロセス報酬を強化学習プロセスにシームレスに適用できるオンライン強化学習アルゴリズムです。

実験結果

研究者らは、PRIME アルゴリズムとベースライン メソッドを詳細に比較しました。

結果ベースの監視のみと比較すると、PRIME はサンプリング効率を2.5 倍向上させ、下流のタスクでも大幅な改善をもたらします。

研究者らは、オンラインPRM更新の重要性も検証しました。オンラインPRM更新は、固定された更新されないPRMよりも大幅に優れていることがわかり、これもPRIMEアルゴリズム設計の合理性を証明しています。

さらに、研究者らは追加データを収集し、Qwen2.5-Math-Instruct に基づく最先端の EurusPRM をトレーニングして、ベスト・オブ・N サンプリングにおいてトップレベルのオープンソースを達成しました。

ショーケースプレゼンテーション

質問(AIME 2024 テスト問題、Claude-3.5-Sonnet の回答が不正解)

答え

質問

どちらの数字が大きいでしょうか?9.11 か 9.9 か?

答え

強化学習は、既存の知的エージェント(大規模モデル)と現実世界(世界モデル、身体化された知能)を繋ぐ橋渡しとして機能し、世界からのフィードバックをモデル知能に内在化するための道筋となります。これは次世代人工知能の開発において重要な役割を果たすでしょう。PRIMEアルゴリズムは、暗黙的なプロセス報酬と強化学習を革新的に組み合わせることで、大規模モデル強化学習における報酬スパース性の問題を解決し、大規模モデルの複雑な推論能力のさらなる向上につながる可能性があります。

ブログリンク: https://curvy-check-498.notio... GitHub リンク: https://github.com/PRIME-RL/P...