|
OpenAIのo1およびo3モデルの公開は、強化学習によって大規模モデルが人間と同様に、迅速な反復的な試行錯誤や深い思考といった高次推論能力を習得できることを実証しています。模倣学習に基づくスケーリング則が徐々に疑問視される中、探索に基づく強化学習は新たなスケーリング則をもたらすことが期待されています。 最近、清華大学 NLP ラボ、上海 AI ラボ、清華大学電子工学部、OpenBMB コミュニティのチームが、プロセス報酬を組み合わせた新しい強化学習手法、 PRIME (Process Reinforcement through Implicit Rewards) を提案しました。 PRIME法を使用すると、研究者は蒸留データや模倣学習に頼ることなく、わずか8枚のA100シートと約10,000元の費用で、GPT-4oやLlama-3.1-70Bを上回る数学的機能を備えた7Bモデル、Eurus-2-7B-PRIMEを10日以内に効率的にトレーニングできます。 具体的には、研究者らはQwen2.5-Math-7B-Baseをベースモデルとして用い、新しいモデルEurus-2-7B-PRIMEを学習させました。このモデルは、アメリカ国際数学オリンピック(IMO)AIME 2024において26.7%の精度を達成し、GPT-4o、Llama3.1-70B、Qwen2.5-Math-7B-Instructを大幅に上回りました。しかも、Qwen Mathデータセットのわずか1/10しか使用していません。強化学習法PRIMEは、このモデルに16.7%の絶対的な改善をもたらし、既知のオープンソースソリューションをはるかに上回りました。 このプロジェクトはオープンソース化されるやいなや海外のAIコミュニティで瞬く間に人気となり、わずか数日間でGitHubで300近くのスターを獲得した。 将来的には、PRIME メソッドに基づくモデルや、より強力なペデスタル モデルをトレーニングして、OpenAI o1 のパフォーマンスに近づける可能性があります。 PRIMEメソッドの紹介長い間、オープンソース コミュニティは、モデルの推論機能を強化するためにデータ駆動型の模倣学習に大きく依存してきましたが、このアプローチの限界も明らかです。より強力な推論機能にはより高品質のデータが必要ですが、高品質のデータは常に不足しており、模倣と蒸留を維持することが困難になっています。 OpenAI o1とo3の成功は強化学習の限界が高いことを示していますが、強化学習には(1)正確でスケーラブルな高密度報酬をどのように得るか、(2)これらの報酬を最大限に活用できる強化学習アルゴリズムをどのように設計するかという2つの重要な課題があります。 PRIMEアルゴリズムは、暗黙的なプロセス報酬という概念を出発点として、これら2つの問題に対処します。暗黙的なプロセス報酬モデルは、出力報酬モデル(ORM)のデータ、すなわち最終的な回答の正誤情報のみを用いて学習することができ、同時にプロセス報酬を暗黙的にモデル化し、最終的にプロセス報酬モデルを自動的に学習します。このプロセス全体は理論によって厳密に保証されています。 詳細な導出については、https://huggingface.co/papers... を参照してください。 研究者は、暗黙的プロセス報酬モデルのこの特性に基づいて、強化学習にそれを適用すると 3 つの大きな利点があると指摘しています。
暗黙的プロセス報酬は、大規模強化学習モデルにおけるPRMの活用、学習、スケール化という3つの主要な問題を解決します。追加の報酬モデルを学習することなく強化学習を開始でき、優れた使いやすさとスケーラビリティを備えています。 PRIMEアルゴリズムの具体的なフローを下図に示します。これは、各トークンのプロセス報酬を強化学習プロセスにシームレスに適用できるオンライン強化学習アルゴリズムです。 実験結果研究者らは、PRIME アルゴリズムとベースライン メソッドを詳細に比較しました。 結果ベースの監視のみと比較すると、PRIME はサンプリング効率を2.5 倍向上させ、下流のタスクでも大幅な改善をもたらします。 研究者らは、オンラインPRM更新の重要性も検証しました。オンラインPRM更新は、固定された更新されないPRMよりも大幅に優れていることがわかり、これもPRIMEアルゴリズム設計の合理性を証明しています。 さらに、研究者らは追加データを収集し、Qwen2.5-Math-Instruct に基づく最先端の EurusPRM をトレーニングして、ベスト・オブ・N サンプリングにおいてトップレベルのオープンソースを達成しました。 ショーケースプレゼンテーション質問(AIME 2024 テスト問題、Claude-3.5-Sonnet の回答が不正解) 答え 質問 どちらの数字が大きいでしょうか?9.11 か 9.9 か? 答え 強化学習は、既存の知的エージェント(大規模モデル)と現実世界(世界モデル、身体化された知能)を繋ぐ橋渡しとして機能し、世界からのフィードバックをモデル知能に内在化するための道筋となります。これは次世代人工知能の開発において重要な役割を果たすでしょう。PRIMEアルゴリズムは、暗黙的なプロセス報酬と強化学習を革新的に組み合わせることで、大規模モデル強化学習における報酬スパース性の問題を解決し、大規模モデルの複雑な推論能力のさらなる向上につながる可能性があります。 ブログリンク: https://curvy-check-498.notio... GitHub リンク: https://github.com/PRIME-RL/P... |
たった1万元!清華大学のチームは強化学習を用いて、7BモデルがGPT-4oを数学的に上回る性能を実現しました。
関連するおすすめ記事
-
OpenAIは長寿研究のためにGPT-4bを立ち上げ、清華大学の著名な科学者ディン・シェン氏と「細胞リプログラミング」で提携し、ウルトラマン本人からも投資を受けた。
-
ウルトラマン: オープンソースAIについて、私たちは間違っていました!DeepSeekがOpenAIの優位性を侵食しました。次はGPT-5です。
-
世界初の宇宙インテリジェンス分野における上場企業!浙江大学と清華大学の「三銃士」とNVIDIA Genomicsが、2つの大きな技術的ギャップを埋めています。
-
Doubao の大規模モデル チームと HKU の新しい成果 ByteCheckpoint により、10,000 カロリーで LLM トレーニングの効率が向上します。
-
新しいAIプログラミングツールが話題に:スマホで2分でアプリが作成できる
-
中国本土と香港のイノベーション協力と発展に焦点を当てた2024年香港バウヒニアイノベーションテクノロジーフォーラムが成功裏に開催されました。