618ZXW

1/30 トレーニング ステップは、DeepSeek-R1-Zero、Shen Xiangyang、Jiang Daxin、Zhang Xiangyu などのオープンソース推論モデルの RL トレーニング メソッドを再現します。

DeepSeek は、トレーニング コードとデータ以外のすべてをオープンソース化しています。

現在、オープンソースの RL トレーニング方法では、わずか 30 分の 1 のトレーニング ステップで、同じサイズの DeepSeek-R1-Zero 蒸留 Qwen のパフォーマンスに匹敵できます

国内トップ6の大規模モデリング企業の一つであるJieyue Xingchenは、清華大学と共同で、AI専門家のShen Xiangyang氏、Jieyue Xingchenの創設者兼CEOであるJiang Daxin氏、ResNetの作者であるZhang Xiangyu氏など、著名人のグループが直々に署名したOpen Reasoner Zero(ORZ)をリリースしました。

応答の長さに関しては、トレーニング ステップの約 17% で DeepSeek-R1-Zero 671B に匹敵します。

特に注目すべきは、チームが重要な転換点を発見したことだ。

約 680 回のトレーニング ステップで、モデルのトレーニング報酬値、反射能力、応答の長さはすべて大幅に改善され、DeepSeek-R1-Zero の論文で説明されているのと同様の「なるほど!」という瞬間を示したようです。

現在、研究トレーニング データ、トレーニング コード、論文、モデルはすべて 100% オープン ソースであり、使用されているオープン ソース ライセンスは許容 MIT ライセンスです。

オープンソース化されてから 48 時間以内に、すでに 700 を超えるスターを獲得しました。

詳細はこちらです。

複雑な報酬関数は不要ですか?

広範な実験を通じて、チームは、GAE を使用した元の PPO による RL トレーニングを効果的に拡張できる最小限のアプローチを実証しました (主要なパラメータ設定は、GAE λ = 1 および割引係数 γ = 1)。

さらに、ルールベースの報酬関数は、DeepSeek-R1-Zero で観察された現象と同様に、推論タスクにおける応答の長さとベースライン パフォーマンスを同時に拡張するのに十分です。

この結果は、複雑な報酬関数は不要であることを示しています。

さらに、研究チームは、KL ベースの正則化手法に依存せずに安定したトレーニングを実現しました。これは、RLHF および推論モデル分野における現在の理解とは異なり、強化学習のさらなるスケールアップにも期待が持てます。

Open Reasoner Zeroのトレーニングには、データの量と多様性を同時に拡大することが不可欠です。MATHのような限られた学術データセットでのトレーニングでは、パフォーマンスが急速に停滞しますが、適切にキュレーションされた大規模で多様なデータセットであれば、継続的なスケーリングが可能であり、トレーニングセットとテストセットのどちらにおいても飽和の兆候は見られません。

Qwen2.5-Base-7B モデルに基づく実験では、すべてのベンチマークで、ある時点で報酬と応答の長さが突然増加しました。これは、創発行動に似た現象です。

トレーニングプロセス全体を通して、平均正解反射長は平均応答長を一貫して上回っていました。特に注目すべき現象はステップ680付近で発生し、3つの指標すべてが同時に加速しました。

最終的に、Open-Reasoner-Zero モデルは、追加の命令調整を行わなくても、MMLU および MMLU_PRO ベンチマークで Qwen2.5 Instruct を上回りました。

もう一つ

昨日、Jieyue Xingchenエコシステムオープンデーで、Jieyue Xingchenの創設者兼CEOであるJiang Daxin氏がこの研究について簡単に言及しました。

研究はまだ完全には完了していないため(進行中)、簡単に触れただけです。今後、新たな展開があるかもしれません。興味のある方は、引き続き注目してください。

プロジェクトアドレス:

https://github.com/Open-Reaso...