|
DeepSeek は、トレーニング コードとデータ以外のすべてをオープンソース化しています。 現在、オープンソースの RL トレーニング方法では、わずか 30 分の 1 のトレーニング ステップで、同じサイズの DeepSeek-R1-Zero 蒸留 Qwen のパフォーマンスに匹敵できます。 国内トップ6の大規模モデリング企業の一つであるJieyue Xingchenは、清華大学と共同で、AI専門家のShen Xiangyang氏、Jieyue Xingchenの創設者兼CEOであるJiang Daxin氏、ResNetの作者であるZhang Xiangyu氏など、著名人のグループが直々に署名したOpen Reasoner Zero(ORZ)をリリースしました。 応答の長さに関しては、トレーニング ステップの約 17% で DeepSeek-R1-Zero 671B に匹敵します。 特に注目すべきは、チームが重要な転換点を発見したことだ。 約 680 回のトレーニング ステップで、モデルのトレーニング報酬値、反射能力、応答の長さはすべて大幅に改善され、DeepSeek-R1-Zero の論文で説明されているのと同様の「なるほど!」という瞬間を示したようです。 現在、研究トレーニング データ、トレーニング コード、論文、モデルはすべて 100% オープン ソースであり、使用されているオープン ソース ライセンスは許容 MIT ライセンスです。 オープンソース化されてから 48 時間以内に、すでに 700 を超えるスターを獲得しました。 詳細はこちらです。 複雑な報酬関数は不要ですか?広範な実験を通じて、チームは、GAE を使用した元の PPO による RL トレーニングを効果的に拡張できる最小限のアプローチを実証しました (主要なパラメータ設定は、GAE λ = 1 および割引係数 γ = 1)。 さらに、ルールベースの報酬関数は、DeepSeek-R1-Zero で観察された現象と同様に、推論タスクにおける応答の長さとベースライン パフォーマンスを同時に拡張するのに十分です。 この結果は、複雑な報酬関数は不要であることを示しています。 さらに、研究チームは、KL ベースの正則化手法に依存せずに安定したトレーニングを実現しました。これは、RLHF および推論モデル分野における現在の理解とは異なり、強化学習のさらなるスケールアップにも期待が持てます。 Open Reasoner Zeroのトレーニングには、データの量と多様性を同時に拡大することが不可欠です。MATHのような限られた学術データセットでのトレーニングでは、パフォーマンスが急速に停滞しますが、適切にキュレーションされた大規模で多様なデータセットであれば、継続的なスケーリングが可能であり、トレーニングセットとテストセットのどちらにおいても飽和の兆候は見られません。 Qwen2.5-Base-7B モデルに基づく実験では、すべてのベンチマークで、ある時点で報酬と応答の長さが突然増加しました。これは、創発行動に似た現象です。 トレーニングプロセス全体を通して、平均正解反射長は平均応答長を一貫して上回っていました。特に注目すべき現象はステップ680付近で発生し、3つの指標すべてが同時に加速しました。 最終的に、Open-Reasoner-Zero モデルは、追加の命令調整を行わなくても、MMLU および MMLU_PRO ベンチマークで Qwen2.5 Instruct を上回りました。 もう一つ昨日、Jieyue Xingchenエコシステムオープンデーで、Jieyue Xingchenの創設者兼CEOであるJiang Daxin氏がこの研究について簡単に言及しました。 研究はまだ完全には完了していないため(進行中)、簡単に触れただけです。今後、新たな展開があるかもしれません。興味のある方は、引き続き注目してください。 プロジェクトアドレス: https://github.com/Open-Reaso... |
1/30 トレーニング ステップは、DeepSeek-R1-Zero、Shen Xiangyang、Jiang Daxin、Zhang Xiangyu などのオープンソース推論モデルの RL トレーニング メソッドを再現します。
関連するおすすめ記事
-
ちょうど今、ウェイモ中国の創業者、彭俊楼氏がベルを鳴らし、「中国版ウェイモ」初のIPOを記念した。
-
Baidu AI CloudはDeepSeek R1/V3をリリースし、初日に15,000人以上の顧客が利用しました。
-
擦り付けただけで、AI大モデルの態度が見えてきました!
-
どのモデルも合格しませんでした! 北京大学/先端技術通信研究所は、特に長いテキストの理解と生成を評価するための非常に難しいベンチマークを提案しています。
-
累計13万1600台納車!東風eπ007レンジエクステンダーバージョン。
-
OpenAIのアカウントが暗号通貨ハッカーにハッキングされ、15ヶ月間で4件目のハッキング事件となった。ネットユーザーからは「彼らのAIのセキュリティは依然として信頼できるのか?」という疑問の声が上がっている。