|
強化学習(RL)は、大規模モデルの複雑な推論能力を強化する上で重要な役割を果たしますが、その複雑な計算プロセスは、トレーニングと展開において大きな課題ももたらします。最近、ByteDanceのDoubao大規模モデルチームは、香港大学と共同でHybridFlowを発表しました。これは、トレーニングのスループットを大幅に向上させ、開発と保守の複雑さを軽減する、柔軟で効率的なRL/RLHFフレームワークです。実験結果によると、HybridFlowは、様々なモデルサイズとRLアルゴリズムにおいて、他のフレームワークと比較してトレーニングのスループットを1.5~20倍向上させることが示されています。 大規模モデルの学習後段階に強化学習(RL)手法を導入することは、モデルの品質向上と人間の嗜好への適合を図る上で重要な手段となっています。しかし、モデル規模の継続的な拡大に伴い、RLアルゴリズムは大規模モデルの学習において柔軟性とパフォーマンスという二重の課題に直面しています。従来のRL/RLHFシステムは柔軟性と効率性の面で不十分であり、絶えず変化する新しいアルゴリズムの要求に適応し、大規模モデルの潜在能力を最大限に引き出すことが困難です。 Doubao Big Modelチームによると、HybridFlowはハイブリッドプログラミングモデルを採用し、単一コントローラーの柔軟性と複数コントローラーの効率性を兼ね備え、制御フローと計算フローを分離しています。Rayの分散プログラミング、動的計算グラフ、異種スケジューリング機能に基づいて、HybridFlowは単一モデルの分散計算をカプセル化し、モデル間のデータ分割を統一し、非同期RL制御フローをサポートします。これにより、HybridFlowは様々なRLアルゴリズムを効率的に実装・実行し、計算モジュールを再利用し、異なるモデル展開方法をサポートすることで、システムの柔軟性と開発効率を大幅に向上させます。 実験結果によると、PPO、ReMax、Safe-RLHFアルゴリズムのいずれを使用しても、HybridFlowはモデルサイズ全体にわたって平均トレーニングスループットにおいて他のフレームワークを大幅に上回り、1.5倍から20倍の改善が見られました。GPUクラスターの規模が大きくなるにつれて、HybridFlowのスループットも良好に拡張されます。これは、柔軟なモデル展開によりハードウェアリソースを最大限に活用し、効率的な並列コンピューティングを実現しているためです。さらに、HybridFlowは様々な分散並列フレームワーク(Megatron-LM、FSDP、vLLM)をサポートしており、様々なモデルサイズの計算ニーズに対応します。 O1モデルの登場により、大規模モデルの推論能力と強化学習(RL)は業界からますます注目を集めています。Doubaoの大規模モデルチームは、今後も関連シナリオの探求と実験を継続していくと述べています。現在、HybridFlowに関する研究論文はトップクラスの学術会議であるEuroSys 2025に採択されており、コードはオープンソース化されています。 HybridFlow オープンソース リンク: https://github.com/volcengine... |