618ZXW

Tencent は、3,890 億のパラメータを持つ最大のオープンソース MoE モデルをリリースしました。このモデルは商用利用が無料で、ベンチマークでは Llama 3.1 を上回っています。

テンセントはオープンソース分野で競争するために全力を尽くし、突然、市場で最大のオープンソース MoE モデルをリリースしました。

Hunyuan-Large 、総パラメータ数は 3,890 億、活性化パラメータ数は 520 億です。

そのベンチマークスコアは、Llama 3.1 405B などのオープンソースのフラッグシップを上回り、コンテキスト長のサポートも 256k とレベルが上がっています。

渾源大はまだテンセントの主力モデルではないが、テンセントは、その基盤となる技術は渾源大モデルと同じ起源を持つと述べている。

Tencent Yuanbao アプリの AI 長文読み上げ機能の使用など、多くの詳細はオープンソース化される前に社内で改良されました。

このモデルは現在、完全にオープンソースで、無料で商用利用可能であり、大きな誠実さを示しています。

テンセントのHunyuan-Largeは、事前トレーニング済みモデル、微調整済みモデル、FP8量子化による微調整済みモデルの3つのオープンソースバージョンをリリースしました。

これはオープンソース コミュニティで白熱した議論を引き起こし、 HuggingFace の主任科学者 Thomas Wolf 氏がいくつかのハイライトを強く推奨し、要約しました。

  • 優れた数学的能力
  • 慎重に作成された合成データが多数使用されました。
  • 私たちは MoE トレーニングを詳細に調査し、共通の専門家を活用し、MoE のスケーリング法則を要約しました。

さまざまな開発者の中には、すぐにダウンロードと展開を開始した人もいれば、テンセントの市場参入によってMetaがより良いモデルを作らざるを得なくなることを期待する人もいました。

テンセントも同時に技術レポートを発表し、多くの技術的な詳細が議論を巻き起こした。

MoEのスケーリング則を計算すると、 C ≈ 9.59ND + 2.3 ×108Dとなります。

もう 1 つの例は、クロスレイヤー アテンションを使用して、キー値キャッシュのメモリ使用量を節約することです。

以下、記者会見における基調講演および技術報告の要点をまとめます。

渾源-大型技術レポート

MoEのスケーリング則

式は次のとおりです。

C ≈ 9.59ND + 2.3 × 10⁸D

ここで、C は計算予算 (FLOP 単位)、N はアクティベーション パラメータの数、D はトレーニング データの量 (トークン単位) を表します。

従来の稠密モデルの計算予算式 C=6ND と比較すると、MoE モデル式の違いは主に 2 つの側面に反映されています。

まず、係数は 6 から 9.59 に増加し、エキスパート ハンドオーバーの計算コストを含む、MoE の追加のルーティング計算オーバーヘッドを反映しています。

2番目に、長いシーケンスMoEモデルでの注意計算の追加オーバーヘッドを反映して、2.3×10⁸Dの定数項が追加されました。

最適な活性化パラメータの数を決定するために、チームは実験の実施に多大なリソースを投入しました。

最大 1,000 億トークンのトレーニング データを使用して、100 億から 1,000 億トークンまでのさまざまなデータ スケールをカバーし、1,000 万から 1000 億トークンの範囲のアクティベーション パラメータを持つ一連のモデルをトレーニングします。

等フロップス曲線を用いて、固定の計算予算下での最適点が発見されました。実際の学習バッチサイズの影響を考慮し、異なるパラメータ量とデータ量の組み合わせを解析した結果、最適な活性化パラメータ数は約581億個と算出されました。

最終的に、Hunyuan-Large は、最適値に近い滑らかな曲線、58.1B 付近の大きな許容空間、計算リソースの制約、トレーニングの安定性の要件、展開効率とのバランスなどの実際的な要因を主として考慮して、52B のアクティベーション パラメータを選択しました。

ルーティングとトレーニング戦略

最適なパラメータ比を明らかにすることに加えて、技術レポートでは、Hunyuan-Large 独自の「MoE メソッド」についても詳しく説明しています。

ハイブリッド ルーティング戦略:

Hunyuan-Large は、共有エキスパートと専門エキスパートを組み合わせたハイブリッド ルーティング アプローチを採用しています。

各トークンは、共有エキスパートと特殊エキスパートをそれぞれ1つずつ起動します。共有エキスパートは全トークンにまたがる一般的な知識を処理し、特殊エキスパートはTop-kルーティング戦略を用いて動的に起動され、タスク関連の特殊機能の処理を担当します。

リサイクルルーティング戦略:

従来のMoEでは、エキスパートの負荷過多により、トークンが過剰に破棄されることがよくあります。Hunyuan-Largeは、エキスパートのリサイクルメカニズムを設計することで、比較的バランスの取れた負荷を維持し、トレーニングデータを最大限に活用し、モデルのトレーニング安定性と収束速度を確保します。

専門家固有の学習率適応戦略:

エキスパートごとにトークンが大きく異なるため、学習率もそれぞれ異なる値に設定する必要があります。例えば、共有エキスパートにはより高い学習率を設定することで、各サブモデルがデータから効果的に学習し、全体のパフォーマンス向上に貢献できるようになります。

高品質の合成データ

Hunyuan チームは、主に命令生成、命令進化、応答生成、応答フィルタリングの 4 つのステップを含む、完全な高品質データ合成プロセスを開発しました。

命令生成フェーズでは、Hunyuan チームは、複数のドメインとさまざまなレベルの複雑さをカバーする高品質のデータ ソースをシードとして使用し、命令の多様性と包括性を確保します。

次の段階は命令進化段階です。この段階では、命令の明瞭性と情報内容を改善し、リソースの少ない領域での命令を拡張し、命令の難易度を徐々に上げて、より豊富で、より正確で、より挑戦的な命令にしていきます。

回答生成フェーズでは、Hunyuanチームは様々な分野に特化したモデルを用いて、専門的な回答を生成します。これらのモデルは規模や設計が異なり、生成された回答が様々な分野の要件を満たすことを保証します。

最後に、回答のフィルタリング段階では、Hunyuan チームは批評モデルを使用して生成された回答の品質を評価し、自己一貫性チェックを実行して、出力された回答が高品質であることを確認します。

この 4 段階の合成プロセスを通じて、Hunyuan チームは、高品質で多様な指示応答データ ペアを大量に生成し、MoE モデルのトレーニングに豊富で高品質のデータ サポートを提供することができました。

このデータ合成方法は、モデルのトレーニング効率を向上させるだけでなく、さまざまな下流タスクにおけるモデルのパフォーマンスを大幅に向上させます。

長文記事機能の最適化

強力な長文テキスト処理機能を実現するために、Hunyuan チームはトレーニング プロセス中にいくつかの戦略を採用しました。

トレーニングプロセスは段階的に行われます。第1フェーズでは32Kトークンのテキストを処理し、第2フェーズではテキストの長さを256Kトークンに拡張します。各フェーズでは約100億トークンのトレーニングデータを使用し、モデルが様々な長さのテキストを完全に学習し、適応できるようにします。

学習データの選択においては、 25%を書籍やコードなどの自然な長文テキストとし、本物の長文サンプルを提供します。残りの75%は通常の長さのデータです。このデータの組み合わせ戦略により、モデルは通常の長さのテキストに対する基本的な処理能力を維持しながら、長文テキストを理解する能力を獲得することができます。

さらに、超長シーケンス内の位置情報をより適切に処理するために、Hunyuanチームは位置エンコーディングを最適化しました。RoPE位置エンコーディング手法を採用し、256Kトークンステージの基本周波数を10億に拡張しました。この最適化により、超長シーケンス内の位置情報を効果的に処理できるようになり、モデルの長文理解・生成能力が向上しました。

Hunyuan チームは、公開データセットの評価に加えて、 「Penguin Scroll」と呼ばれる長いテキストの評価データセットも開発しました。

「ペンギンスクロール」は、情報抽出、情報の検索、定性分析、数値推論という 4 つの主なタスクで構成されています。

既存の長文ベンチマークとは異なり、「ペンギンスクロール」には次のような利点があります。

  • データの多様性: 「ペンギン スクロール」には、財務報告書、法的文書、学術論文など、さまざまな現実世界のシナリオからの長いテキストが含まれており、最長のものは 128K トークンに達します。
  • タスクの包括性: データセットは複数の難易度レベルのタスクをカバーし、長いテキスト処理機能の包括的な分類システムを構築します。
  • 対話データ: 実際の長文の質問と回答のシナリオをシミュレートするために、マルチターン対話データが導入されました。
  • 多言語サポート: 多言語アプリケーションのニーズを満たすために、バイリンガル (中国語と英語) データを提供します。

推論加速最適化

Hunyuan-Large の推論効率をさらに向上させるために、Hunyuan チームはさまざまな最適化手法を採用しましたが、その中で最も重要なのは KV キャッシュ圧縮です。

主に、 GQA (Grouped-Query Attention) と CLA (Cross-Layer Attention) の 2 つの手法を組み合わせています。

GQA は 8 つの KV ヘッド グループを設定することでヘッド レベルの KV キャッシュを圧縮します。一方、CLA は 2 つのレイヤーごとに KV キャッシュを共有することでレイヤー レベルのメモリ使用量を圧縮します。

これら2つの戦略を組み合わせることで、混合ソースMoEモデルのKVキャッシュメモリ使用量は約95%削減されましたが、モデルのパフォーマンスは実質的に変わりませんでした。この大幅なメモリ最適化により、推論効率が大幅に向上しただけでなく、モデルの導入が容易になり、様々な実世界のアプリケーションシナリオへの適応性も向上しました。

トレーニング後の最適化

Hunyuan チームは事前トレーニングを基に、教師あり微調整 (SFT) と人間によるフィードバック強化学習 (RLHF) を含む 2 段階の事後トレーニング戦略を採用し、主要領域におけるモデルの機能と人間モデルとの整合性をさらに強化しました。

SFTフェーズでは、 Hunyuanチームは100万を超える高品質データセットを使用し、数学、推論、質問応答、プログラミングなど、複数の主要能力分野を網羅しました。高いデータ品質を確保するため、ルールベーススクリーニング、モデルスクリーニング、手動レビューなど、複数の品質管理手法を採用しました。SFTプロセス全体は3ラウンドで構成され、学習率は2e-5から2e-6に低下し、過学習を回避しながらデータを最大限に活用しました。

RLHFフェーズにおいて、 Hunyuanチームは主にオフラインDPOとオンラインDPOを組み合わせた2段階アプローチを採用しました。オフライントレーニングでは、事前に構築された人間の嗜好データセットを用いて制御性を高めました。一方、オンライントレーニングでは、既存のポリシーモデルを用いて複数の応答を生成し、報酬モデルを用いて最適な応答を選択することで、モデルの汎化能力を向上させました。

さらに、彼らは指数移動平均戦略を使用して、報酬ハッキングの問題を軽減し、スムーズで収束的なトレーニングを実現しました。

もう一つ

記者会見では、テンセントのHunyuan Large Modelアルゴリズムの責任者であるKang Zhanhui氏も、Hunyuan-Largeに続いて、個人開発者やエッジ開発者のニーズに応えるため、小規模および中規模のモデルを段階的にオープンソース化することを検討していくと明らかにした。

さらに、このリンクにアクセスすると、Tencent が同時にオープンソース化した大規模な 3D モデルについて詳しく知ることができます。