|
XVERSEが中国最大のオープンソースMoEモデルをリリース: XVERSE-MoE-A36Bモデルには合計 255B のパラメータと 36B のアクティベーション パラメータがあり、100B モデルに比べて飛躍的なパフォーマンス向上を実現します。 同時に、トレーニング時間は 30% 短縮され、推論パフォーマンスは 100% 向上し、トークンあたりのコストは大幅に削減されます。 複数の権威ある評価において、MoE モデルはいくつかの同様のモデルよりも大幅に優れたパフォーマンスを示しました。 これらには、数千億のパラメータを持つ国内の MoE モデルである Skywork-MoE、従来の MoE リーダーである Mixtral-8x22B、および 3140 億のパラメータを持つオープンソースの MoE モデルである Grok-1-A86B が含まれます。 MoE(Mixture of Experts)は、業界最先端のハイブリッドエキスパートモデルアーキテクチャであり、複数のサブドメインのエキスパートモデルをスーパーモデルに統合します。従来のスケーリング則の限界を打ち破り、モデルのスケールアップ時にトレーニングと推論の計算コストを大幅に増加させることなく、モデルのパフォーマンスを最大化できます。 このため、Google の Gemini-1.5、OpenAI の GPT-4、Musk 氏の xAI 企業の Grok など、業界をリードするモデルはすべて MoE を使用しています。 特筆すべきは、Yuanxiang「高性能オールインワン」シリーズ全体がオープンソースであり、条件なしで商用目的で使用できるため、多数の中小企業、研究者、開発者がニーズに応じて選択できるということです。 中国最大のオープンソースMoEモデルMetaExpressは今年4月、XVERSE-MoE-A4.2Bをリリースしました。従来のMoE(Mixtral 8x7Bなど)では各エキスパートを標準FFNと同じサイズにしていましたが、MetaExpressではより細粒度のエキスパート設計を採用し、各エキスパートのサイズを標準FFNの4分の1にすることで、モデルの柔軟性とパフォーマンスを向上させています。また、エキスパートは共有エキスパートと非共有エキスパートの2つのカテゴリに分類されます。 共有エキスパートは計算プロセス全体を通してアクティブなままですが、非共有エキスパートは必要に応じて選択的にアクティブ化されます。この設計により、一般的な知識を共有エキスパートパラメータに圧縮し、非共有エキスパートパラメータ間の知識の冗長性を削減することができます。 XVERSE-MoE-A36B の発売は、MoE の効率性とパフォーマンスにおける継続的な技術革新を表しています。 (1)効率性 MoEアーキテクチャと4Dトポロジ設計:MoEアーキテクチャの重要な特徴は、複数のエキスパートノードで構成されることです。これらのエキスパートノード間で大量の情報交換が必要となるため、通信負荷が非常に高くなります。この問題に対処するため、通信、メモリ、計算リソースの割り当てをバランスよく行う4Dトポロジアーキテクチャを採用しました。この設計により、計算ノード間の通信パスが最適化され、全体的な計算効率が向上します。 エキスパートルーティングと事前ドロップ戦略:MoEのもう一つの特徴は「エキスパートルーティングメカニズム」です。このメカニズムでは、異なる入力を割り当て、エキスパートの計算能力を超える冗長データを破棄する必要があります。この問題に対処するため、チームは不要な計算とデータ転送を削減する事前ドロップ戦略を設計しました。同時に、計算プロセスに効率的な演算子融合を実装することで、モデルの学習性能をさらに向上させました。 通信と計算の重複:MoEアーキテクチャではエキスパート間で大量の通信が必要となるため、全体的な計算効率に影響を及ぼす可能性があります。この問題に対処するため、チームは「多次元重複通信・計算」メカニズムを設計しました。このメカニズムは、パラメータ通信を同時に行いながら、計算タスクを可能な限り最大比率で並列実行することで、通信遅延を削減します。 (2)効果 エキスパートウェイト:MoEにおけるエキスパートの総数はNです。各トークンは、後続の計算に参加させる上位K人の専門家を選択します。エキスパートのキャパシティ制限のため、各トークンによって選択される実際のエキスパート数はM(M <= K)です。 比較実験の結果に基づいて、正式な実験には実験 2 の設定を選択しました。 実験結果は次のとおりです。 N=8、K=4、M=3(エキスパート#2のトークンは破棄された)と仮定すると、さまざまなエキスパートの重み計算方法から取得された重みは次の図に示されます。 動的データスイッチング:MetaEngineのオープンソースモデルは、従来、トレーニング前にトレーニングデータセットをロックし、トレーニングプロセス全体を通して変更せずに維持することが多かった。このアプローチはシンプルである一方で、初期データの品質とカバレッジによって制限される。MoEモデルは「コース学習」のコンセプトを採用し、トレーニング中に動的なデータスイッチングを実装している。これは、異なる段階で新たに処理された高品質のデータを複数回導入し、データサンプリング比率を動的に調整する。 これにより、モデルは初期コーパスの制約から解放され、新たに導入された高品質なデータから継続的に学習できるようになり、コーパスのカバレッジと汎化能力が向上します。同時に、サンプリング比率を調整することで、異なるデータソースがモデルのパフォーマンスに与える影響のバランスをとることができます。 学習率スケジューリング戦略(LRスケジューラ) :学習中にデータセットを動的に切り替えることで、継続的に新しい知識を導入できますが、同時にモデルに新たな適応課題をもたらします。モデルが新しいデータから迅速かつ完全に学習できるようにするため、チームは学習率スケジューラを最適化し、データ切り替えのたびにモデルの収束状態に応じて学習率を調整しました。実験では、この戦略がデータ切り替え後のモデルの学習速度と全体的な学習パフォーマンスを効果的に向上させることが示されています。 次の図は、トレーニング プロセス全体を通じての MMLU および HumanEval 評価データセットのパフォーマンス曲線を示しています。 MMLU と HumanEval のパフォーマンス曲線はトレーニング中に上昇し続けました。 MoE モデルは、設計と最適化を通じて、Dense モデル XVERSE-65B-2 と比較してトレーニング時間が 30% 短縮され、推論パフォーマンスが 100% 向上し、優れたモデル パフォーマンスが実現され、業界をリードするレベルに達しています。 しかし、Yuanxiang が自社の技術をオープンソース化したのは今回が初めてではない。 2023年11月、中国のオープンソースモデルのパラメータが70億から130億の範囲にあり、業界のコンセンサスでは、大規模モデルが「インテリジェントに出現」するには、モデルのパラメータしきい値が500億から600億に達する必要があるとされており、エコシステムが緊急に「大規模」モデルを必要としていたとき、MetaExpressは当時中国で最大のパラメータを持つオープンソースモデルであったXVERSE-65Bのオープンソース化を主導しました。 2024年1月、MetaExpressは世界最長のコンテキストウィンドウモデルをリリースしました。このモデルは25万字の漢字入力をサポートし、ステップバイステップのトレーニングチュートリアルが含まれており、大規模モデルの応用を「長文時代」へと導きます。 中国最大のパラメータである MoE のオープンソース化は、低コストの AI アプリケーションを促進するエコシステムにとってもう 1 つの強力なツールです。 YuanxiangがMoEモデルをベースに独自開発したAIロールプレイング&インタラクティブオンラインノベルアプリ「Saylo」は、リアルなAIロールプレイングと魅力的なオープンエンドストーリー展開で、香港と台湾で大ヒットを記録しました。台湾と香港のエンターテイメントチャートでは、ダウンロード数でそれぞれ1位と3位を獲得しています。 MoE学習パラダイムは、「高性能かつ低コスト」という利点を有する。MetaEは、一般的な事前学習をベースとし、膨大なスクリプトデータを用いて「継続的な事前学習」を行う。従来のSFT(教師あり微調整)やRLHF(人間のフィードバックに基づく強化学習)とは異なり、大規模なコーパス知識注入を採用することで、モデルは強力な汎用言語理解能力を維持しながら、「スクリプト」という特定の応用領域におけるパフォーマンスを大幅に向上させる。 これに先立ち、MetaExpress は AI および 3D 分野の顧客基盤を活用し、大規模モデルを迅速に商品化しました。 2023年11月、元祥は国内初の大規模モデルの一つ、広東省ではトップ5に入る企業の一つとなり、「生成人工知能サービス管理暫定弁法」の国家申請を取得し、社会全体に開放できる製品能力を備えている。 10月初め、元祥とテンセントミュージックは共同でlyraXVERSE Accelerated Big Modelを発表し、この技術を使って音楽アシスタント「AI小琴」の質疑応答、チャット、創作機能を全面的にアップグレードし、感情面でも知的でもインテリジェントなアシスタントを実現し、ユーザーにパーソナライズされた、より深く親しみやすい音楽インタラクション体験を提供した。 元祥ビッグモデルは、QQミュージック、Huya Live、Quanmin K Song、Tencent Cloudなどの企業と相次いで協力し、アプリケーションを探求して、文化、エンターテインメント、観光、金融分野で革新的で先進的なユーザーエクスペリエンスを生み出してきました。 |
中国最大のオープンソースMoEモデル(2550億パラメータ)が、無条件で無料で商用利用可能です。Yuanxiangよりリリース。
関連するおすすめ記事
-
OpenAIが突如o3マインドチェーンを公開!ネットユーザー:DeepSeekに感謝しよう。
-
2024年オープンソースソサエティ年間賞
-
今夜午後 7 時 | 清華大学のポスドク研究員 Li Yuzhe 氏が、Cell/Nature サブジャーナル論文を詳細に解説し、ゲノミクスにおける AI の応用を探ります。
-
USTC/Huawei ノアの箱舟が行動を起こす!チップ性能はレイアウト評価とは無関係。EDA物理設計フレームワークは完全にオープンソース化
-
SearchGPT のオープンソース バージョンがリリースされました。3090 の画像 2 枚だけで問題を再現でき、Perplexity の有料バージョンを上回っています。
-
「最強のオープンソースモデル」という主張は誤りであると証明され、CEOは謝罪に至った。NVIDIAの科学者たちは、既存のベンチマークはもはや信頼できないと述べた。