618ZXW

この国営企業は、国産のマルチカードクラスタを使用して、兆パラメータの大規模モデルの開発をリードしています!

国営企業によって、 Wanka クラスターによってトレーニングされた最初の1 兆パラメータの大規模モデルのロックが解除されました。

具体的には、中国電信人工知能研究所(TeleAI)は、純国産の人工知能への道を切り開いたチームです。同研究所を率いるのは、中国電信グループのCTO兼主任科学者であり、中国電信人工知能研究所所長でもある李雪龍教授です。

訓練に使用されたマルチカロリークラスターは、上海臨港にある中国電信クラウドの国内マルチカロリーコンピューティングパワープールから提供されていると理解されています。中国電信クラウドが自社開発した「西浪統合インテリジェントコンピューティングサービスプラットフォーム」と中国電信人工知能公司が自社開発した「星海AIプラットフォーム」のサポートに基づき、数兆個のパラメータで安定した訓練を実現し、平均して週1.5回の訓練中断のみを実現しています。クラスター訓練の安定性は国際的にトップレベルに達しています。

さらに、TeleAIはこれを基に、国産のディープラーニングフレームワークを用いてトレーニングした数千億のパラメータを持つ大規模モデル「TeleChat2-115B Star Semantic Model」もオープンソース化しました。

TeleChatは、中央国有企業における初のオープンソースのセマンティック大規模モデルシリーズです。TeleChatをベースとしたTeleChat2-115Bは、トレーニングデータの量、データ品質と比率、モデルアーキテクチャにおける多次元的な最適化を通じて、さらなるパフォーマンス向上を実現しました。

9月のオープンアクセスモデルのC-Eval評価では、TeleChat2-115Bが86.9点を獲得して1位を獲得しました。

TeleAIが権威あるランキングでトップに立ったのは今回が初めてではありません。5月には、同社のTeleChatシリーズモデルが、論理的推論能力のOpenCompassベンチマークにおいて、オープンソースの大規模モデルの中で1位を獲得しました。

実際のアプリケーションでは、Starry Sky セマンティック モデルは、長いテキストの書き込みに対して「アウトライン書き込み + 本文書き込み」の形式で展開され、ユーザーの習慣に近いものになります。

テキストをセグメントごとに生成することが分かっており、これは非常に長い記事を書く場合に役立ちます。

非常に長い会議に直面した場合でも、Starry セマンティック ビッグ データ モデルは、議事録をリアルタイムで簡単に生成し、正確性、完全性、錯覚防止、論理、標準化の点で高品質を実現します。

大規模な電子レポートの場合、Xingchen セマンティック ビッグ モデルは、レポート テキストの生成、レポート データの生成、レポートの概要、対応するレポートの様式化された模倣などの機能もサポートします。

数百万行のデータも簡単に処理できます。

1万カロリーと1万本の高麗人参を持つ人はどうやって栽培されるのでしょうか?

10,000カロリー、10,000栄養素の摂取量を達成することは容易なことではないことは明確にしておく必要があり、国内生産のみで達成することの難しさは明らかです。

最初の課題は、 Wanka クラスターのパフォーマンスと安定性を向上させることです。

トレーニング パフォーマンスを向上させるために、TeleAI は多次元ハイブリッド並列処理を採用しています。これにより、さまざまな並列モードを設定することで、データ並列処理、モデル並列処理、パイプライン並列処理を自動的に組み合わせることができ、数兆個のモデルと数万個の GPU の効率的な分散トレーニングをサポートします。

このトレーニングでは、トレーニングのパフォーマンスをさらに向上させるために、次の主要なテクノロジも採用されました。

  1. マルチレプリカ並列処理: バッチサイズの次元に従って入力モデルデータを分割することにより、基礎レイヤーは通信中に待機せずに別のレプリカで計算操作を実行できるため、モデルのパフォーマンスが向上します。
  2. 通信の最適化: 通信の融合や通信サブグラフの抽出と再利用などの技術を使用することで、通信時間が短縮され、トレーニングのパフォーマンスが向上します。
  3. DryRun シミュレーション: 実際に計算を実行せずに、小規模なクラスター上の計算グラフを分析し、演算子の融合、メモリ使用量、データフローの効率などのパフォーマンスのボトルネックを特定し、マルチカード クラスターを実行するために事前に最適化された構成を提供します。
  4. 柔軟な再計算構成: DryRun のメモリ使用量分析を、計算再計算、通信再計算、指定再計算などのさまざまな構成と組み合わせることで、メモリと計算の最適なバランスを見つけ、単一のグラフィック カードのメモリ制限を満たしながらパフォーマンスを最大化します。

最終的に、国産コンピューティングパワーマルチカードクラスターのパフォーマンスは、対応する GPU のそれを 93% 以上上回りました。

さらに、トレーニングの安定性を向上させるために、ブレークポイント再開トレーニング用のオンライン トレーニング クラスターの展開、CCAE クラスターの監視と障害ノードの迅速な分離、マルチレベル ストレージの最適化などの方法を使用することで、クラスターの 98% の安定した可用性、90% を超えるブレークポイント再開トレーニングの成功率、および 1 回のブレークポイント再開トレーニングの所要時間約 15 分を実現しました。

2 番目の課題は、数兆個のパラメータを持つ大規模なモデルをトレーニングすることです。

TeleAIは、超大規模パラメータモデルのトレーニングにおいて、多数の小規模モデルをトレーニングすることでスケーリング則を探求し、各モデルのノイズ空間を分析し、ポジティブ励起ノイズを構築することで、トレーニング中のノイズ管理を強化しました。ポジティブ励起ノイズは、超大規模パラメータモデルのトレーニングにおける中核技術として、研究者が最適なモデル構造を決定するのに役立ち、それによってモデルの全体的な能力と堅牢性を向上させます。

この目的のために、TeleAI は 4 段階の戦略を採用しました。

まず、モデル構築に関しては、最適化のために複数の手法が使用されます。

まず、位置エンコーディングに関しては、回転埋め込み位置エンコーディング法を採用しています。この方法は位置外挿性に優れており、注目度計算加速技術と連携して動作するため、モデルの学習速度が大幅に向上します。

第二に、活性化関数レベルでは、GELUではなくSwiGLUが選択されました。TeleAIは実験中に、SwiGLUが他の活性化関数と比較して優れたモデルフィッティング結果をもたらすことも確認しました。

第三に、レイヤー標準化段階では、RMSnormに基づく事前正規化が採用されています。実験では、このアルゴリズムは学習プロセスにおいて優れた安定性を示すことが示されています。

4つ目に、単語埋め込み層は出力lmヘッド層のパラメータから分離されます。実験では、これにより学習の安定性と収束性が向上することが示されています。

第五に、大規模パラメータモデル(TeleChat2-115B)にGQAを適用すると、モデルの学習と推論性能が向上します。GQAは、モデル推論時に使用されるGPUメモリの量を大幅に削減し、外挿長と推論性能を大幅に向上させます。

さらに、基本的なトレーニングデータの構築において、TeleAIはエンジニアリングの実践において、マルチレベルリードモデルを用いた詳細なフォローアップトレーニングとデータ調整実験を実施し、データクリーニングとデータミキシング戦略の有効性を十分に評価・検証しました。

まず、データクリーニングの観点では、言語識別、データ重複除去、テキスト形式の標準化、無関係なコンテンツのフィルタリング、低品質コンテンツのフィルタリングなどの方法を使用して、事前トレーニングデータの品質を向上させます。

同時に、数式や表の内容を効果的に抽出するためのマルチモーダル構造化文書解析ツールも開発されました。実験の結果、データクリーニング後、モデルのトレーニング損失が減少し、学習速度が向上し、トレーニング時間が43%短縮されることが示されました。

第二に、データ混合に関しては、オンラインドメインサンプリング重み調整アルゴリズムを採用しています。パイロットモデルの学習中に、異なるデータセットのサンプル損失分布に基づいてサンプリング重みが動的に更新され、最適なデータ混合戦略が得られます。

モデルトレーニングの初期段階では、評価指標の変化に基づいてデータ割り当てスキームが継続的に調整されます。実験では、中国語データの割合と数学および問題バンクデータの割合を増やすことで、モデルのテキスト理解とテスト能力が向上することが示されています。

第三に、データ合成の観点では、数学やコーディングなどの特定のドメインタスクに対して、きめ細かな知識体系を体系化し、複雑な命令を構築することで、大規模なモデルがテスト問題の分析プロセス、コードの機能説明、コードの呼び出し関係など、知識密度の高い合成データを生成できるようにします。

次のステップは SFT (モデル微調整) 最適化です。

低品質のフィルタリングに関しては、モデル パープレキシティ (PPL)、指示追従難易度 (IFD)、学習可能性などのメトリックを使用して、単一のサンプルに回答する難易度を測定し、テキストのフォーマットが不十分なサンプルや回答のラベル付けが間違っているサンプルを自動的にフィルタリングします。

高品質な建設を実現するために、SFTは論理、認知、理解という3つの能力次元と20以上のサブカテゴリーに分割されています。個々の能力指標の向上に最も大きな影響を与える高品質なデータは、事前に定義された一連の標準評価基準に基づいて選定されます。

一方、質疑応答データを構築するためのゴールデンテンプレートに基づく二段階アノテーションスキームが提案されている。標準化、新規性、論理性、豊富さ、完全性という観点から、各質問タイプに最適なテンプレートをまとめ、要件を満たす最適な回答にテンプレートに従ってアノテーションを付与する。

パフォーマンスの選択に関しては、モデルの複雑性指数を使用して、小規模な検証セットでのモデルのさまざまなバージョンの適合性を迅速に評価し、より優れたパフォーマンスを持つバージョンを選択して計算コストを削減することができます。

次に、好みの調整を行います。

指示データの網羅性とバランスを最大限に確保するため、TeleAIは合計300のカテゴリーを網羅する指示データセットを分類・収集しました。さらに、より高品質な指示データを得るために、クラスタリングと中心選択アルゴリズムを用いて代表的な指示を選定しました。

その後、TeleAI は、セキュリティ、事実性、流暢さなどの複数の次元に基づいて、さまざまなトレーニング段階とさまざまなパラメーター サイズでの TeleChat シリーズ モデルからの応答を 3 つの異なるラベル (高品質、中品質、低品質) に分類し、報酬モデルのトレーニングで使用するためのペアワイズ データを形成しました。

DPOアルゴリズムは、エンジニアリング実装のシンプルさとトレーニングの容易さから広く利用されており、TeleChatのトレーニングフェーズでもこの戦略が採用されました。データ構築フェーズでは、TeleAIは指示データを用いて現在のChatモデルで10~15個の推論サンプルを実行し、報酬モデルを用いて各応答にスコアを付けました。

TeleAI は、West-of-N アプローチを使用してペア データを構築します。このアプローチでは、モデルの応答から最高スコアが選択され、最低スコアは拒否されるため、ペア データには好みの大きな違いがあることが保証されます。

トレーニング段階では、従来の DPO 損失関数を使用するだけでなく、TeleAI は実験を通じて、選択された応答に NLL 損失 (負の対数尤度損失) を導入することで、DPO のトレーニング効果を効果的に安定させ、選択された応答の確率が低下するのを防ぐことができることを発見しました。

最後に、ナレッジ グラフは、大規模なセマンティック モデルにおける事実情報の錯覚を軽減するために使用されます。

具体的には、TeleAI はグラフ構造の情報表現に基づいて質問の提案に知識を組み込みます。クエリ n-gram との類似性に基づいて候補エンティティを取得し、これに基づいてランダム ウォークを実行し、ウォーク パスとユーザーの元の質問との関連性を計算し、トップ パス コンテンツを選択してユーザーの元の質問を拡張します。

上記は、TeleAI が 10,000 カロリーと 10,000 本分の高麗人参を「精製」する重要なプロセスです。

しかし、まだ議論する価値のある問題が 1 つあります。

中国電信人工知能研究所はなぜこれを実現できるのでしょうか?

実際、TeleAI の大規模モデルの導入は一夜にして達成されたわけではなく、長い期間にわたって改良されてきました。

まず、私たちは態度においてそれを重視しなければなりません。

TeleAIは、Star AI大型モデルのほか、12の業界大型モデルもリリースし、昨年11月に開催されたデジタルテクノロジーエコシステムカンファレンスで「Star MaaSエコシステムサービスプラットフォーム」を立ち上げ、カスタマイズサービスを実現した。

これらすべては、China Telecom の 10 年にわたる AI 機能の開発に基づいています。

第二に、才能ある人材がいれば、支援を提供してくれる業界のリーダーを引きつけることができるのです。

チャイナテレコムは、Star AI大規模モデルの構築にあたり、約800名からなる研究開発チームを迅速に編成しました。チームメンバーは、清華大学、北京大学、スタンフォード大学、コロンビア大学など、国内外のトップ大学出身者で構成されており、平均年齢は31.79歳です。

この優れた才能のグループは、China Telecom が社内外のビジネスで外部アルゴリズム機能を置き換え、コアアルゴリズム機能に対する独立した制御を実現するのに貢献しました。

中国電信は幅広いエントリーレベルの人材を惹きつける一方で、業界リーダーの集団も擁しています。その一人が、昨年末にCTO兼チーフサイエンティストとして中国電信グループに正社員として入社した李雪龍氏です。

AI分野のフェローとして、李雪龍氏は、ノイズ分析が大規模モデルなどの一連の人工知能問題を解決する核心的な鍵であるという革新的な提唱を行いました。彼はこの考えを万卡万燒プロジェクトに導入し、中国電信人工知能研究所を率いて、基礎研究と最先端研究を継続的に推進していきます。

TeleAI は設立当初、「人材」と「労働力」という 2 つの重要な要素を中心に構築することに注力しました。

TeleAIは現在、海外のトップ大学の教授陣、国内有名企業のCTOや科学者、研究機関の若い才能、そして大きな影響力を持つオープンソースの成果を持つ有能な学生を多数招聘していると理解されています。

さらに、AIや大規模モデルだけではありません。中国電信は多くの技術に投資し、競合他社に対する優位性を獲得しており、まさにそれが同社の「業界密着型」アプローチに反映されています。

例えば、量子通信分野では、中国電信は最近、「量子超越性」機能を備えた量子コンピューティングクラウドプラットフォーム「天眼」をリリースしました。また、同社は中国最大の量子セキュア通信メトロポリタンエリアネットワークを構築し、ユーザー数とアプリケーションが最も豊富です。さらに、中央企業が主導する7つの量子通信業界標準(グループ標準を含む)のうち、5つの策定を主導しました。

例えば、次世代情報通信技術分野では、中国電信が「携帯電話向け衛星直接接続」の本格商用化を実現し、コンシューマー向け5G端末向けに双方向音声・SMSの衛星直接接続に対応した世界初のキャリアグレード製品をリリースした。

これは、チャイナテレコムがもはや誰の目にも伝統的な通信事業者とは映らないこと、そして同社の最先端技術への投資が私たちが認識しているよりもはるかに深いことを示しています。

これが、TeleAI がユーザーあたり 10,000 個のパラメータを初めて達成できた理由です。