618ZXW

数千億個のCPUを搭載した大規模なモデルを実行したいですか?コンピューティングパワーベンダーは全力を尽くしています!汎用CPUサーバーが新たな選択肢になりつつあります。

わずか 4 つの CPU を使用するサーバー上で、数千億のパラメータを持つ大規模モデル推論を実現できます。

Inspur は、汎用 CPU サーバー上で 102B の大規模モデル推論を正常に実行しました。

この技術が広く採用されれば、専用チップを持たない従来の産業でも、ハードウェアを交換することなく AI を利用できるようになります。

Inspurの汎用サーバーNF8260G7は、数千億のパラメータを持つ大規模モデルの実行に成功しました。

このソリューションは、極めて低いレイテンシで、ほぼリアルタイムで推論操作を実行します。

このような大規模なモデルを CPU だけで実行できるのはなぜでしょうか?

4 つの CPU が数千億ドル相当の大規模モデルを動かすのですか?

大規模なモデル推論、特に数千億のパラメータを持つ大規模なモデルを、CPU を使用する単一の汎用サーバー上で実行することは、想像を絶するほど困難です。

数千億のパラメータを持つ大規模なモデルを効率的に実行するには、コンピューティング、メモリ、通信などのハードウェア リソースに対する需要が膨大になります。

メモリに関して言えば、数千億のパラメータを持つデバイスでは、それを収容するために約 200 ~ 300 GB のビデオ メモリが必要になります。

メモリ リソースに加えて、数千億のパラメータを持つ大規模モデルでは、データ計算、コンピューティング ユニット間の通信、および操作中のコンピューティング ユニットとメモリ間の通信に対して非常に高い帯域幅要件も求められます。

BF16 の精密計算によると、数千億のパラメータを持つ大規模モデルの実行時レイテンシを 100 ミリ秒未満に抑えるには、メモリとコンピューティング ユニット間の通信帯域幅が少なくとも 2 TB/秒必要です。

これらのハードウェア要件が満たされている場合でも、ソフトウェアの最適化と適応は依然として課題となります。

大量の並列計算が必要となるため、既存の大規模モデルは一般に GPU アクセラレーション クラスター向けに設計されており、その結果、CPU の計算能力と大規模モデルの適合性は GPU に比べて大幅に低下します。

並列作業環境が不足しているため、AI モデルはアルゴリズムの重みをメモリと CPU 間で頻繁に移動する必要がありますが、デフォルトでは、汎用サーバーはモデルの重みを 1 つの CPU のメモリにしか転送できません。

メモリを他の CPU に移動するには、CPU が仲介役として機能する必要があり、その結果、CPU とメモリ間の帯域幅の使用率が低下し、通信のオーバーヘッドがさらに増加し​​ます。

汎用AIコンピューティング能力の新たなベンチマーク

多くの困難があったにもかかわらず、これらの課題は、広範囲にわたる技術革新によって次々と克服されました。

Inspur は、2U クアッドソケット NF8260G7 サーバー上で、数千億のパラメータを持つ Source 2.0 大規模モデルを正常に実行しました。

動作中、サーバーはGPU やその他の追加の AI アクセラレータ カードを必要としず、4 つの Intel 6448H チップのみを使用しました。

Inspur の汎用サーバー大規模運用ソリューションは業界のギャップを埋め、汎用 AI コンピューティング能力の新たなベンチマークになったと言えます。

フレームワークとアルゴリズムの面では、このソリューションはPyTorch や TensorFlow などの主流の AI フレームワークや、DeepSpeed などの人気の開発ツールをサポートし、多様なエコシステムのニーズに対応します。

数十億ドル規模の大規模モデル向けのこの非常に効率的な汎用サーバー ソリューションの背後には、ソフトウェア システムとハードウェア システムの両方における共同イノベーションの必要性が間違いなく存在します。

構成面では、Inspur NF8260G7は、32コア、クロック速度2.4GHz、60MBのL3キャッシュを備えたIntel Xeon 6448Hプロセッサを搭載しています。メモリは32GB DDR5メモリモジュールを32個搭載し、総メモリ容量は1024GB、メモリ読み取り帯域幅は実測で995GB/sです。

さらに重要なのは、このチップには、大規模モデルの計算特性に適した AMX (Advanced Matrix Extensions、GPU Tensor Cores に類似) AI アクセラレーションが搭載されていることです。

一方、帯域幅利用率が低いという問題を解決するために、「分散型」フルリンク UPI バス相互接続が採用され、任意の 2 つの CPU 間で直接データを転送できるようになりました。

この相互接続方式により、通信遅延が短縮され、伝送速度が 16 GT/s (ギガ転送/秒) に向上します。

ただし、ハードウェアの最適化だけでは十分ではありません。

NF8260G7 サーバー上の Source 2.0-102B モデルの推論計算効率を向上させるには、サーバー上の CPU が GPU のようにテンソル並列計算を実行する必要があります。

この問題を解決するために、Inspur の研究開発エンジニアは、Source 2.0 モデルのアテンション層とフィードフォワード層の行列計算を複数のプロセッサに分割し、4 つの CPU を使用して計算を同時に高速化できるようにしました。

テンソル並列処理では、モデル パラメータのより細かいセグメンテーションが要求されるため、各テンソル計算の後に CPU によるデータ同期が必要になり、CPU 間通信帯域幅の需要が増加します。

ただし、UPI バス相互接続通信方式は、CPU 間の通信要件を満たすだけです。

一方、数千億のパラメータを持つ大規模モデルのテンソル並列計算では、4 つの CPU とメモリ間の膨大な通信需要が 2TB/秒に達し、CPU のメモリ通信帯域幅をはるかに上回ります。

数千億のパラメータに対するCPUとメモリの通信帯域幅のしきい値を下げるために、Inspur InformationはSource 2.0-102BモデルにNF4量子化技術を採用しました。

NF4(4 ビット ノーマル フロート)は、入力テンソルの値の数が量子化間隔内で等しくなるようにすることで、データの最適な量子化を実現する量子化方式です。

特に、NF4量子化は、大規模モデルの重み分布とよく一致する、ほぼ正規分布に従うデータに適しています。そのため、NF4量子化は従来のINT4やFP4量子化よりも高い精度を実現できます。

INT4とNF4データ型の比較

ただし、NF4 量子化では新たな問題も発生します。NF4 量子化では、多数のスケール パラメータが生成されます。

64 個のパラメータを量子化ブロックとして使用して計算する場合、数千億個のパラメータを持つ大規模なモデルでは、スケールパラメータを保存するだけで 6 GB の追加メモリが必要になります。

メモリ使用量を削減するために、Inspur はネストされた量子化を通じてこれらのスケール パラメータを FP8 精度に量子化し、必要なストレージ スペースを大幅に削減します。

NF4 量子化とネストされた量子化を使用することで、モデルの各重みは 1/2 バイトのスペースのみを占有し、Yuan2.0 大規模モデルのメモリ使用量を元のサイズの 1/4 に削減します。

AI チップがあるのに、なぜ推論に CPU を使う必要があるのでしょうか?

実際、Inspur のソリューションにより、汎用サーバー上で数千億ドル相当の大規模なモデルを実行できるようになりました。

しかし、優れた AI アクセラレーション チップがすでに存在するのに、なぜ CPU 推論の研究にこだわる必要があるのか​​、という疑問が残ります。

まず第一に、導入コストと推論コストが低いことが挙げられます

従来の業界ユーザーのニーズの観点から見ると、汎用サーバーはコスト面で大きな優位性があり、AI サーバーに比べてコストが 80% 削減されます。

このようなコスト削減には、機器の購入と導入だけでなく、業界ユーザーの既存システムとの統合も含まれます。

汎用サーバーを使用することで、大規模なモデル サービスを既存のエンタープライズ IT システムと簡単に統合でき、AI サーバーの導入に必要な移行および適応作業が不要になります。

もちろん、技術的なレベルでは、CPU ソリューションの利点は AI アクセラレータ カードに匹敵するものはありません。

メモリに関して言えば、汎用サーバーのメモリ容量は、現在の GPU チップが提供できるビデオメモリ容量よりもはるかに大きいです

たとえば、デュアル ソケット サーバーでは 1 TB のメモリを簡単に実現でき、NF8260G7 のようなクアッド ソケット サーバーではさらに多くのメモリを実現できます。

したがって、数千億、あるいは数兆の​​データ ポイントを持つ大規模なモデルの場合、汎用サーバーを使用した展開では、メモリに関して完全に「制限なし」となり、簡単に対応できます。

一方、GPUに代表されるAIチップは強力な演算能力を誇る一方で、メモリ制約に悩まされるケースが少なくありません。大規模なAIモデルの実行には、十分なメモリだけでなく、高速なCPUとメモリ通信帯域幅も必要です。しかし、Inspurの研究開発エンジニアは、高度な量子化技術を基盤として、精度を損なうことなくモデルを量子化し、「スリム化」することで、数千億ものパラメータを処理するために必要なCPUとメモリ帯域幅を大幅に削減しました。

一方、このモデルの要件を満たすには、複数のチップが連携して動作する必要があります。これは、汎用サーバーチップ間の通信効率に関係します。

現在、一部のハイエンド AI チップにも高速帯域幅 (NV Link など) が備わっていますが、コストが高いため、このようなソリューションは一部のハイエンド チップまたはハイエンド サーバーでのみ使用されることがよくあります。

さらに、このような計算能力は現在、モデルのトレーニングに使用されることが多く、推論に使用するのは経済的に価値がありません。

汎用サーバーでは、CPUに高速インターコネクトリンクが備えられています。並列コンピューティング環境を最適化することで、数千億のパラメータを持つ大規模モデルの実行時におけるマルチコンピューティングコア通信の帯域幅とレイテンシの要件を完全に満たすことができます。

さらに、新世代のCPUにAIアクセラレーション命令セット(AMXなど)が組み込まれるようになり、CPUのAIコンピューティング能力も急速に向上しています。

Inspur の 6448H を例にとると、このような 4 ウェイ サーバーの計算能力は 430 TOPS (INT8) または 215 TFLOPS (BF16) であり、大規模な AI モデル推論を実行するための計算能力要件を完全に満たしています。

一般的なコンピューティング能力は「インテリジェント」な変革を遂げています。

より高い視点から見ると、NF8260G7 をベースとした汎用サーバー大規模推論ソリューションも、Inspur Information の戦略の重要な部分を占めています。

AI技術を含む技術進歩の究極の目標は、「地に足をつけ」、あらゆる産業に力を与えることです。

同時に、AI は専門的なコンピューティング分野からあらゆるコンピューティング シナリオに拡大し、「すべてのコンピューティングは AI」というパターンが徐々に形成されつつあります。

AIコンピューティングは、クラウドやサーバーから携帯電話やPCなどのさまざまなエッジデバイスに広がり始めています。

CPU、GPU、NPU、その他のタイプのPUもAIコンピューティングに使用されます。

この傾向により、従来は非典型的と考えられていた AI コンピューティング パワーも「スマート」な変革を遂げ、インテリジェントなコンピューティング パワーへと進化しています

具体的には、CPU を中核とする汎用コンピューティング能力が、数千億のパラメータを持つ大規模なモデルを実行できるかどうかが、さまざまな業界におけるインテリジェンスの出現をサポートする能力を測る重要な指標となります

Inspur の新しいソリューションは、大規模 AI アプリケーション向けの一般的なサーバー運用ソリューションにおける業界のギャップを埋め、大規模 AI アプリケーションをより経済的な導入ソリューションとして機能し、企業が AI を保有するための新たな出発点となります。

今後もInspurはコンピューティング能力、アルゴリズム、データという3つの重要な要素に注力し、さらなるシステムのブレークスルーを実現し、AIがさまざまな業界にさらに深く浸透できるようにしていきます。