618ZXW

Intel の最強サーバー CPU が登場! AI パフォーマンスが 2 倍に!

サーバーCPU分野におけるコア数をめぐる長年の戦いに終止符が打たれました!

Intel が新たにリリースしたXeon® 6 コア パフォーマンス プロセッサ(P コア シリーズ) は、これまでの単一次元の競争を超越し、「次元の向上」を通じて新しいゲーム ルールを定義します。

計算能力とストレージ容量はあらゆる面で向上させる必要があります。これを実現できないCPUは、インテリジェントコンピューティングの時代にふさわしいCPUとは言えません。

これまで、CPU のアップグレードでは、1 つのチップに複数のコアを統合することが多かったのですが、これはプロセス テクノロジとチップ サイズによって必然的に制限され、I/O とメモリのマッチングの課題もありました。

今回、Xeon® 6パフォーマンスコアプロセッサは、コンピューティングチップユニットとI/Oチップユニットを分離した独立したモジュール設計を採用しました。これにより、異なる数のコンピューティングユニットを柔軟に組み合わせることでコア数を拡張し、同時にメモリとI/Oを強化することで、全体的なパフォーマンスとエネルギー効率を向上させます。

最も直感的な方法で体験してみましょう。

2023年12月15日、インテルのデータセンターおよび人工知能グループの副社長であるチェン・バオリ氏がポケットから第5世代Xeon®スケーラブル・プロセッサーを取り出しました。そのプロセッサーには64個のコアしかありませんでした。

2024 年 9 月 26 日、陳宝利氏は再びポケットから Xeon® 6 コア プロセッサを取り出しましたが、今回はコア数が 128 個に倍増しました

どちらのプロセッサもサイズは似ており、ポケットに簡単に収まりますが、そのパフォーマンスは飛躍的に向上しています。

具体的には、新しく発売された製品は、Xeon® 6 コア パフォーマンス プロセッサー ファミリーの先駆者であり、最高レベルのパワーハウスであるIntel® Xeon® 6900P シリーズです。

最大128個のパフォーマンスコア504MBの大容量L3キャッシュを搭載し、より大容量で幅広いメモリサポートと、より多くの高速I/O機能を提供します。科学計算、大規模データ処理、AIなど、データ集約型および計算集約型の様々なアプリケーションに最適です。

ここまで読んで、多くの人がこう疑問に思っているかもしれません。「AIを動かすにはCPUを使うべきだとまた言うのですか?GPUは良い代替手段ではないのですか?」

いえいえ、私たちが本当に言いたいのは、この CPU を使用すると、GPU やその他の AI アクセラレータがさらに優れたものになるということです。

このトピックについて議論するには、まず AI サーバーについて話す必要があります。

多様な生成 AI アプリケーションの時代において、大規模なトレーニング、推論、RAG などのタスクに対する要求が高まるため、AI サーバーの重要性は明らかです。

これは、包括的な市場予測データにも間接的に反映されています。

AIサーバー市場は211億ドルに達しており、2023年から2025年にかけて22.7%のCAGRで成長し、2025年には317億9000万ドルに達すると予測されています。

AIサーバーにおいてGPUやAIアクセラレーターが不可欠であることは周知の事実ですが、CPUの役割は見落とされがちです。AIサーバーやAIデータセンターインフラ向けに設計された真に優れたCPUとは、どのようなものなのでしょうか?

Intel® Xeon® 6 Performance Core プロセッサーは正しい答えを提供したと言えます。

海外メディアは、この新しいCPUをレビューした後、非常に高い評価を与えた。

Xeon だけではなく、 XEONです。

まあ、中国語で言うと、 Intel Xeon という意味ですが、今回は本当に Xeon (最強に到達) です

では、Intel® Xeon® 6 Performance Core プロセッサーはどのようにしてこの認識を実現するのでしょうか?

最高の強さ、それはどのようにして最高の強さとなり得るのか?

最初に話すべきことは、コンピューティング能力です。

Intel® Xeon® 6900P シリーズの最も目を引く特徴は、128 個のコア (3 つのコンピューティング チップ ユニット) であり、これは従来のゲームのルールに準拠していると思われる主要な技術的ハイライトです。

Xeon® 6コアプロセッサは、コア数の異なる組み合わせにより、様々なシナリオに対応する多様なコアモデルを提供できます。最大128コア(6900P)の製品シリーズに加え、最大86コア(コンピュートチップユニット2基)、最大48コア(コンピュートチップユニット1基)、および16コア(コンピュートチップユニット1基)の製品シリーズもご用意しています。

この順列および組み合わせモジュールで使用されるコンピューティング チップ ユニットはIntel 3 プロセスを採用しており、統合グリッド、コア、キャッシュ、メモリ コントローラなどが含まれており、データ転送の一貫性を確保できます。

I/O チップ ユニットはIntel の 7 プロセスを使用し、UPI、PCIe、CXL、アクセラレータ エンジンが含まれています。

第 5 世代 Intel® Xeon® 製品とは異なり、Xeon® 6 では I/O ユニットとコンピューティング ユニットが分離されているため、コア数の拡張が容易になるだけでなく、検証、レプリケーション、柔軟な使用も容易になります。

さらに、Intel® Xeon® 6 Performance Core プロセッサーの特長は次のとおりです。

  • 6400 MT/s DDR5
  • 8800 MT/s MRDIMMメモリ
  • 6 つの UPI 2.0 リンク、最大速度 24 GT/s
  • 96 PCIe 5.0 レーン / 64 CXL 2.0 レーン
  • L3キャッシュ最大504MB
  • Intel® AMXはFP16データ形式をサポート

次に、エネルギー貯蔵についてお話します。

Xeon® 6 コア プロセッサの画期的なハイライトはここにあります。

より高速なDDR5 メモリ(6400MT/s) とより広いMRDIMM メモリ(8800MT/s) の両方をサポートします。

前者を後者に置き換えるだけで、科学計算やAIシナリオにおける複数のタスクで7%~33%のパフォーマンス向上が期待できます。さらに、従来のXeon® CPU Maxで使用されていたHBMと比較して、MRDIMMメモリの導入は帯域幅と速度の面でより顕著なメリットをもたらすだけでなく、CPUから分離された構造により、ユーザーは柔軟に購入、構成、アップグレードを行うことができます。

メモリパワーには、メモリ自体の性能に加えて、CPUとメモリ間の相互接続技術も含まれます。Xeon® 6では、最新のCompute Express Link 2.0 (CXL 2.0)が導入されています。

CXL 2.0 は複数のデバイス タイプをサポートし、下位互換性があるため、メモリとストレージ デバイスの柔軟な拡張が可能です。

リンク分割、強化された CXL メモリ階層化、およびデバイスの制御されたホットプラグのサポートにより、将来のデータ センター アーキテクチャの可能性が広がります。

さらに注目すべきは、Xeon® 6 独自の「フラット」メモリ モードです。このモードでは、CXL メモリと DRAM メモリが単一のメモリ レイヤーとして扱われ、オペレーティング システムがこの統合メモリ アドレス空間に直接アクセスできます。

この階層型管理により、メモリ使用効率が最大限に高まり、ソフトウェアを変更することなく CXL メモリ拡張を最大限に活用できるようになります。

メモリ速度、帯域幅、容量、スケーラビリティの総合的なバランスにより、Xeon® 6 コア プロセッサに独自の競争上の優位性がもたらされました。

サーバー設計の面では、CLX2.0 はマシンあたり 8TB のメモリ容量拡張をサポートできると同時に、384GB/s のメモリ帯域幅拡張も提供します。

もちろん、Xeon® 6コアCPUはその役割を忘れていません。ストレージとコンピューティングパワーの利点を組み合わせることで真のメリットを生み出し、それが支持される理由です。

コンピューティング能力の点では、コア数の増加に加えて、内蔵アクセラレータや命令セットのアップデートによる追加のメリットもあります。

AI アクセラレーション用に設計された Intel® Advanced Matrix Extensions (Intel® AMX) は、FP16 データ型をサポートするようになり、int8、BF16、FP16 データ型を完全にカバーします。

各コアの行列積和演算 (MAC) 速度は 2048 FLOPS (int8) および 1024 FLOPS (BF16/FP16) に達し、AI 推論およびトレーニング パフォーマンスを大幅に向上できます。

Intel® Advanced Vector Extensions 512 (AVX-512) は古い製品ですが、豊富なカーネル リソースを備えているため、科学計算、データベース、AI タスクにおけるベクトル コンピューティングの重要なコンポーネントであり続けています。

これらのアクセラレータのアップグレードと革新により、下図に示すように、マルチロード性能が全体的に向上しました。AI分野では、 Llama2-7Bは前世代の3.08倍の性能向上を達成しました

最後に、ハードウェア強化型セキュリティ機能についてですが、Intelの初期のソリューションはSGXでしたが、第5世代Xeon®以降ではTDXソリューションが追加されました。ベンチマークスコアでその価値を証明するのは難しいように思えるかもしれませんが、これらのテクノロジーは実際には不可欠であり、重要なデータとアプリケーションのセキュリティと信頼性を高めるための基盤として機能します。

セキュリティは、膨大な量のデータと無数の秘密やプライバシーが関わる現在の AI データ センターやインテリジェント コンピューティング センターではほとんど言及されない側面ですが、最も強化および強化する必要がある側面でもあります。

結局のところ、Xeon® 6 コア パフォーマンス プロセッサ、特に 6900P シリーズの位置付けを一言でまとめると、 「AI アクセラレーションを念頭に置いた、より強力な汎用コンピューティング」となるでしょう。

では、新しいプロセッサの具体的な用途とパフォーマンスはどうなのでしょうか?

引き続きお読みください。

オールラウンドCPU: AI推論を加速し、異種コンピューティングを支配

まず、Xeon® 6 コア プロセッサは「一匹狼」として機能し、AI 推論を直接加速し、AI アプリケーションの普及に貢献します。

AI 推論を加速するために CPU を使用することの重要性は、究極の速度や効率性を求めて GPU やその他の専用アクセラレータと競争することではなく、コスト、調達、環境の制約がある状況で、より広範な展開、より強固な人材プール、より簡単な適用など、CPU の利点を活用して、AI をより迅速かつ効果的に実装できるようにすることです。

この全体的な目標を念頭に置き、Intel は、ユーザーが Xeon® 6 コア パフォーマンス プロセッサーの潜在能力を最大限に引き出せるよう、ソフトウェア エコシステムとワークロードの最適化に多大な投資を行ってきました。

例えば、IntelはTensorFlowやPyTorchといった主流のディープラーニングフレームワークと幅広く連携し、Intel CPU向けの最適化を公式ディストリビューションに統合してきました。これにより、Intel CPU上でディープラーニングモデルを実行する際のパフォーマンスが大幅に向上しました。前述のLlama2-7Bのパフォーマンスは、こうした取り組みの成果の一つです。

さらに、Xeon® 6コアプロセッサは「司令官」としても機能し、AIシステムの全体的な機能を強化します。

これは多くのユーザーにとってより馴染みのある応用方法であり、Xeon® 6コアプロセッサの主な応用方法です。いわゆる「コマンダー」は、ヘッドノードCPUまたはメイン制御CPUとも呼ばれます。

Xeon® 6コアプロセッサーをAIサーバーのフロントエンドCPUとして使用すると、コンピューティング能力(より強力なシングルスレッド性能)、ストレージ容量(MRDIMMおよびCXLメモリ拡張機能のサポート)、I/O(より多くのPCIe 5.0レーン)におけるその利点と潜在能力をより十分に活用して解放することができます。

これにより、GPU または専用の AI アクセラレータと効率的に連携し、データの前処理、データの転送と共有、混合ワークロードを非常に適切に処理できるようになります。

当初の疑問がようやくまとまり、より完全な答えが得られました。Xeon® 6 コア プロセッサが、AI サーバーや AI データ センターに「選ばれた」CPU、あるいは推奨される CPU と呼ばれるのはなぜでしょうか。

これは、AI 推論を独自に加速すると同時に、異種システムの全体的なパフォーマンス出力を向上させるために調整できるためです。

言うまでもなく、前述の科学計算やデータベースなど、従来どおりながらも同様に重要な多くのアプリケーション ワークロードや、高性能クラウド インフラストラクチャの構築などのタスクも処理できます。

科学計算に対する強いニーズを持つ研究機関であるフラットアイアン研究所の場合、テストにより、Xeon® 6 コア プロセッサが一般的な科学計算ワークロードで非常に優れたパフォーマンスを発揮することが示されました。

また、MRDIMM メモリのサポートにより、従来の DDR メモリのパフォーマンスのボトルネックがさらに解消され、データ集約型の科学的発見が促進されると考えています。

Xeon® 6 コア パフォーマンス プロセッサの発表イベントで、Intel は、地元のデータベース ソフトウェア パートナーである CLASSIC Software の成果も紹介しました。

エコシステムのサポート状況を紹介するにあたり、インテルのマーケティンググループ副社長兼中国・産業ソリューションおよびデータセンター営業部門ゼネラルマネージャーのリアン・ヤリ氏は次のように述べています。

CLASSIC Software は、当社の新製品をベースに、第 5 世代 Xeon® スケーラブル プロセッサーよりも最大 198% 高いスループットを実現する高性能な国内分散データベースを構築しました。

彼女のプレゼンテーションで言及された中国のパートナー企業の数は膨大で、いずれもそれぞれの分野の中核企業であったことは特筆に値します。インテルは製品開発において更なる革新を遂げてきましたが、ビジネスモデルの面では依然としてオープンアーキテクチャ・プラットフォームを通じた業界シナジーに大きく依存しています。

Intel は、Xeon® 6 コア プロセッサーのリリース時に 12 社を超える OEM、ODM、OSV、ISV が同時に新製品をリリースし、複数のクラウド サービス プロバイダーのサポートを受けたことが、新製品を真にユーザーに届け、その価値を高める基盤となると考えています。

優れた AI サーバーを構築する場合、CPU が最も弱いリンクであってはなりません。

上記の多数のデータとユースケースからわかるように、加速する AI アプリケーションの展開、新しい推論コンピューティング パラダイム、合成データといった現在のトレンドに牽引されて、AI コンピューティング能力に対する需要はますます推論と複雑なワークロードに集中しています。

GPU や専用アクセラレータは重要ですが、システム全体の「司令官」である CPU が弱点になってはなりません。

私たちが必要としているのは、汎用コンピューティングとAIサーバー、そしてAIデータセンターの両シナリオに真に応えられるCPU製品です。これらのCPUは、幅広いサードパーティ製GPUやAIアクセラレータをサポートし、強力なヘテロジニアスコンピューティングプラットフォームを形成するだけでなく、GPUや専用アクセラレータのギャップや欠陥を補い、より多様で複雑なシナリオに対応できる柔軟なコンピューティングパワーオプションを提供し、AIプラットフォーム全体の安定性、セキュリティ、そしてスケーラビリティを向上させる必要があります。

Intel® Xeon® 6 Performance Core プロセッサーの登場により、AI コンピューティングに新たな支点がもたらされました。

最後に、ちょっとした宣伝をしておきましょう。AI 推論の新時代に CPU をどのように活用できるかを普及させるために、QuantumBit は「Most 'in' AI」コラムを開始しました。このコラムでは、技術の普及、業界の事例、実用的な最適化など、さまざまな観点から総合的に解釈します。

このコラムを通して、CPUがAI推論の高速化、さらにはAIプラットフォーム全体やプロセス全体の高速化においてどのような実用的成果をもたらすのか、より多くの方々にご理解いただければ幸いです。本コラムでは、大規模モデルアプリケーションのパフォーマンスと効率を向上させるために、CPUをより効果的に活用する方法に焦点を当てます。

製品概要のリンクをクリックして、Intel® Xeon® 6 コア パフォーマンス プロセッサーの詳細をご覧ください。

https://www.intel.cn/content/..._id=5901