618ZXW

NVIDIA のイーサネット アクセラレーション xAI 搭載スーパーコンピュータが世界最大の AI スーパーコンピュータを構築

2024年10月28日 — NVIDIAは、テネシー州メンフィスにあるxAIのColossusスーパーコンピュータクラスターが、NVIDIA® Hopper GPUを10万基搭載する大規模システムに到達したことを発表しました。このクラスターは、マルチテナント型ハイパースケールAIファクトリーに優れたパフォーマンスを提供するために設計されたRDMA(リモート・ダイレクト・メモリ・アクセス)ネットワークであるNVIDIA Spectrum-X™ Ethernetネットワーキングプラットフォームを活用しています。

世界最大の AI スーパーコンピュータである Colossus は現在、xAI の Grok シリーズの大規模言語モデルのトレーニングや、X Premium ユーザー向け機能としてのチャットボットのトレーニングに使用されています。xAI は Colossus を 20 万基の NVIDIA Hopper GPU にさらに拡張する予定です。

xAIとNVIDIAは、必要な設備とこの最先端のスーパーコンピュータをわずか122日で構築しました。最初のラックの設置から学習タスクの開始まではわずか19日でした。この規模のシステムの構築には通常、数か月、あるいは数年かかります。

Grokのような超大規模モデルの学習において、Colossusは前例のないネットワークパフォーマンスを達成しました。3層ネットワークアーキテクチャを採用したシステム全体において、トラフィックの輻輳によるアプリケーションレイテンシの増加やパケットロスは発生しませんでした。Spectrum-Xの高度な輻輳制御機能により、システムのデータスループットは95%を維持しました。

このレベルのパフォーマンスは、従来のイーサネットでは大規模には到底達成できないものであり、従来のイーサネットでは何千ものストリームが衝突した場合でも、データ スループットの 60% しか提供できません。

NVIDIAのネットワーキング担当シニアバイスプレジデント、ギラッド・シャイナー氏は次のように述べています。「AIはますます重要になり、より高いレベルのパフォーマンス、セキュリティ、スケーラビリティ、そしてコスト効率が求められています。NVIDIA Spectrum-X Ethernetネットワーキング プラットフォームは、xAIのような革新的な企業がAIワークロードをより迅速に処理、分析、実行できるように設計されており、AIソリューションの開発、導入、そして市場投入までの時間を加速します。」

イーロン・マスク氏はXで次のように述べました。「Colossusは世界で最も強力なトレーニングシステムです。xAIチーム、NVIDIA、そして多くのパートナーやサプライヤーが素晴らしい仕事をしてくれました。」

xAIの広報担当者は、「xAIは世界最大かつ最強のスーパーコンピュータを構築しました。NVIDIA Hopper GPUとSpectrum-Xの支援により、大規模AIモデルのトレーニングの限界を押し広げ、イーサネット標準をベースに超高速化・最適化されたAIファクトリーを構築することができました」と述べています。

Spectrum-X プラットフォームの中核を成すのは、最大 800Gb/s のポート速度をサポートし、Spectrum-4 スイッチ ASIC を活用する Spectrum SN5600 イーサネット スイッチです。xAI は、Spectrum-X SN5600 スイッチと NVIDIA BlueField-3® SuperNIC を組み合わせたエンドツーエンドのソリューションを採用し、これまでにないパフォーマンスを実現します。

AI向けに特別に設計されたSpectrum-X Ethernetネットワークは、これまでInfiniBandネットワークでしか実現できなかった、高効率でスケーラブルな帯域幅と低遅延、そしてショートテール遅延を実現する高度な機能を提供します。Spectrum-Xの機能には、NVIDIA DDP(Direct Data Placement)テクノロジに基づく動的ルーティング、輻輳制御コンピューティング、AIネットワーク向けの強化された可視性とパフォーマンス分離などがあり、これらはすべて、マルチテナント生成型AIクラウドや大規模エンタープライズアプリケーション環境に不可欠な要件です。

メディアに関するお問い合わせ:
何朱君
NVIDIA シニア広報マネージャーのメールアドレス: [email protected]

Sharon Wu、北京アーキタイプコンサルティングサービス株式会社 メールアドレス: [email protected]

このプレス リリースには、NVIDIA Hopper GPU、NVIDIA Spectrum-X Ethernet ネットワーキング プラットフォーム、NVIDIA Spectrum SN5600 Ethernet スイッチ、Spectrum-4 スイッチ ASIC、NVIDIA BlueField-3 SuperNIC などの NVIDIA 製品とテクノロジの利点、影響、パフォーマンスに関する記述 (ただしこれに限定されません)、xAI の Colossus スーパーコンピュータ クラスターの機能、xAI が Colossus の規模を 200,000 基の NVIDIA Hopper GPU に倍増したこと、NVIDIA Spectrum-X Ethernet ネットワーキング プラットフォームが xAI のような革新的な企業の AI ワークロードの処理、分析、実行を加速し、それによって AI ソリューションの開発、展開、市場投入までの時間を加速していること、xAI が NVIDIA の Hopper GPU と Spectrum-X を使用して大規模 AI モデル トレーニングの限界を押し広げ、Ethernet 標準に基づいて超高速化され最適化された AI ファクトリーを構築していることなどに関する記述が含まれています。これらは将来予想に関する記述であり、結果が期待と大きく異なる可能性のあるリスクと不確実性の影響を受けます。実際の結果が大きく異なる可能性のある重要な要因には、世界経済の状況、製品の製造、組み立て、梱包、テストを第三者に依存していること、技術開発および競争の影響、新製品および新技術の開発または既存製品のアップグレード、当社製品またはパートナー製品の市場での受容、設計、製造、またはソフトウェアの欠陥、消費者の嗜好またはニーズの変化、業界標準およびインターフェースの変更、当社製品または技術をシステムに統合する際に発生する意図しないパフォーマンスの低下、および NVIDIA が米国証券取引委員会 (SEC) への最新の報告書 (Form 10-K の年次報告書および Form 10-Q の四半期報告書を含むがこれらに限定されない) に随時詳述するその他の要因が含まれます。SEC に提出された報告書のコピーは、NVIDIA の公式 Web サイトから無料でダウンロードできます。これらの将来予想に関する記述は将来の業績を保証するものではなく、本契約の日付時点で正確なものです。法律で義務付けられている場合を除き、NVIDIA は将来の出来事や状況を反映するためにこれらの将来予想に関する記述を更新する義務を負いません。

© 2024 NVIDIA Corporation. All rights reserved. NVIDIA、NVIDIA の商標、NVIDIA Spectrum-X、および BlueField。
すべての名称は、米国およびその他の国におけるNVIDIA Corporationの商標または登録商標です。その他の会社名および製品名は、それぞれの会社の商標である場合があります。機能、価格、提供状況、および仕様は予告なく変更される場合があります。