|
Nvidia の最も強力なチップである B200 の発売が 3 か月遅れているという噂が飛び交っています。 Huang 氏の解決策が実現しました。チップB200Aの簡素化されたバージョンが公開されました。 「生産能力の不足を切削技術で補う」とはこのことでしょうか? 実際、SemiAnalysisによると、B200が直面している主な問題は生産能力の不足であり、より具体的には、 TSMCの新しいパッケージングプロセスCoWoS-Lの生産能力の不足です。 B200A の簡素化されたバージョンは、当初は低~中規模の AI システムのニーズを満たすために使用されます。 メモリ帯域幅を削減した B200A の簡素化されたバージョン。B200A が簡素化されたバージョンだと考えられるのはなぜですか? パフォーマンス メトリックの主な違いはメモリ帯域幅にあり、これは 4TB/秒です。これは、今年初めの B200 発表イベントで宣伝された 8TB/秒と比較して半分の削減です。 根本的な理由は、パッケージングプロセスが CoWoS-L から CoWoS-S に戻ったことであり、B200A は Samsung など他の TSMC 以外の 2.5D パッケージング技術とも互換性があると言われています。 一般に、CoWoS アドバンス パッケージには現在、 CoWoS -S 、 CoWoS- R 、 CoWoS- Lの 3 つのバリエーションがあり、主な違いはインターポーザーの設計です。 インターポーザ層はチップ ウェーハとプリント回路基板の間に位置し、チップとパッケージ基板間の情報交換を可能にするとともに、機械的なサポートと放熱機能も提供します。 CoWoS-S 構造は最も単純で、中間層はシリコン スラブと同等です。 CoWoS-R はRDL (再配線層) 技術を使用しており、中間層は多層構造の薄い金属材料です。 CoWoS-L は、RDL インターポーザ層にLSI (ローカル シリコン インターコネクト) チップを組み込んでおり、より高い配線密度とより大きなサイズを実現しているため、最も複雑です。 TSMC が CoWoS-L をリリースしたのは、従来の技術では規模とパフォーマンスの拡大を続けることが困難になったためです。 例えば、AMDのAIアクセラレーションチップMI300では、CoWoS-Sインターポーザーが当初の標準の3.5倍に拡張されましたが、それでもAIチップの将来のパフォーマンス成長要件を満たすのは困難です。 しかし、現在報告されているところによると、CoWoS-L は容量の拡大中にいくつかの問題が発生しており、シリコン、インターポーザー、および基板間の熱膨張係数の不一致が原因で曲がりが生じ、再設計が必要になる可能性があるとのことです。 TSMCは過去にCoWoS-Sの生産能力を大量に構築し、その中でNvidiaが最大のシェアを占めていました。現在、Nvidiaの需要はCoWoS-Lに迅速に移行できますが、TSMCは生産能力を新プロセスに移行するのに時間が必要です。 B200Aのコア(内部モデルB102)を使って、B20の特別バージョンが製造されるという報道もあります。詳細は省きますが、知る人は知っています。 大規模な B200 モデルのトレーニングには、他の課題も伴います。ブラックウェルの主力仕様は、1つのラックに36個のCPUと72個のGPUを搭載した「次世代コンピューティングユニット」 GB200 NVL72です。 計算能力は優れており、1 つのラックで FP8 精度で最大 720 PFlops のトレーニング計算能力を実現できます。これは、H100 時代の DGX SuperPod スーパーコンピュータ クラスター (1000 PFlops) に匹敵します。 しかし、消費電力も大きく、Semianalysisの推定によると、ラックあたりの電力密度は約125kWと、前例のないレベルに達しています。これは、電源、放熱、ネットワーク設計、並列処理、信頼性といった面で課題を突きつけています。 実際のところ、業界では大規模モデルのトレーニングにすでに使用されている H100 マルチカード クラスターをまだ完全に習得していません。 例えば、Llama 3.1 シリーズの技術レポートでは、トレーニング中に平均 3 時間ごとに 1 回の障害が発生し、GPU 関連の問題が 58.7% を占めていることが指摘されています。 合計 419 件の障害のうち、148 件はさまざまな GPU 障害 (NVLink 障害を含む) が原因であり、72 件は特に HBM3 メモリ障害が原因でした。 したがって、全体として、たとえ Huang が最終的に B200 を出荷したとしても、AI 大手が実際に B200 クラスターを構築し、大規模なモデルトレーニングに投資するまでには、まだかなり長い時間がかかることになります。 現在訓練中、あるいは完成間近のGPT-5、Claude 3.5 Opus、Llama 4といったモデルは、おそらく時代遅れになるでしょう。Blackwellの威力は、次世代モデルで初めて発揮されるでしょう。 もう一つNvidia は、B200 の遅延の噂に対して公式の回答を発表しました。 ホッパーに対する需要は堅調で、ブラックウェルは大規模なサンプリング試験を開始しており、今年後半には生産量が増加すると予想されている。 3か月の延期があるかどうかについては具体的な回答はなかった。 しかし、モルガン・スタンレーは最新のレポートでより楽観的な見方を示し、生産停止は約2週間にとどまると見ている。 参考リンク: |
Nvidiaの簡素化されたB200Aが公開!最強のチップアーキテクチャは生産能力不足という困難に直面しており、よりコスト効率の高いアプローチでそれを補おうとしている。
関連するおすすめ記事
-
vLLM v1 リリース:推論速度が1.7倍向上!初のマルチモーダルステップワイズ推論ベンチマーク VRC-Bench が4,000ステップ以上のアノテーション付きでリリース
-
ファーウェイは江淮汽車の自動車販売を100万元で支援、初めて「コックピット・アンチウイルス」を採用。
-
Anthropic の最新情報: AI エージェント 2024 年末概要!
-
国産AIロボットがこんなに進化してるなんて…ピアノ弾いたり、お茶を入れたり、詠春拳を練習したり、さらには猫を撫でたりもできるなんて!?
-
Xiaohongshuらは、AIによる画像検出をさらに困難にしました。彼らのデータセットはすべて、人間の知覚の「チューリングテスト」に合格しました。
-
2024 CCF プログラマー カンファレンスがもうすぐ始まります。12 月に雲南省大理市でお会いしましょう。