|
5 回連続のオープン ソース リリースの後、DeepSeek にはもう 1 つやるべきことがあります。 先ほど、DeepSeek はDeepSeek-V3/R1 推論システムを正式に発表しました。 重要なポイントには、スループットとレイテンシを最適化する方法が含まれます。
DeepSeek はオンライン サービスの統計も公開しました。
詳細は下記公式声明をご覧ください↓ スループットの向上、レイテンシの低減DeepSeek-V3/R1 推論システムの最適化の目標は、スループットの向上とレイテンシの低減です。 これら 2 つの目標を達成するために、大規模なクロスノード エキスパート並列処理 (ExpertParallelism/EP) を使用するアプローチを採用しました。 まず、EPはバッチサイズを大幅に増加させることで、GPU行列乗算の効率を向上させ、スループットを向上させます。次に、EPはエキスパートを複数のGPUに分散させ、各GPUで計算に必要なエキスパートの数を少なくすることで(したがってメモリアクセスも少なくなるため)、レイテンシを削減します。 しかし、EPはシステムの複雑さも増大させます。この複雑さは主に2つの形で現れます。
そのため、この記事の主な内容は、EP を使用してバッチ サイズを増やす方法、送信時間を非表示にする方法、および負荷分散を行う方法です。 大規模クロスノードエキスパート並列処理(エキスパート並列処理/EP)DeepSeek-V3/R1は多数のエキスパートを搭載しており、各層の256個のエキスパートのうち8個のみがアクティブ化されるため、モデルの高スパース性により、各エキスパートに十分なエキスパートバッチサイズを提供し、スループットの向上とレイテンシの低減を実現するために、全体のバッチサイズを大きくする必要があります。これには、大規模なクロスノードエキスパート並列処理(EP)が必要です。 私たちは、複数のマシンと複数の GPU にわたる専門的な並列戦略を採用して、次の目的を達成します。
通信重複を計算する複数のマシンと複数のカードを並列に操作すると、大きな通信オーバーヘッドが発生する可能性があるため、ダブルバッチオーバーラップを使用して通信オーバーヘッドをマスクし、全体的なスループットを向上させました。 プレフィルフェーズでは、2 つのバッチの計算と通信がインターリーブされ、1 つのバッチが計算を実行しているときに、他のバッチの通信オーバーヘッドをマスクできます。 △プレフィル段階での二重バッチオーバーラップデコード ステージでは、ステージごとに実行時間が異なるため、計算と通信のオーバーラップを実現するために、注目部分を 2 つのステージに分割し、パイプラインの合計 5 つのステージを構成します。 △デコード段階での二重バッチオーバーラップダブルバッチオーバーラップの詳細については、プロファイリング データの GitHub リポジトリ (https://github.com/deepseek-a...) を参照してください。 可能な限り負荷分散する大規模な並列処理(データ並列処理やエキスパート並列処理を含む)を採用しているため、単一のGPUの計算負荷や通信負荷が過度に高くなると、パフォーマンスのボトルネックとなり、システム全体の速度低下につながります。同時に、他のGPUは待機状態となり、全体の利用率低下につながります。そのため、各GPUへの計算負荷と通信負荷を可能な限り均等に割り当てる必要があります。
リファレンスアーキテクチャ図オンラインシステムの実際の統計データDeepSeekV3およびR1のすべてのサービスはH800 GPUを使用し、学習時と同じ精度を維持します。具体的には、行列演算とディスパッチ送信は学習時と同じFP8形式を使用し、コアアテンション演算とコンバイン送信は学習時と同じBF16形式を使用することで、サービスパフォーマンスを最大化します。 さらに、日中のサービス負荷が高く、夜間の負荷が低いことを踏まえ、研究とトレーニングを促進するため、日中のピーク負荷時には全ノードを使用して推論サービスを展開し、夜間の低負荷時には推論ノード数を減らす仕組みを実装しました。直近24時間(北京時間2025年2月27日午後12時から2025年2月28日午後12時まで)において、DeepSeekV3およびR1推論サービスは、ピーク時に合計278ノード、平均226.75ノード(各ノードに8基のH800 GPUを搭載)を使用しました。GPUレンタル費用を1時間あたり2ドルと仮定すると、1日あたり合計87,072ドルとなります。 24時間の統計期間内で、DeepSeekV3とR1は次の結果を示しました。 入力トークンの合計数は 608B で、そのうち 342B トークン (56.3%) が KVCache ディスク キャッシュにヒットしました。 出力トークンの総数は168Bです。平均出力レートは20~22tps、出力トークンあたりの平均KVCache長は4989です。 H800 あたりの平均スループットは、プレフィル タスク (キャッシュ ヒットを含む) の場合は約 73.7k トークン/秒、デコード タスクの場合は約 14.8k トークン/秒です。 上記の統計には、ウェブサイト、アプリ、APIからのすべての負荷が含まれています。すべてのトークンをDeepSeek R1の価格設定*に従って計算した場合、理論上の1日あたり総収益は562,027ドル、費用対効果は545%となります。 *DeepSeek R1 の価格: 入力トークン 100 万個あたり 0.14 ドル (キャッシュ ヒット)、入力トークン 100 万個あたり 0.55 ドル (キャッシュ ミス)、出力トークン 100 万個あたり 2.19 ドル。 もちろん、V3 は価格が低く、有料サービスは一部に過ぎず、夜間割引もあるため、実際の売上はそれほど多くありません。 オリジナルリンク: [1]https://zhuanlan.zhihu.com/p/... [2]https://github.com/deepseek-a...\_6\_one\_more\_thing\_deepseekV3R1\_inference\_system\_overview.md - 以上- |
DeepSeek は予想外に 545% のコスト利益率を明らかにしました。
関連するおすすめ記事
-
Google はテスト時間モデルに新しいスケーリング法則を導入し、小規模なモデルで大規模モデルのパラメータの最大 14 倍までスケールアップして実行できるようになりました。
-
オープンソースが集結し、あらゆることが可能になります。
-
マルチドメイン地球科学アプリケーション: 浙江大学のチームは、地理学、海洋学、地質学、大気の分野における時空間モデリングと予測を支援する GeoAI シリーズの手法を提案しました。
-
化学療法耐性と腫瘍の再発に対抗!山東大学の研究チームがAIを活用し、乳がん幹細胞に対する強力な防御ラインを構築。
-
データ量はわずか70分の1なのに、マルチモーダル検索性能は抜群!人工知能技術(AIT)が、合成データが重要な役割を果たすBGE-VLをリリース。
-
vivo 開発者関係の実践:よりオープンに、より繁栄に