618ZXW

DeepSeek V3 が話題になっています。2,000 個の GPU を搭載し、550 万元かけて構築されたこのオープンソース モデルは、数億元かかった OpenAI のモデルと同等の性能を持っています。

著者 | 王昭陽 メールアドレス | [email protected]

霧の中から怪物が現れたように、DeepSeek V3 が「漏洩」されて騒動を起こした後、開発元である DeepSeek は正式に技術レポートを公開しました。

このレポートでは、Deepseek が主要なトレーニング データを明らかにしましたが、その中で最も印象的なのは、効率性が高く、コンピューティング リソースへの依存が最小限であると同時に、非常に優れた結果も提供していることです。

事前トレーニングフェーズでは、DeepSeek-V3を1兆個のタグごとにトレーニングするのに必要なH800 GPU時間はわずか18万時間で、これは2,048基のH800 GPUを搭載したクラスタでは3.7日分に相当します。したがって、事前トレーニングフェーズは2ヶ月未満で完了し、コストは2,664,000 GPU時間でした。コンテキスト長拡張の119,000 GPU時間と事後トレーニングの5,000 GPU時間を合わせると、DeepSeek-V3のトレーニングコストはわずか278万8,000 GPU時間です。H800 GPUのレンタル料金を1GPU時間あたり2ドルと仮定すると、トレーニングコストは合計557万ドルになります。上記のコストにはDeepSeek-V3の正式なトレーニング費用のみが含まれ、アーキテクチャ、アルゴリズム、またはデータに関する事前調査や合理化された実験費用は含まれていないことに注意してください。


DeepSeek-V3の包括的なベンチマークを実施しました。DeepSeek-V3-Baseは学習コストが低いにもかかわらず、包括的な評価の結果、特にコードと数学の面で、DeepSeek-V3-Baseが利用可能なオープンソースベースモデルの中で最も強力なモデルとなっていることが示されました。チャットバージョンは他のオープンソースモデルを上回り、GPT-4oやClaude-3.5-Sonnetなどの主要なクローズドソースモデルに匹敵するパフォーマンスを、様々な標準ベンチマークおよびオープンベンチマークで達成しました。

少し前に、Anthropic の CEO である Dario Amodi 氏は、GPT-4o のようなモデルのトレーニングには約 1 億ドルの費用がかかり、現在開発中の大規模な AI モデルのトレーニングには 10 億ドルもの費用がかかる可能性があることを明らかにしました。

今後3年間で、大規模AIモデルの学習コストは100億ドル、あるいは1,000億ドルにまで上昇するでしょう。言い換えれば、DeepSeekが550万ドルと2,000基のGPUを使って学習させたオープンソースモデルは、OpenAIが数億ドルをかけて学習させたモデルと同等の性能を備えているということです。

すぐに「中国製品の輝かしい例」として称賛されました。事前学習が行き詰まり、推論段階ですべてをやり直さなければならなかった時、DeepSeek v3の一連の技術的手法、データメトリクス、テストパフォーマンス、そして評判は、この現象を最もよく表すものとなりました。

コンピューティング能力が唯一の要素ではなくなった「o1」時代において、中国のモデル開発者にはより多くのチャンスがあります。

「GPT-4o や Claude-3.5-Sonnet に匹敵するパフォーマンス」と開発者自身が述べています。

DeepSeek-V3は、MagicCubeの子会社であるDeepSeekが開発したMoEモデルです。671億個のパラメータ、370億個のアクティベーションを持ち、14.8兆トークンで事前学習されています。DeepSeek V3の技術レポートに掲載されているパフォーマンス指標によると、このオープンソースMoEモデルは既に「海外の主要なクローズドソースモデルの性能に匹敵」しています。

公式発表によれば、複数の評価においてQwen2.5-72BやLlama-3.1-405Bといった他のオープンソースモデルを上回り、その性能は世界トップクラスのクローズドソースモデルGPT-4oやClaude-3.5-Sonnetに匹敵するという。

Deepseek では、いくつかの主要なパフォーマンス領域をリストしています。

百科事典的な知識: DeepSeek-V3 は、前身の DeepSeek-V2.5 と比較して、知識ベースのタスク (MMLU、MMLU-Pro、GPQA、SimpleQA) でのパフォーマンスが大幅に向上し、現在最もパフォーマンスの高いモデルである Claude-3.5-Sonnet-1022 に近づいています。

  • 長いテキスト: 長いテキストの評価では、DeepSeek-V3 は、DROP、FRAMES、LongBench v2 で平均して他のモデルよりも優れたパフォーマンスを示しました。
  • アルゴリズム関連のコード シナリオ (Codeforces) では、DeepSeek-V3 は市場にある既存のすべての非 O1 モデルをはるかに上回っており、エンジニアリング関連のコード シナリオ (SWE-Bench Verified) では、Claude-3.5-Sonnet-1022 に近づいています。
  • 数学: アメリカ国際数学コンテスト (AIME 2024、MATH) および全国高校数学リーグ (CNMO 2024) において、DeepSeek-V3 はすべてのオープンソースおよびクローズドソース モデルを大幅に上回りました。
  • 中国語能力: DeepSeek-V3 と Qwen2.5-72B は、C-Eval や代名詞の曖昧さ解消などの教育評価では同様の成績を収めましたが、DeepSeek-V3 は事実知識の C-SimpleQA では優れています。

このようなランキング手法は、すべての新規モデルにおいて標準的な手法です。しかし、これらの公式データは、モデルがコミュニティや一部のAIインフラプラットフォームでひっそりとリリースされた後にのみ公開されるため、実際には「評判が先行」しています。人々がトップモデルに匹敵する実力を体験した後、これらのデータは開発者コミュニティに深い印象を残しました。

しかし、V3の真の意義は、オープンソースが再びクローズドソースに近づいているという点だけではなく、モデル層だけでなく、さまざまな新しい手法を通じて、モデルトレーニングと推論全体をシステムとして最適化し、多くの新しい技術的アイデアを与えている点にあります。

これは生成速度の向上にも反映されており、Deepseek の公式 Web サイトによると、生成速度は 3 倍に増加しています。

アルゴリズムとエンジニアリングの革新により、DeepSeek-V3 は音声生成速度が 20 TPS から 60 TPS に大幅に向上しました。これは V2.5 モデルに比べて 3 倍の改善であり、ユーザーにはより高速でスムーズなエクスペリエンスを提供します。

試用をご希望の場合は、APIアクセスもサポートしている公式ウェブサイトchat.deepseek.comをご覧ください。さらに、新バージョンでは2025年2月8日まで、45日間の割引価格の試用期間をご提供いたします。

技術レポートや正式リリースの前から、世界中の開発者たちはすでにこの東洋からの「クリスマスプレゼント」に歓喜していた。

国産モデルで「事前にリーク」し、熱心なユーザーを集めてテストやプレイを楽しめるようなモデルはそう多くありません。Deepseekの戦略かどうかはさておき、これはDeepseekが開発者コミュニティでどれほどの注目を集め、実際に使用されているかを如実に示しています。

Redditで最初にリークされた情報によると、このチップはLiveBenchベンチマークで高い評価を得ており、全体的なパフォーマンスはGemini 2フラッシュやClaude 3.5 Sonnetを上回ったとのことです。

その後、技術レポートが正式に公開され、開発者たちは具体的に何が正しく行われたのかを詳しく調査し始めました。

賞賛は圧倒的で、人々はNvidiaバブルが崩壊するまで早送りしたかったほどでした。

つまり、DeepSeek-V3は分散推論のための革新的な最適化を実現し、分散MoEモデルの負荷分散効率を大幅に向上させました。これは単なるアルゴリズムの改善ではなく、将来の大規模モデルのための新たなスケーラビリティフレームワークを提供するシステム全体の改善です。特にハードウェアリソースが限られている場合、効率を最大化します。

モデルアーキテクチャに関しては、Deepseekがこれまで一貫して信念とこだわりを持ってきたMLA+細粒度MoEフレームワークを、以前のV2と同様に引き続き採用しています。簡単に言えば、アテンションメカニズムの革新、メモリの圧縮、そしてMoEの動作メカニズムの再設計です。

さらに、いくつかのハイライトは次のとおりです:Deepseek V3 は、補助損失のない負荷分散戦略を使用します。

ハイブリッドエキスパートモデル(MoE)では、各入力トークンが異なる「エキスパート」に割り当てられ、計算が行われます。不均等な配分(一部のエキスパートに過負荷がかかる)は、効率の低下とモデル性能の低下につながります。従来の手法では、「補助損失」を追加することで負荷のバランスを強制しますが、これはモデル性能に悪影響を及ぼします。DeepSeekは、エキスパートのバイアスを動的に調整することで、追加の損失を発生させることなく、入力トークンを複数のエキスパートに均等に配分します。

この手法の興味深い点は、各エキスパートの負荷を監視しながら学習中にバイアスを動的に調整し、より公平な割り当てを実現することです。追加の最適化目標を導入することなく、負荷分散とモデル性能の間のより良い解決策を直接見つけ出します。さらに、MoEの冗長エキスパート機構も、このバランスを追求するアプローチを採用しています。

推論フェーズでは、一部のエキスパートが過度のタスク負荷によってボトルネックとなる可能性があります。冗長化されたエキスパートメカニズムは、高負荷のエキスパートの「レプリカ」を作成し、タスクを複数のレプリカに分散させることで計算負荷を軽減し、全体的な推論速度を向上させます。このアプローチは、特に高同時実行シナリオにおいて、分散推論のスループットを大幅に向上させ、弾力的なリソーススケーリングとより安定したサービスパフォーマンスを実現します。

これらのアクションは、本質的に、パラメータとバランスを適切に調整できない人に対して次のことを伝えています

私はあなたより賢い。高い推論精度を維持しながら、いわゆる負荷矛盾を解決できる。

マルチトークン予測目標(MTP)

従来の言語モデルは一度に1つのトークンしか予測しないため、学習信号がまばらになり、データ効率が低下します。MTPは、各入力トークンに基づいて複数の将来のトークンを同時に予測することを可能にし、各学習反復中により多くのフィードバック信号を提供することで、モデルの学習を加速します。言い換えれば、複数のトークンを単に並列に予測するのではなく、逐次予測を通じて各トークン間の因果関係を維持します。これにより学習効率が向上し、モデルは推論中に出力をより適切に「計画」できるようになります。

FP8 の低精度トレーニングの最適化。

FP8は非常に低精度のデータ表現で、FP16やBF16よりも精度は低いものの、必要なメモリと計算リソースは少なくて済みます。問題は、FP8のダイナミックレンジが限られているため、数値オーバーフローや過小評価が発生しやすいことです。DeepSeekは、ブロック量子化を用いてデータを小さなグループに分割し、独立してスケーリングすることでこの問題に対処します。これにより、モデルは変化する入力データ範囲に柔軟に適応し、低精度に伴う精度の低下を回避できます。

この「ブロック量子化+高精度累算」戦略は、まずデータをグループ化し、各グループのスケーリング係数を個別に計算した後、高精度累算器を用いて累算計算を行うというものです。この手法は、FP8の低リソース消費と高精度計算を組み合わせ、従来の低精度トレーニングにおける不安定性の問題を解決します。これにより、高精度トレーニングに匹敵する安定性と性能を維持しながら、トレーニングに必要なメモリと計算コストを大幅に削減できます。

モデル自体に加えて、DualPipe パイプライン並列戦略などのトレーニング施設の革新も重要です。

分散学習では、複数のGPUが大量のデータを同時に処理する必要があり、通信オーバーヘッドがボトルネックとなります。従来のパイプライン方式では、計算と通信の完全なオーバーヘッドを実現することが難しく、リソースの無駄が生じていました。DualPipeは、より細分化されたタスク分割とスケジューリングにより、計算時間と通信時間を完全にオーバーラップさせ、各GPUのパフォーマンスを最大化します。この設計の核となるのは、データを小さなチャンクに分割し、「計算」タスクと「通信」タスクを交互に実行することです。各タスクの優先度とリソース割り当てを正確に調整することで、GPUは計算中に通信操作を同時に処理し、パイプラインにおける「アイドル時間」をほぼ完全に排除できます。効率性の向上以外にも、DualPipeの最も魅力的な点は以下にあります。

ハードウェア リソースの需要が大幅に削減されます。

技術レポートが発表された後、Deepseek V3 はベストセラーの発売のような扱いを受けました。専門家が推薦文を書き、その効果を体験してから技術レポートを読んだ人々も高く評価しました。

Twitter上の多くの影響力のある人物がこれに賛成した。

MetaのTian Yuandong氏も、「DeepSeekはH800を完全にハッキングしたようだ[顔面を手で覆う] 大袈裟すぎるよ😂」と直接発言した。Andrej Kaparthy氏もDeepseekの技術レポートは読む価値があると称賛した。

もう一つ興味深い点は、今日最も重要なAIインフラスタートアップの創業者たちが、Deepseek V3に強い親和性を持っていることです。推論側のイノベーションを推進し、それによって市場の需要を刺激するモデルは、当然のことながら、推論側のスタートアップが必要とし、顧客に期待するものでもあります。

シリコンベースフロー研究所の研究員である袁金輝氏は、WeChatモーメントでこの話題についてコメントした。

DeepSeek V3の学習にはわずか2,000枚のH800画像を使用し、計算コストは​​600万米ドルでした。これは海外の同業他社の考え方に大きな影響を与えました。多くの業界専門家がこれを高く評価しています。計算能力だけが決定要因ではありません。優秀な人材とイノベーションの組み合わせは、さらに称賛に値します。

レプトンの創設者である賈陽青氏は、WeChatモーメントでX氏とV3についての考えを共有した。

• まず、私たちは今や正式に分散推論の時代に突入しました。単一のGPUマシンのビデオメモリ(80*8=640G)では、パラメータを保持するにはもはや不十分です。より大容量のビデオメモリを搭載した新しいマシンであれば、確かにモデルを収容することは可能ですが、いずれにせよ、パフォーマンスと将来のスケーラビリティを考えると、分散推論は避けられない選択肢です。

• 単一モデル内であっても、MoEの負荷分散には注意が必要です。推論ごとにパラメータの約5%しかアクティブ化されないためです。この部分のワークロードの詳細は未だ徹底的に調査されていませんが、興味深い結果となるはずです。• 論文では、まさにこの問題に対処するために「冗長エキスパート」という概念を導入したと具体的に言及されています。これはもはや「1つのモデルに複数のコピーがある」という問題ではなく、「各モデルサブモジュールに複数のコピーがあり、それらが独立してスケールアップおよびスケールダウンされる」という問題です。

• 入力トークンの収益モデルは既に明確です。出力トークンを収益性の高いものにする、あるいは少なくとも損益分岐点に達するには、さらなる最適化が必要と個人的には考えています。しかし、「ソフトウェアのムーアの法則」(トークンあたりのコストは18ヶ月ごとに半減する)を信じるならば、これは問題ではありません。

• タイルレベルまたはブロックレベルの量子化が必要です。これはLeptonでの観察結果と一致しています。また、入力データに基づく事前の動的量子化もサポートしています。さらに、ハードウェアがFP4をサポートすれば、実験の可能性は間違いなく広がります。

おもしろい事実: FP4 の乗算は実際には 16x16 のテーブル参照です…

この論文では、メモリ帯域幅が多くの場合ボトルネックになると述べられています。NVIDIA が今後発表する新しいハードウェアフォームファクタ(NVL72 など)が、分散推論のパフォーマンスと使いやすさをいかに向上させるのか、非常に楽しみです。

「刺激的な年月だった」と彼は言った。

V3のリリース前、Deepseekは「リークと詳細分析」を専門とする海外の有名テックブログで再び言及されました。チップ業界の一次情報で知られるこのブログは、Deepseekに関して既に最も注目されている海外アナリストの一つです。しかし、Deepseekの重要性が、OpenAIなどとリソース集約型の手法によるイノベーションで競争することにあるのではないことを、Semianalysisはまだ予見していなかったようです。この記事でSemianalysisは、Deepseekが既に膨大な数のチップを保有していると「リーク」しました。しかし、V3のリリース後、その方向性は異なっているようです。

マルチカードクラスターは依然として必要ですが、より多くのカードを持っている人やより多くのお金を燃やした人が自動的にすべてを勝ち取るとは限りません。

ネットユーザーの中には、「Nvidiaバブルが崩壊した瞬間まで早送りしたい」と冗談を言う者もいた。

すべてが急速に展開しています。OpenAIを神話化しようとする段階、特に「カード」を口実に、モデルやインフラにおける中国開発者の革新性を軽視する段階は、終わりを迎えつつあるようです。もちろん、これは、OpenAIのイノベーションが単なる「群衆に従う」ことではなく、モデルの進化が世界的に求められている時に、誰もが目にする真の取り組みを実際に行っているという前提に基づいています。