著者 | 王昭陽 メールアドレス | [email protected] 霧の中から怪物が現れたように、DeepSeek V3 が「漏洩」されて騒動を起こした後、開発元である DeepSeek は正式に技術レポートを公開しました。 事前トレーニングフェーズでは、DeepSeek-V3を1兆個のタグごとにトレーニングするのに必要なH800 GPU時間はわずか18万時間で、これは2,048基のH800 GPUを搭載したクラスタでは3.7日分に相当します。したがって、事前トレーニングフェーズは2ヶ月未満で完了し、コストは2,664,000 GPU時間でした。コンテキスト長拡張の119,000 GPU時間と事後トレーニングの5,000 GPU時間を合わせると、DeepSeek-V3のトレーニングコストはわずか278万8,000 GPU時間です。H800 GPUのレンタル料金を1GPU時間あたり2ドルと仮定すると、トレーニングコストは合計557万ドルになります。上記のコストにはDeepSeek-V3の正式なトレーニング費用のみが含まれ、アーキテクチャ、アルゴリズム、またはデータに関する事前調査や合理化された実験費用は含まれていないことに注意してください。
少し前に、Anthropic の CEO である Dario Amodi 氏は、GPT-4o のようなモデルのトレーニングには約 1 億ドルの費用がかかり、現在開発中の大規模な AI モデルのトレーニングには 10 億ドルもの費用がかかる可能性があることを明らかにしました。 今後3年間で、大規模AIモデルの学習コストは100億ドル、あるいは1,000億ドルにまで上昇するでしょう。言い換えれば、DeepSeekが550万ドルと2,000基のGPUを使って学習させたオープンソースモデルは、OpenAIが数億ドルをかけて学習させたモデルと同等の性能を備えているということです。 すぐに「中国製品の輝かしい例」として称賛されました。事前学習が行き詰まり、推論段階ですべてをやり直さなければならなかった時、DeepSeek v3の一連の技術的手法、データメトリクス、テストパフォーマンス、そして評判は、この現象を最もよく表すものとなりました。 コンピューティング能力が唯一の要素ではなくなった「o1」時代において、中国のモデル開発者にはより多くのチャンスがあります。 「GPT-4o や Claude-3.5-Sonnet に匹敵するパフォーマンス」と開発者自身が述べています。 DeepSeek-V3は、MagicCubeの子会社であるDeepSeekが開発したMoEモデルです。671億個のパラメータ、370億個のアクティベーションを持ち、14.8兆トークンで事前学習されています。DeepSeek V3の技術レポートに掲載されているパフォーマンス指標によると、このオープンソースMoEモデルは既に「海外の主要なクローズドソースモデルの性能に匹敵」しています。 Deepseek では、いくつかの主要なパフォーマンス領域をリストしています。 百科事典的な知識: DeepSeek-V3 は、前身の DeepSeek-V2.5 と比較して、知識ベースのタスク (MMLU、MMLU-Pro、GPQA、SimpleQA) でのパフォーマンスが大幅に向上し、現在最もパフォーマンスの高いモデルである Claude-3.5-Sonnet-1022 に近づいています。
このようなランキング手法は、すべての新規モデルにおいて標準的な手法です。しかし、これらの公式データは、モデルがコミュニティや一部のAIインフラプラットフォームでひっそりとリリースされた後にのみ公開されるため、実際には「評判が先行」しています。人々がトップモデルに匹敵する実力を体験した後、これらのデータは開発者コミュニティに深い印象を残しました。 これは生成速度の向上にも反映されており、Deepseek の公式 Web サイトによると、生成速度は 3 倍に増加しています。 アルゴリズムとエンジニアリングの革新により、DeepSeek-V3 は音声生成速度が 20 TPS から 60 TPS に大幅に向上しました。これは V2.5 モデルに比べて 3 倍の改善であり、ユーザーにはより高速でスムーズなエクスペリエンスを提供します。 試用をご希望の場合は、APIアクセスもサポートしている公式ウェブサイトchat.deepseek.comをご覧ください。さらに、新バージョンでは2025年2月8日まで、45日間の割引価格の試用期間をご提供いたします。 技術レポートや正式リリースの前から、世界中の開発者たちはすでにこの東洋からの「クリスマスプレゼント」に歓喜していた。 国産モデルで「事前にリーク」し、熱心なユーザーを集めてテストやプレイを楽しめるようなモデルはそう多くありません。Deepseekの戦略かどうかはさておき、これはDeepseekが開発者コミュニティでどれほどの注目を集め、実際に使用されているかを如実に示しています。 Redditで最初にリークされた情報によると、このチップはLiveBenchベンチマークで高い評価を得ており、全体的なパフォーマンスはGemini 2フラッシュやClaude 3.5 Sonnetを上回ったとのことです。 賞賛は圧倒的で、人々はNvidiaバブルが崩壊するまで早送りしたかったほどでした。つまり、DeepSeek-V3は分散推論のための革新的な最適化を実現し、分散MoEモデルの負荷分散効率を大幅に向上させました。これは単なるアルゴリズムの改善ではなく、将来の大規模モデルのための新たなスケーラビリティフレームワークを提供するシステム全体の改善です。特にハードウェアリソースが限られている場合、効率を最大化します。 モデルアーキテクチャに関しては、Deepseekがこれまで一貫して信念とこだわりを持ってきたMLA+細粒度MoEフレームワークを、以前のV2と同様に引き続き採用しています。簡単に言えば、アテンションメカニズムの革新、メモリの圧縮、そしてMoEの動作メカニズムの再設計です。 ハイブリッドエキスパートモデル(MoE)では、各入力トークンが異なる「エキスパート」に割り当てられ、計算が行われます。不均等な配分(一部のエキスパートに過負荷がかかる)は、効率の低下とモデル性能の低下につながります。従来の手法では、「補助損失」を追加することで負荷のバランスを強制しますが、これはモデル性能に悪影響を及ぼします。DeepSeekは、エキスパートのバイアスを動的に調整することで、追加の損失を発生させることなく、入力トークンを複数のエキスパートに均等に配分します。 この手法の興味深い点は、各エキスパートの負荷を監視しながら学習中にバイアスを動的に調整し、より公平な割り当てを実現することです。追加の最適化目標を導入することなく、負荷分散とモデル性能の間のより良い解決策を直接見つけ出します。さらに、MoEの冗長エキスパート機構も、このバランスを追求するアプローチを採用しています。 推論フェーズでは、一部のエキスパートが過度のタスク負荷によってボトルネックとなる可能性があります。冗長化されたエキスパートメカニズムは、高負荷のエキスパートの「レプリカ」を作成し、タスクを複数のレプリカに分散させることで計算負荷を軽減し、全体的な推論速度を向上させます。このアプローチは、特に高同時実行シナリオにおいて、分散推論のスループットを大幅に向上させ、弾力的なリソーススケーリングとより安定したサービスパフォーマンスを実現します。 これらのアクションは、本質的に、パラメータとバランスを適切に調整できない人に対して次のことを伝えています。 私はあなたより賢い。高い推論精度を維持しながら、いわゆる負荷矛盾を解決できる。 従来の言語モデルは一度に1つのトークンしか予測しないため、学習信号がまばらになり、データ効率が低下します。MTPは、各入力トークンに基づいて複数の将来のトークンを同時に予測することを可能にし、各学習反復中により多くのフィードバック信号を提供することで、モデルの学習を加速します。言い換えれば、複数のトークンを単に並列に予測するのではなく、逐次予測を通じて各トークン間の因果関係を維持します。これにより学習効率が向上し、モデルは推論中に出力をより適切に「計画」できるようになります。 FP8 の低精度トレーニングの最適化。 FP8は非常に低精度のデータ表現で、FP16やBF16よりも精度は低いものの、必要なメモリと計算リソースは少なくて済みます。問題は、FP8のダイナミックレンジが限られているため、数値オーバーフローや過小評価が発生しやすいことです。DeepSeekは、ブロック量子化を用いてデータを小さなグループに分割し、独立してスケーリングすることでこの問題に対処します。これにより、モデルは変化する入力データ範囲に柔軟に適応し、低精度に伴う精度の低下を回避できます。 この「ブロック量子化+高精度累算」戦略は、まずデータをグループ化し、各グループのスケーリング係数を個別に計算した後、高精度累算器を用いて累算計算を行うというものです。この手法は、FP8の低リソース消費と高精度計算を組み合わせ、従来の低精度トレーニングにおける不安定性の問題を解決します。これにより、高精度トレーニングに匹敵する安定性と性能を維持しながら、トレーニングに必要なメモリと計算コストを大幅に削減できます。 モデル自体に加えて、DualPipe パイプライン並列戦略などのトレーニング施設の革新も重要です。 分散学習では、複数のGPUが大量のデータを同時に処理する必要があり、通信オーバーヘッドがボトルネックとなります。従来のパイプライン方式では、計算と通信の完全なオーバーヘッドを実現することが難しく、リソースの無駄が生じていました。DualPipeは、より細分化されたタスク分割とスケジューリングにより、計算時間と通信時間を完全にオーバーラップさせ、各GPUのパフォーマンスを最大化します。この設計の核となるのは、データを小さなチャンクに分割し、「計算」タスクと「通信」タスクを交互に実行することです。各タスクの優先度とリソース割り当てを正確に調整することで、GPUは計算中に通信操作を同時に処理し、パイプラインにおける「アイドル時間」をほぼ完全に排除できます。効率性の向上以外にも、DualPipeの最も魅力的な点は以下にあります。 ハードウェア リソースの需要が大幅に削減されます。 技術レポートが発表された後、Deepseek V3 はベストセラーの発売のような扱いを受けました。専門家が推薦文を書き、その効果を体験してから技術レポートを読んだ人々も高く評価しました。 Twitter上の多くの影響力のある人物がこれに賛成した。 シリコンベースフロー研究所の研究員である袁金輝氏は、WeChatモーメントでこの話題についてコメントした。 DeepSeek V3の学習にはわずか2,000枚のH800画像を使用し、計算コストは600万米ドルでした。これは海外の同業他社の考え方に大きな影響を与えました。多くの業界専門家がこれを高く評価しています。計算能力だけが決定要因ではありません。優秀な人材とイノベーションの組み合わせは、さらに称賛に値します。 レプトンの創設者である賈陽青氏は、WeChatモーメントでX氏とV3についての考えを共有した。 • まず、私たちは今や正式に分散推論の時代に突入しました。単一のGPUマシンのビデオメモリ(80*8=640G)では、パラメータを保持するにはもはや不十分です。より大容量のビデオメモリを搭載した新しいマシンであれば、確かにモデルを収容することは可能ですが、いずれにせよ、パフォーマンスと将来のスケーラビリティを考えると、分散推論は避けられない選択肢です。 • 単一モデル内であっても、MoEの負荷分散には注意が必要です。推論ごとにパラメータの約5%しかアクティブ化されないためです。この部分のワークロードの詳細は未だ徹底的に調査されていませんが、興味深い結果となるはずです。• 論文では、まさにこの問題に対処するために「冗長エキスパート」という概念を導入したと具体的に言及されています。これはもはや「1つのモデルに複数のコピーがある」という問題ではなく、「各モデルサブモジュールに複数のコピーがあり、それらが独立してスケールアップおよびスケールダウンされる」という問題です。 • 入力トークンの収益モデルは既に明確です。出力トークンを収益性の高いものにする、あるいは少なくとも損益分岐点に達するには、さらなる最適化が必要と個人的には考えています。しかし、「ソフトウェアのムーアの法則」(トークンあたりのコストは18ヶ月ごとに半減する)を信じるならば、これは問題ではありません。 • タイルレベルまたはブロックレベルの量子化が必要です。これはLeptonでの観察結果と一致しています。また、入力データに基づく事前の動的量子化もサポートしています。さらに、ハードウェアがFP4をサポートすれば、実験の可能性は間違いなく広がります。 おもしろい事実: FP4 の乗算は実際には 16x16 のテーブル参照です… この論文では、メモリ帯域幅が多くの場合ボトルネックになると述べられています。NVIDIA が今後発表する新しいハードウェアフォームファクタ(NVL72 など)が、分散推論のパフォーマンスと使いやすさをいかに向上させるのか、非常に楽しみです。 「刺激的な年月だった」と彼は言った。 マルチカードクラスターは依然として必要ですが、より多くのカードを持っている人やより多くのお金を燃やした人が自動的にすべてを勝ち取るとは限りません。 ネットユーザーの中には、「Nvidiaバブルが崩壊した瞬間まで早送りしたい」と冗談を言う者もいた。 |
DeepSeek V3 が話題になっています。2,000 個の GPU を搭載し、550 万元かけて構築されたこのオープンソース モデルは、数億元かかった OpenAI のモデルと同等の性能を持っています。
関連するおすすめ記事
-
Appleが投資を撤回!OpenAI幹部交代の内幕:CEOは従業員を搾取し、セキュリティを無視し、4oの立ち上げを急ぎ、名声と利益を追求するという当初の意図は消え去った。
-
分散型マルチモデル データベースである KWDB はオープン ソースです。
-
登録受付開始!今年最も注目すべきAIGC企業・製品を選出中。
-
SegmentFault 開発者サロンシリーズ: エコシステムの構築と未来の創造
-
Andrew Ng の学生たちは、あらゆる論文を自由に議論できる arXiv の箇条書きコメント バージョンを作成しました。
-
OpenAI がこの分野でトップの座を取り戻しましたが、今回は 4O のおかげです。