618ZXW

ビッグニュース!「AI界の拼多多」が再び登場!国産大規模AIモデルDeepSeek-V3がオープンソース公開され話題沸騰中。総学習コストは557万ドル、性能はGPT-40に匹敵。

CSDNオープンソースコミュニティKAIYUANSHE

この記事はWeChat公式アカウント[CSDN](ID:csdnnews)より許可を得て転載したものです。

シリコンバレーで「東洋からの謎の勢力」として知られる中国のスタートアップ企業DeepSeekは、この2日間で、まったく新しい超大規模モデルDeepSeek-V3をリリースし、国内外のAI技術コミュニティを再び静かに驚かせた。

この新モデルは6,710億個のパラメータを有しますが、MOE(Hybrid Expert)アーキテクチャを採用しており、タスク要件に応じて特定のパラメータを有効化できます。処理対象の単語ごとに370億個のパラメータを有効化することで、効率的かつ正確なタスク処理を実現します。

DeepSeek-V3のリリースは、オープンソースモデルであるという理由だけでなく、MetaのLlama 3.1-405BやAlibabaのQwenなどの主流のオープンソースモデルを上回り、AnthropicやOpenAIなどのクローズドモデルの性能に近づいていることがテスト結果で示され、オープンソースAIとクローズドソースAIの差が大幅に縮まったため、業界を興奮させました。

この「控えめな大物」は、AI大規模モデル界に再び旋風を巻き起こしました。現在、このモデルはHugging Faceプラットフォーム(https://huggingface.co/deepse...)から入手できますが、同社のライセンス契約に従う必要があります。

前身のDeepSeek-V2と同様に、新たにリリースされた超大規模モデルは、Multi-Head Latent Attention(MLA)とDeepSeekMoEアーキテクチャに基づいています。この設計により、専用および共有の「エキスパート」(モデル内の独立した小規模ニューラルネットワーク)を通じて単語が処理されるたびに、6,710億個のパラメータのうち370億個がアクティブ化され、トレーニングと推論中のモデルの効率性が維持されます。

▲ DeepSeek-V3 アーキテクチャ図

DeepSeek-V3 では、強力なパフォーマンスを確保するための基本アーキテクチャの維持に加えて、次の 2 つの革新も導入されています。

  • 補助的な損失のない負荷分散戦略: エキスパートの作業負荷を動的に監視および調整することで、モデル全体のパフォーマンスに影響を与えることなく、作業負荷のバランスが取れます。
  • マルチターム予測 (MTP) : 複数の将来のタームを同時に予測するモデルをサポートします。

この革新により、トレーニングの効率が向上するだけでなく、モデル生成速度が 20 TPS から 60 TPS に 3 倍になり、1 秒あたり 60 トークンが生成されます

DeepSeekは技術論文の中で、「事前学習段階では、14.8兆件の高品質で多様なテキストを用いてDeepSeek-V3を学習させました。その後、2段階に分けてコンテキスト長を拡張しました」と述べています。「第1段階ではコンテキスト長を32Kに拡張し、第2段階ではさらに128Kに拡張しました。これに基づき、教師ありファインチューニング(SFT)と強化学習(RL)に基づく学習を含むDeepSeek-V3の事後学習を実施し、モデルを人間の好みにより適合させ、その潜在能力を最大限に引き出しました。事後学習では、DeepSeekR1シリーズモデルの推論機能を導入しながら、モデルの精度と世代長を慎重にバランスさせています。」

▲論文リンク: https://github.com/deepseek-a..._V3.pdf

特筆すべきは、DeepSeek がトレーニング プロセス中に、FP8 混合精度トレーニング フレームワークや DualPipe パイプライン並列アルゴリズムなど、さまざまなハードウェアおよびアルゴリズムの最適化手段を使用し、トレーニング コストを大幅に削減したことです。

要約すると、事前学習フェーズにおいて、DeepSeek-V3は1兆トークンの処理にわずか18万時間のH800 GPU時間しか必要とせず、2,048基のH800 GPUを搭載したクラスターを使用すれば、わずか3.7日で処理を完了できます。事前学習プロセス全体は2か月未満で完了し、合計266万4,000GPU時間でした。さらに、コンテキスト長の拡張には11万9,000GPU時間が、後続の学習(教師ありファインチューニングや強化学習など)には5,000GPU時間が費やされ、合計学習時間は278万8,000GPU時間となりました

GPU 1時間あたり2ドルの価格に基づくと、 DeepSeek-V3の総トレーニングコストは約557万6000ドルとなりますこの数字は正式なトレーニングフェーズのコストのみをカバーしており、モデルアーキテクチャ、アルゴリズム設計、データ処理に関する事前の調査やアブレーション実験は含まれていませんが、大規模言語モデルのトレーニングに通常必要とされる数億ドルよりもはるかに低いものです。例えば、Llama-3.1のトレーニングコストは5億ドルを超えると推定されています。

トレーニング コストが低いにもかかわらず、DeepSeek-V3 は市場で最も強力なオープン ソース モデルの 1 つになりました。

DeepSeekは、DeepSeek-V3モデルに対し、複数のパフォーマンステストを実施しました。知識領域においては、教育ベンチマーク(MMLU、MMLU-Pro、GPQAなど)に基づくテストにおいて、DeepSeek-V3は非常に優れたパフォーマンスを示し、それぞれ88.5、75.9、59.1という高いスコアを達成しました。これは、他のすべてのオープンソースモデルを凌駕し、GPT-4oやClaude-Sonnet-3.5などのクローズドモデルの性能に迫るものでした。これは、DeepSeek-V3がこの領域において、オープンソースモデルとクローズドモデルの差を大幅に縮めたことを意味します。

第二に、事実知識テストにおいて、DeepSeek-V3はSimpleQAベンチマークと中国語SimpleQAベンチマークの両方で他のオープンソースモデルを上回りました。英語の事実知識テスト(SimpleQA)ではGPT-4oとClaude-Sonnet-3.5にわずかに劣るものの、中国語の事実知識テスト(Chinese SimpleQA)では優れた成績を収めました。

第二に、コード、数学、推論の分野では:

(1) 数学関連のベンチマークテストにおいて、DeepSeek-V3は、long-CoT以外のオープンソースおよびクローズドモデルの中で最高のパフォーマンスを発揮しました。MATH-500などの特定のベンチマークでは、OpenAI o1-previewよりも優れたパフォーマンスを発揮しました。

(2) プログラミング関連のタスクにおいて、DeepSeek-V3はプログラミング競技ベンチマーク(LiveCodeBenchなど)で最高のパフォーマンスを発揮しました。エンジニアリング関連のタスクでは、DeepSeek-V3はClaude-Sonnet-3.5にわずかに劣るものの、他のすべてのモデルを大幅に上回り、様々な技術ベンチマークにおいて高い競争力を示しました。

全体的に見て、DeepSeek-V3のテスト結果は、Llama-3.1-405BやQwen 2.5-72Bなど、多くの主要なオープンソースモデルを大幅に上回っていることを示しています。ほとんどのテストで、クローズドソースのGPT-4oさえも上回りました。しかし、英語に特化したSimpleQAとFRAMESテストでは、OpenAIのGPT-4oが依然としてリードしており、それぞれ38.2と80.5のスコアを達成しました(DeepSeek-V3のスコアはそれぞれ24.9と73.3でした)。中国語と数学のテストでは、DeepSeek-V3はすべての競合モデルを上回りました。Math-500テストでは、90.2という高スコアを達成し、Qwenの優れたスコア80を大きく上回りました。

しかし、Anthropic の Claude 3.5 Sonnet は、MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified、Aider-Edit などのテストで高いスコアを獲得しており、DeepSeek-V3 のようなオープンソース AI モデルの開発の余地を残しています。

価格設定に関しては、DeepSeekが今年5月に第2世代のMoE大規模モデルであるDeepSeek-V2をリリースした際、GPT-4 Turboに匹敵する性能とGPT-4のわずか100分の1という価格で業界に衝撃を与えました。これにより、DeepSeekは「AI界のPinduoduo」や「大規模モデルのプライスキラー」という称号を得ました。

今回もDeepSeekは期待を裏切りませんでした。DeepSeek-V3モデルAPIサービスの料金は、入力トークン100万個あたり0.5元(キャッシュヒット)/ 2元(キャッシュミス)、出力トークン100万個あたり8元です

一方、DeepSeekは新モデルの45日間の試用期間と割引価格を発表しました。現在から2025年2月8日まで、DeepSeek-V3のAPIサービス価格は、入力トークン100万個あたり0.1元(キャッシュヒット)/ 1元(キャッシュミス)、出力トークン100万個あたり2元となります

これは多くの人々を驚かせ、喜ばせました。DeepSeek-V3は現在、国内外の主要なテクノロジーニュースプラットフォームで話題となっており、多くのAIリーダーの注目を集めています。

OpenAIの元研究者であり、テスラの元AI責任者でAIの第一人者であるアンドレイ・カルパシー氏は次のようにコメントしている。

「DeepSeek(中国のAI企業)は本日、非常に低い予算(2か月間2048個のGPUをトレーニングし、総費用はわずか600万ドル)でトレーニングしたオープンソースのトップクラスの大規模言語モデルにより、その驚くべき能力を再び実証しました。」

比較すると、この能力レベルのモデルは通常、16,000基近くのGPUを搭載したクラスターを必要としますが、現在導入されているクラスターの中には10万基近くのGPUを搭載しているものもあります。例えば、Llama 3 405Bは3,080万GPU時間を消費しましたが、DeepSeek-V3はわずか280万GPU時間(計算能力は約11分の1)しか消費していません。それでも、そのパフォーマンスは大幅に向上しているようです。このモデルが様々なテスト(現在も進行中のLLMアリーナリーダーボードテストなど。私が行ったいくつかの簡単なテストでは良好な結果が得られています)で良好なパフォーマンスを発揮すれば、リソース制約下における研究とエンジニアリングの能力を示す非常に印象的なデモンストレーションとなるでしょう

これは、最先端のLLMの学習に大規模なGPUクラスターはもはや不要であることを意味するのでしょうか?決してそうではありません。鍵となるのは、既存のリソースをいかに効率的に活用するかです。この成果は、データとアルゴリズムの面で、未開拓の大きな可能性がまだ存在していることを示しています。

技術レポートも非常に詳細かつ優れているため、読む価値があります。

AIユニコーン企業Scale AIのCEO、アレクサンダー・ワン氏は、DeepSeekの公式ツイートをリツイートし、次のように述べた。

中国を代表する大規模言語モデリング研究所 DeepSeek は、最新の V3 モデルをクリスマスの日にリリースすることを選択しましたが、これは非常に重要な意味を持ちます。

  • そのパフォーマンスは GPT-4o や Claude 3.5 Sonnet に匹敵します。
  • トレーニングに必要な計算能力は、それらの 10 分の 1 にすぎません。

これは考えさせられる真実、つまり中国のテクノロジーの「厳しい真実」を反映している。米国が休んでいる間に、中国は懸命に努力し、より低いコスト、より速いスピード、より大きな力で追いついているのだ

実際、DeepSeekの成功は偶然ではありません。中国の著名なクオンツ・プライベートエクイティ大手、Magic Square Quantによって2023年に設立された同社は、設立からわずか6か月で第一世代の大規模モデル「DeepSeek Coder」をリリースしました。このモデルは商用利用が無料であるだけでなく、完全にオープンソースです。

しかし、当時、大規模モデル間の熾烈な競争が繰り広げられていた中で、DeepSeekの新しいモデルは大きな注目を集めることはなかったかもしれません。しかし意外なことに、大手テクノロジー企業が大規模モデルの価格競争に突入する前に、DeepSeekは従来の常識を打ち破り、大規模モデルの価格「表」を大胆に覆し、大きな注目を集めました。

さらに調査を進めると、この比較的知名度の低いAIスタートアップ企業は、実は長年AI分野に深く関わっており、非常に先進的であることが判明しました。Magic Square Quantは2019年に早くも2億元を投資し、1,100基のGPUを搭載したディープラーニングトレーニングプラットフォーム「Firefly No. 1」を独自開発しました。2021年には、Magic Square Quantは「Firefly No. 2」への投資を10億元に増額し、約1万台のNVIDIA A100グラフィックカードを搭載しました。当時、中国で1万基以上のGPUを保有する企業はわずか数社、せいぜい5社程度でした。

早期予測のメリットはますます明らかになっています。これに対し、賈陽青氏はソーシャルメディアプラットフォームXで、DeepSeekとの過去のやり取りから得たエピソードをいくつか共有しました。「2019年、DeepSeekチームと会話をし、AIクラウドソリューションを彼らに提案したいと考えました。その時、私は以下の点を伝えようとしました。」

  1. 複雑なクラウド仮想化テクノロジーは必要ありません。必要なのはコンテナと高効率スケジューラだけです。
  2. RoCE や Infiniband などの非常に高速で相互接続された専門的なネットワークが必要です。
  3. ストレージには、汎用 NFS のみが必要です。それほど高度なものではありませんが、十分な速度が必要です。
  4. SRE (サイト信頼性エンジニア) ではなく、AI 開発者の満足度を優先します。

2019 年、ほとんどの人がまだ従来のクラウド ビジネスに重点を置いていた当時、これらのアイデアは比較的斬新で、市場の多くのプレーヤーを説得するにはある程度の努力が必要だと考えていました。

しかし、DeepSeekチームは親切にも、長年この方法で運営してきたと教えてくれました。さらに、既存のコンピューティングパワーをより有効に活用できるよう、大学の研究室にコンピューティングリソースを無償で寄付するお手伝いをしてくれないかとも言ってくれました。

最終的には、学術寄付プロジェクトでも少しだけ支援することができました。

ある意味、DeepSeek チームの目覚ましい成果は、当時多くの人が見落としていた長年の専門的な経験の蓄積に根ざしています

さらに、賈陽青氏は次のように述べています。「DeepSeekモデルに関する議論では、『中国製品』というレッテルが貼られる可能性が多々あり、米中関係やGPUコンピューティング能力との暗黙の関連も指摘されています。しかし、私の見解では、DeepSeekの成功はこれらの要因とはほとんど関係がありません。限られたコンピューティングリソースと人的資源の中で、インテリジェントな研究を通じて最適な結果を達成するという、単純な知恵と実用主義が功を奏したと言えるでしょう

現在、DeepSeek-V3のコードはGitHub(https://github.com/deepseek-a...)でMITライセンスに基づいて公開されていますが、モデルは同社の独自ライセンスに基づいて提供されています。また、Hugging Faceプラットフォーム(https://huggingface.co/deepse...)でも体験可能です。

興味のある方は、技術論文を参照してください: https://github.com/deepseek-a..._V3.pdf

参考文献

https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

https://x.com/jiayq/status/18...

https://venturebeat.com/ai/de...

https://huggingface.co/deepse...

転載元:CSDN

編集者:李南

関連資料

ポストオープンソース時代: オープンソースの作者はもはや乞食ではなく、受益者です。

2024年 中国オープンソースパイオニア33:人々の心に寄り添うオープンソースの人物たち

オープンソース協会の紹介

2014年に設立されたオープンソース協会(KAIYUANSHE)は、オープンソースの理念に献身的に貢献する個々のボランティアで構成されるオープンソースコミュニティであり、「貢献、合意、そして共同統治」の原則に基づき活動しています。KAIYUANSHEは、「ベンダー中立性、公益性、非営利性」の原則を堅持し、「中国を拠点とし、世界に貢献し、新時代のライフスタイルとしてオープンソースを推進する」というビジョンを掲げています。その使命は「オープンソースのガバナンス、国際的な連携、コミュニティの発展、そしてプロジェクトのインキュベーション」であり、健全で持続可能なオープンソースエコシステムの共創を目指しています。

オープンソース協会は、オープンソースを支援するコミュニティ、大学、企業、政府機関と積極的に連携しています。また、世界的なオープンソースライセンス認証組織であるOSIの中国初の会員でもあります。

2016年以降、中国オープンソースカンファレンス(COSCon)が毎年開催され、「中国オープンソース年次報告書」が継続的に発表されています。また、「中国オープンソースパイオニアリスト」と「中国オープンソースコードパワーリスト」も共同で立ち上げ、国内外で幅広い影響力を発揮しています。