|
オープンソース協会開源社 以下の記事は、Li Jianzhong Research and Thinking が執筆した Li Jianzhong Research and Thinking からの抜粋です。 【導入】 楊立坤氏は、「DeepSeekの勝利は、中国AIが米国AIに勝利したのではなく、オープンソースモデルが独自モデルに勝利したことだ」と述べた。私たちの見解では、これは確かにオープンソースの勝利であると同時に、中国AIの勝利でもある。その両方を認めることが正しい姿勢だ。しかし一方で、DeepSeekを国家レベルのイノベーションとして称賛するのは、少々誇張かもしれない。結局のところ、国家の運命は単一の製品やイノベーションではなく、私たち一人ひとりの継続的な努力にかかっているのだ。 —Zhuang Biaowei、オープンソース協会ディレクター DeepSeekは春節期間中、世界のテクノロジーコミュニティに衝撃を与えました。饒毅教授が「DeepSeekはアヘン戦争以来、中国が人類に与えた最大のテクノロジーショックだ」と評したことは確かに少々誇張ではありますが、欧米のテクノロジー界で熱く議論されたいわゆる「DeepSeekモーメント」がもたらした衝撃、中国国内で称賛された「国家レベルのイノベーション」、そしてネイチャー誌、ニューヨーク・タイムズ紙、エコノミスト誌といった欧米の主要雑誌やメディアによる報道、そして世界中の科学技術、金融、政府、軍事の各分野の専門家や政治家からの反応は、DeepSeekの人気と影響力が無視できないことを示しています。 DeepSeekは具体的に何をしたのでしょうか?いわゆる「DeepSeekモーメント」や「国家レベルのイノベーション」とは、実際には何を意味するのでしょうか? DeepSeekの大きな影響力は、AIの様々な分野における重要な技術革新だけでなく、より重要なのは、DeepSeekが引き起こしたグローバルAIエコシステムの高度化と再構築にあると考えています。本稿では、DeepSeekのイノベーションに関する私の研究と考察を、主に2つの側面、すなわち(I) DeepSeekの主要な技術革新、(II) 大規模モデルにおけるDeepSeekのエコシステム的意義の観点から考察します。 1. オープンソースの強化学習は推論計算におけるパラダイムシフトをもたらします。 昨年9月、OpenAIはo1モデルをリリースし、推論計算における強化学習の優れた能力を示しました。しかし、OpenAIはこれをオープンソース化せず、詳細な技術レポートも提供しませんでした。世界中のAIコミュニティは、大規模モデルにおける事前学習から推論計算へのパラダイムシフトに大きな期待を寄せていましたが、成功した事例はまだありませんでした。DeepSeek R1が登場するまでは、Claude Sonnet 3.5やOpenAI GPT-4oといった多くの最先端のクローズドソースモデルを、推論に焦点を当てた国際的に認められた評価指標と実際のユーザーエクスペリエンスの両方で凌駕していました。 DeepSeekの推論計算アプローチは、多くの業界専門家を驚かせました。教師あり微調整(SFT)やコールドスタートデータに依存せず、純粋な強化学習(RL)を用いることで、大規模モデルの推論能力を純粋RLを通して効果的に高めることに成功しました。DeepSeekはまた、R1トレーニング中に「Aha Moment」(大規模モデルにおけるいわゆる「ひらめきの瞬間」)を観測しました。これは、モデルが自らの誤りを振り返る瞬間です。DeepSeekの研究者たちは論文の中で、これは大規模モデルにとっての「Aha Moment」であるだけでなく、研究チームにとっても「Aha Moment」であると述べています。 なぜ強化学習(RL)を推論計算に用いることで、大規模モデルに新たなパラダイムシフトがもたらされるのでしょうか?人間の知能学習は、基本的に模倣学習と探索学習の2つのカテゴリーに分けられます。事前学習とは、大規模モデルの模倣学習です。OpenAI o1とDeepSeek R1が登場する以前は、大規模モデルは主に事前学習を通じて模倣学習を行っていました。大規模モデルに与えられたデータが学習を決定づけ、教えられていないことは学習せず、強制的に答えさせられると意味不明な答えしか返ってきませんでした。一方、強化学習とは大規模モデルの探索学習であり、OpenAI o1とDeepSeek R1が推論計算に用いる主要な学習手法です。推論計算における強化学習のサポートの下、大規模モデルは継続的に探索と最適化を行い、発生したエラーを修正します。探索学習なしに、事前学習に基づく模倣学習のみに頼る大規模モデルは、複雑な問題に直面した際に人間の専門家を上回るのに苦労することは容易に理解できます。探索的学習によって、大規模モデルは人間の知能をはるかに超えるレベルまで発達する可能性があります。例えば、AlphaGoが囲碁のチャンピオン、イ・セドルを破った有名な37手目は、強化学習の結果でした。 強化学習はAI分野において目新しいものではありませんが、大規模モデルへの一般化は大規模モデル推論計算の中核を成しており、OpenAI O1とDeepSeek R1はこの分野の先駆者です。これは大規模モデル分野におけるパラダイムシフトをもたらし、事前学習から推論計算へと移行しました。オープンソースの指導のおかげで、DeepSeekはこのパラダイムシフトをリードする可能性を秘めています。 ちなみに、DeepSeekはエンジニアリング分野においても多くの優れた成果を上げています。例えば、純粋な強化学習モデルR0から、SFTとV3ペデスタルモデルをベースとし、推論と論理推論の両方が可能な、バランスの取れたR1へと進化しました。さらに、R1を教師モデルとして複数の小規模モデルを抽出し、これらの小規模モデルにも高い推論能力を持たせています。これらの進歩は、大規模モデルから推論ベースの計算へのパラダイムシフトを加速させるでしょう。 2. MLA や MoE などは、大規模モデルアーキテクチャにおけるイノベーションをリードしています。 GPTがTransformerアーキテクチャで成功を収めて以来、多くの大規模モデルの標準として、従来のTransformerアーキテクチャが採用されてきました。しかし、これはTransformerが完璧であることを意味するものではありません。DeepSeekもTransformerアーキテクチャに基づいて多くの革新を行っており、主に以下の2つの側面でその成果を上げています。 (1)多頭潜在的注意、すなわちMLA (2)ハイブリッド専門家モデル、すなわちMoE DeepSeek V2の独自機能であるMLAは、効率的な推論に使用され、推論メモリの消費量を大幅に削減します。MLAは、主にアテンション演算子を変更することでキーバリューキャッシュのサイズを削減し、クエリあたりのキーバリューペア数を93.3%削減します。これにより、同じ容量でより多くのキーバリューペアを保存できるようになり、推論効率が大幅に向上します。 MoEは効率的な学習に使用されます。複数のエキスパートモデルで構成され、ニューラルネットワーク全体ではなく、特定のタスクに必要な特定のエキスパートを部分的に起動することで計算コストを削減します。MoEはDeepSeek独自の発明ではありませんが、DeepSeekはV2以前のコードと数学モデルにおいて、高密度アーキテクチャからMoEに移行しました。V3モデルは、256個の高度に複雑なルーティングエキスパートと1個の共有エキスパートを大胆に活用し、冗長エキスパートを革新的な方法で採用することで、負荷分散戦略と学習目標の達成に貢献しています。 3. カスタマイズされたハードウェアとソフトウェアの共同エンジニアリングの最適化 よく知られている「チップの限界」にもかかわらず、DeepSeekは推論パラダイムとモデルアーキテクチャの革新を探求しながらも、エンジニアリング最適化への取り組みを怠っていません。DeepSeekは、計算、ストレージ、通信を含む複数のレベルで、ハードウェアとソフトウェアの協調エンジニアリングによる最適化戦略を実装しています。例えば、混合精度トレーニング、ノード間通信最適化、デュアルパイプラインメカニズム、DualPipeアルゴリズムなどが挙げられます。さらに、低レベル最適化、レジスタ割り当て調整、スレッドスケジューリング、ワープレベルの最適化には、PTXコード(CUDAよりも低レベルのアセンブリコード)も使用しています。 特定のモデル要件に合わせてハードウェアを「カスタマイズ」する、こうしたハードウェアとソフトウェアの共同エンジニアリングによる最適化は、豊富なGPUリソースを持つシリコンバレーの大企業のエンジニアにとっては些細なスキルに思えるかもしれません。しかし、テクノロジーの世界では、一見些細なスキルであっても過小評価すべきではないことを強調したいと思います。テクノロジー分野におけるイノベーションは、しばしばこうした一見取るに足らない技術から始まるのです。 コンピューティングの歴史を振り返ってみましょう。HadoopはどのようにしてEMCとIBMにストレージアーキテクチャの再構築を迫ったのでしょうか?ARMの縮小命令セットコンピューティング(RISC)は、その低消費電力設計によって、どのようにしてIntelのx86帝国を破壊したのでしょうか?TCP/IPプロトコルスタックは、どのようにして従来のネットワーク機器に革命をもたらしたのでしょうか?チューリング賞受賞者であり、RISC命令の発明者であるデビッド・パターソンはかつて、「ハードウェアアーキテクチャの革新は、ハードウェアに対するソフトウェア要件の継続的な推進力から生まれることが多い」と述べました。 時間が与えられ、DeepSeek がオープンソースの大規模モデル分野の標準になった場合、「ソフトウェア定義ハードウェア」または「モデル定義ハードウェア」によってハードウェア メーカーが NVIDIA の CUDA エコシステムを破壊する道を切り開くことになるとは言い難い。 1. 大規模モデルのコストが検索と同程度まで下がるにつれて、AI アプリケーションとインテリジェント エージェントは爆発的な成長を遂げる準備が整います。 DeepSeekは、間違いなく大規模モデルのコスト戦争に火をつけました。(1)「モデルアーキテクチャの革新」と「ソフトウェアとハードウェアの共同エンジニアリングの最適化」により、大規模モデルのトレーニングコストを大幅に削減しました。これはMetaの約1/10、OpenAIの約1/20です。(2)最もオープンなMITオープンソースライセンスと、大規模推論モデルをオープンソースの小さなモデルに蒸留するなどの一連のエンジニアリング手法により、低コストのエッジモデル製品を業界にもたらしました。 Google検索1回あたりのコストは約0.2セント(0.002米ドル)です。DeepSeek R1の推論コストは100万トークン出力あたり16元(2.2米ドル)、V3の対話出力コストは100万トークンあたり2元です(これらはDeepSeekの公式ウェブサイトに掲載されているAPI価格であり、実際の推論コストはこれより低くなります)。比較すると、OpenAI O1は100万トークンあたり60米ドルで、DeepSeek R1の30倍のコストです。平均的な推論出力を約1000トークン(中国語約500文字に相当)と仮定すると、DeepSeekの推論出力コストは約2.2米ドル/1000回=0.2セント、対話出力コストは約0.025セントとなります。 つまり、 DeepSeekは大規模モデルからの推論出力のコストを1回のGoogle検索と同程度にまで削減し、対話出力のコストは検索の約10分の1にまで削減しました。これは画期的な出来事です。 2023年4月にシリコンバレーを訪れた際、Googleで検索部門で働いている友人と話した時のことを覚えています。彼は社内では、上から下までChatGPTに対して様子見の姿勢だったと言っていました。当時の大規模モデルのコストをGoogleの検索コストと比較すると、Googleは600億ドルの利益を上げていた企業から、たちまち1000億ドルを超える損失を出す企業へと転落してしまうからです。大規模モデルのコストは今後も減少していくと誰もが予想していましたが、2年足らずでこれほど急速に減少するとは誰も予想していませんでした。 コストは常に技術革命の重要な要素です。インターネットのインフラとして、検索は世界中の情報を極めて低コストで迅速に統合し、インターネット革命の火付け役となりました。DeepSeekは、2025年初頭までに大規模モデルのコストを検索と同等のレベルまで引き下げることを目指しています。コスト効率の高いエッジモデルと組み合わせることで、大規模モデルはまもなく様々なアプリケーションの基盤となり、GenAIは爆発的なアプリケーション成長の転換点を迎えるでしょう。同時に、推論計算における強化学習によるパラダイムシフトに伴い、推論能力に依存するAIエージェントも加速します。 2025年は、大規模モデルアプリケーションとインテリジェントエージェントの爆発的な成長の元年となるでしょう。 2. AIの「鉄の三角形」は新たな変数に直面しており、AI業界の状況は大きく変わると予想されます。 アルゴリズム、コンピューティングパワー、そしてデータは、AIの鉄の三角形であり続けています。大規模モデルがAI技術の主流となるにつれ、Transformerアーキテクチャを基盤とし、主に事前学習を用いたモデルアルゴリズムと、それらが示すスケーリング則は、業界に明確なメッセージを伝えてきました。それは、コンピューティングパワーが全てを決定する、学習データが多く、コンピューティングパワーが高ければ高いほど、モデルの性能は向上するというものです。いわゆる「力ずくで奇跡は起こる」のです。AI業界における競争は、「GPUを多く持つ者が最強のAI能力を持つ」という軍拡競争へと発展しました。 しかし、DeepSeekは「学習後」と「学習前」という2つの段階から、コンピューティングパワーのみに依存するというこの理論に強い反論を投げかけています。(1)学習後段階:オープンソース強化学習による推論コンピューティングの加速へのパラダイムシフト:学習後段階において強化学習が標準となるにつれ、推論コンピューティングの占める割合は(学習前コンピューティングと比較して)ますます大きくなるでしょう。学習前モードに適応したGPUラージカードクラスターコンピューティング(Nvidiaの優位性)は、もはや将来のAIコンピューティングパワー需要の主流ではなくなり、推論コンピューティングにおけるNvidiaの優位性は相対的に弱まります。Google TPU、AWS Inferentia、Huawei Ascendなど、多くの主要メーカーは推論に最適化されたチップを搭載しており、特定の負荷下では汎用GPUを大幅に上回るエネルギー効率を実現しています。さらに、多様な推論シナリオに適応した分散コンピューティング、エッジコンピューティング、エンドサイドコンピューティングにおいても、Nvidiaが推論コンピューティングパワーの分野を独占するような状況は起こらないでしょう。 (2) 事前学習段階- MoEとMLAによる従来のTransformerアーキテクチャの改良と反復:これにより、DeepSeekは同等規模の事前学習を、同業他社の10~20分の1の計算能力で完了できるようになりました。さらに、R1を教師モデルとして用いて小規模モデルの「強化学習推論能力」を抽出するというDeepSeekのエンジニアリング手法は、多くのモデルの学習に多大なメリットをもたらすでしょう。 DeepSeekの「ポストトレーニング」と「プレトレーニング」段階を通じたAIアルゴリズムの革新は、「アルゴリズム、コンピューティング能力、データ」というAIの「鉄の三角形」に新たな変数をもたらし、AI業界の将来の発展の展望を一変させる可能性を秘めています。 3. オープンソースの長期ビジョンはイノベーションの発祥地です。 最後に、DeepSeekのオープンソース戦略についてお話しましょう。DeepSeekは、商用利用に適したMITライセンス(最も寛容なオープンソースライセンスの一つ)とオープンソースのモデル重みをサポートし、下流アプリケーション(合成データ、蒸留など)にも制限がありません。公開されている論文の技術詳細も非常に充実しています。世界ランキングで上位10位にランクインしたモデルの中で、DeepSeekはオープンソース化の度合いが最も高く、オープンソースの先駆者の一つであるMetaのLLaMAよりもさらに高い水準にあります。だからこそ、DeepSeek V3とR1は、国内外の多くの権威ある専門家や業界リーダーから高い評価と尊敬を集めています。DeepSeekは、モデル、評価、そして原理を、隠すことも誇ることもなく、すべてしっかりと提示しています。 ちなみに、DeepSeekの論文は、当初からマイクロ設計においてLLaMAの設計原則に従っていることを公然と認めています。中国における様々なためらいがちで曖昧な「セミオープンソース」プロジェクトや、オープンソースライセンスに違反し、オープンソースを利用して独自のクローズドソースコードを実装するプロジェクトと比較すると、DeepSeekはモデルに対するオープンソースアプローチにおいて、驚くほど寛大でオープンです。 DeepSeekは創業当初からオープンソースを積極的に採用してきました。2024年1月に発表された論文「DeepSeek LLM: 長期主義によるオープンソース言語モデルの拡張」を読んだ当時を思い出すと、彼らのオープンソースへの信念と宣言には畏敬の念を抱きます。より深いレベルでは、DeepSeekはオープンソースの精神を真に理解し、全人類のためのイノベーションという観点からそれを積極的に採用し、戦術的ではなく戦略的に実践しています。 DeepSeek創業者の梁文鋒氏への2024年7月のインタビューからの抜粋です。「私たちは今、世界の技術革新に参加することが最も重要だと考えています。中国企業は長年、海外の技術革新を活用し、アプリケーションを通じて商業化することに慣れてきましたが、このモデルは持続可能ではありません。私たちの目標は短期的な利益ではなく、最先端技術の開発を牽引し、エコシステム全体の成長を根本的に促進することです。オープンソース化や論文発表は大きな損失をもたらすことはありません。技術者にとって、同業他社に追随されること自体が大きな成果です。オープンソースは単なるビジネス戦略ではなく、文化なのです。」こう考えると、2025年1月にDeepSeek V3とR1が世界のAIコミュニティにもたらした衝撃は驚くべきものではありません。 DeepSeekの成功は、中国のテクノロジーコミュニティに最も純粋で独創的なイノベーションの火花を散らし、何世代にもわたる中国の技術者たちに、世界に向けて独自のイノベーションを生み出すよう刺激を与えてきました。DeepSeekに敬意を表します。 転載元:Li Jianzhong Research 編集:王俊 関連資料 グローバル規制とオープンソースを理解する:米国OFAC制裁 【縁起の良い蛇は幸運をもたらす】 | 2024年中国オープンソース年次報告書が正式に発表されました!オープンソース協会の紹介 2014年に設立されたオープンソース協会(KAIYUANSHE)は、オープンソースの理念に献身的に貢献する個々のボランティアで構成されるオープンソースコミュニティであり、「貢献、合意、そして共同統治」の原則に基づき活動しています。KAIYUANSHEは、「ベンダー中立性、公益性、非営利性」の原則を堅持し、「中国を拠点とし、世界に貢献し、新時代のライフスタイルとしてオープンソースを推進する」というビジョンを掲げています。その使命は「オープンソースのガバナンス、国際的な連携、コミュニティの発展、そしてプロジェクトのインキュベーション」であり、健全で持続可能なオープンソースエコシステムの共創を目指しています。 オープンソース協会は、オープンソースを支援するコミュニティ、大学、企業、政府機関と積極的に連携しています。また、世界的なオープンソースライセンス認証組織であるOSIの中国初の会員でもあります。 2016年以降、中国オープンソースカンファレンス(COSCon)が毎年開催され、「中国オープンソース年次報告書」が継続的に発表されています。また、「中国オープンソースパイオニアリスト」と「中国オープンソースコードパワーリスト」も共同で立ち上げ、国内外で幅広い影響力を発揮しています。 |
DeepSeekの主要な技術革新とAIエコシステムへの影響
関連するおすすめ記事
-
真剣な科学研究:博士号取得は心身の健康に有害
-
世界有数のティア1サプライヤーが従業員7,000人を解雇。年間KPIが達成されていないことが判明し、欧州の自動車業界に衝撃が走っている。
-
地球温暖化は不可逆的です。スタンフォード大学のチームは AI を使って、記録破りの気温の変化を予測しています。気温が記録を破る確率は 90% です。
-
このオリンピックチャンピオンは実はシリコンバレーのベンチャーキャピタリストであり、ハーバード大学でコンピューターサイエンスを学んだ人物です。
-
Qwen 2.5は100万もの超長コンテキストに対応し、推論速度が4.3倍に向上しました。ネットユーザーの皆様へ:RAGは時代遅れになりそうです。
-
指導教員:私は研究に1日10時間近く費やしていますが、それでも足りないと感じています。大学院生:1日5時間も研究に取り組まないのに、どうやって競争できるというのですか?