最新ビッグモデルの歴史を簡潔に解説！Transformer（2017年）からDeepSeek-R1（2025年）まで

LM Po データホエール

Datawhaleのヒント

著者：LM Po、編集者：Datawhale

2025年初頭、我が国は画期的で費用対効果の高い大規模言語モデル（LLM）であるDeepSeek-R1を発表し、AI分野に大きな革命を引き起こしました。

この記事では、2017 年の革新的な Transformer アーキテクチャから始めて、LLM の開発をレビューします。

1. 言語モデルとは何ですか?

「言語モデル」とは、人間のような言語を処理、理解、生成するために設計された「人工知能システム」です。大規模なデータセットからパターンと構造を学習し、一貫性があり文脈に応じたテキストの生成を可能にし、翻訳、要約、チャットボット、コンテンツ生成などの分野で応用されています。

1.1 大規模言語モデル（LLM）

「言語モデル」（LM）と「大規模言語モデル」（LLM）という用語はしばしば同じ意味で使われますが、実際には規模、アーキテクチャ、学習データ、そして機能に基づいて異なる概念を指します。LLMはLMのサブセットですが、規模がはるかに大きく、通常は数十億のパラメータを含みます（例：GPT-3は1750億のパラメータを持ちます）。この大規模なスケールにより、LLMは幅広いタスクにおいて優れた性能を発揮することができます。

「LLM」という用語は、BERTやGPT-1といったTransformerベースのモデルの登場により、2018年から2019年にかけて注目を集め始めました。しかし、この用語が広く使われるようになったのは、2020年にGPT-3がリリースされてからであり、これらの大規模モデルの大きな影響力と強力な機能が実証されました。

1.2 自己回帰言語モデル

ほとんどのLLMは「自己回帰」的に動作します。つまり、先行する「テキスト」に基づいて、次の「単語」（またはトークン／サブワード）の「確率分布」を予測します。この自己回帰特性により、モデルは複雑な言語パターンと依存関係を学習することができ、「テキスト生成」に長けています。

数学において、LLMとは、前の入力テキスト（₁₂ₙ₋₁）に基づいて次の文字ₙの確率分布を予測する確率モデルです。これは次のように表すことができます。

ₙ₁₂ₙ₋₁

テキスト生成中、LLM はデコードアルゴリズムを使用して、次に出力する単語を決定します。

このプロセスでは、様々な戦略を採用できます。例えば、最も高い確率で次の文字を選択する（すなわち貪欲探索）、または予測された確率分布から文字をランダムにサンプリングする、といった戦略です。後者の手法では、毎回異なるテキストが生成される可能性があります。これは、人間の言語の多様性とランダム性に非常によく似た特性です。

1.3 発電能力

LLMの自己回帰的な性質により、事前に与えられた文脈に基づいて単語ごとにテキストを生成することができます。下図に示すように、「プロンプト」から始めて、モデルは次の単語を反復的に予測し、完全なシーケンスが生成されるか、事前に設定された停止条件が満たされるまで続けます。プロンプトに対する完全な応答を生成するために、LLMは単語ゲームのように、事前に選択されたトークンを入力に追加することで、応答を反復的に生成します。

LLM のテキスト生成は単語ゲームのようなものです。

この生成機能により、クリエイティブライティング、会話型 AI、自動化された顧客サポートシステムなど、さまざまなアプリケーションの開発が促進されました。

2. トランスフォーマーレボリューション (2017)

Vaswaniらは2017年に画期的な論文「Attention is All You Need（必要なのは注意だけ）」でTransformerアーキテクチャを発表し、NLPにおける画期的な転換点となりました。Transformerは、長距離依存性や逐次処理に課題を抱えていた、リカレントニューラルネットワーク（RNN）や長短期記憶ネットワーク（LSTM）といった従来のモデルの主要な限界に対処しました。

これらの問題により、RNNやLSTMを用いた効果的な言語モデルの実装は困難になります。なぜなら、これらの手法は計算効率が悪く、勾配消失などの問題が発生しやすいからです。一方、Transformerはこれらの障害を克服し、この分野に革命をもたらし、現代の大規模言語モデルの基礎を築きました。

自己注意とTransformerアーキテクチャ

2.1 Transformerアーキテクチャの主な革新

自己注意：ラベルを順次処理し、長距離依存性に苦労するRNNとは異なり、Transformerは自己注意を用いて各ラベルの重要度を他のラベルと比較して重み付けします。これにより、モデルは入力の関連部分に動的に焦点を当てることができます。数学的には：

ここで、Q、K、Vはクエリ、キー、値の行列であり、dₖはキーの次元です。自己注意は並列計算を可能にし、学習を高速化すると同時に、大域的な文脈理解を向上させます。

マルチヘッドアテンション：複数のアテンションヘッドが並列に動作し、それぞれが入力の異なる側面に焦点を当てます。それらの出力は連結・変換され、より豊かな文脈表現を実現します。

フィードフォワードネットワーク（FFN）とレイヤーの正規化：Transformerの各レイヤーには、各ラベルに適用されるフィードフォワードネットワーク、レイヤーの正規化、残差接続が含まれます。これらにより、学習が安定化され、より深いアーキテクチャがサポートされます。

位置エンコーディング: Transformer 自体はトークンの順序をエンコードしないため、単語の順序を表すために位置エンコーディング (位置と頻度の正弦関数) が追加され、並列化を犠牲にすることなく順序情報が保持されます。

言語モデルへの影響

スケーラビリティ: トランスフォーマーは完全な並列計算を可能にし、大規模なデータセットで大規模モデルをトレーニングすることを可能にします。
コンテキスト理解: 自己注意により、ローカルおよびグローバルの依存関係がキャプチャされ、一貫性とコンテキスト認識が向上します。

Transformer アーキテクチャの導入により、これまでにない精度と柔軟性で複雑なタスクを処理できる大規模で効率的な言語モデルを構築するための基盤が築かれました。

3. 事前学習済みTransformerモデルの時代（2018～2020年）

2017年のTransformerアーキテクチャの導入は、NLPにおける新時代の幕開けとなりました。この時代は、事前学習済みモデルの台頭と、かつてないほどのスケーリングへの注力によって特徴づけられました。この時代には、BERTとGPTという2つの影響力のあるモデルファミリーが登場し、大規模な事前学習とファインチューニングのパラダイムの威力を実証しました。

3.1 BERT: 双方向コンテキスト理解 (2018)

2018 年、Google は BERT (Bidirectional Encoder Representations from Transformers) を発表しました。これは、Transformer エンコーダーを使用し、幅広い NLP タスクにわたって最先端のパフォーマンスを実現した画期的なモデルです。

従来のモデルがテキストを一方向（左から右、または右から左）に処理していたのに対し、BERTは双方向の学習アプローチを採用し、両方向からのコンテキストを同時に捉えることを可能にしました。BERTは、コンテキストに富んだ深みのあるテキスト表現を生成することで、テキスト分類、固有表現認識（NER）、感情分析といった言語理解タスクにおいて優れた性能を発揮します。

BERT の主な革新は次のとおりです。

マスク言語モデリング（MLM）：BERTは、シーケンス内の次の単語を予測するのではなく、文中のランダムなマスクを予測するように学習します。これにより、モデルは予測を行う際に、文全体の文脈（前後の単語を含む）を考慮する必要があります。例えば、「猫は[マスク]マットの上に座った」という文が与えられた場合、BERTは周囲の文脈に基づいて「柔らかい」と予測することを学習します。
次文予測（NSP）：MLMに加えて、BERTは次文予測と呼ばれる二次タスクでも学習されます。このタスクでは、文書内で2つの文が連続しているかどうかを予測することをモデルが学習します。これにより、BERTは質問応答や自然言語推論など、文間の関係性を理解する必要があるタスクにおいて優れた性能を発揮します。

BERTのインパクト：BERTの双方向学習により、GLUE（一般言語理解評価）やSQuAD（スタンフォード質問応答データセット）といったベンチマークにおいて画期的なパフォーマンスを達成しました。この成功は、文脈的埋め込み（周囲の単語に応じて動的に変化する表現）の重要性を実証し、次世代の事前学習済みモデルへの道を開きました。

3.2 GPT: 生成的事前学習と自己回帰テキスト生成 (2018–2020)

BERTは双方向の文脈理解を重視していますが、OpenAIのGPTシリーズは異なる戦略を採用し、自己回帰事前学習による生成能力の実現に重点を置いています。Transformerのデコーダーを活用することで、GPTモデルは自己回帰言語モデリングとテキスト生成において優れた性能を発揮します。

GPT (2018) GPT の最初のバージョンは 2018 年にリリースされました。これは、従来の言語モデルと同様に、シーケンス内の次の単語を予測するようにトレーニングされる大規模な Transformer モデルです。

一方向自己回帰学習：GPTは因果言語モデリングの目的を用いて学習され、モデルは以前のタグのみに基づいて次のタグを予測します。そのため、テキスト補完、要約、対話生成といった生成タスクに特に適しています。
下流タスクへの微調整：GPTの重要な貢献は、特定のタスクアーキテクチャを必要とせずに、特定の下流タスクに合わせて微調整できることです。分類ヘッドを追加したり、入力形式を変更したりするだけで、GPTは感情分析、機械翻訳、質問応答などのタスクに適応できます。

OpenAIは、オリジナルのGPTの成功を基に、15億のパラメータを持つはるかに大規模なモデルであるGPT-2（2019年）をリリースしました。GPT-2は優れたゼロショット能力を示し、タスク固有の微調整なしにタスクを実行できることを示しました。例えば、これらのタスク向けに明示的に訓練されていないにもかかわらず、一貫性のある記事を生成したり、質問に答えたり、さらには言語間のテキスト翻訳を行ったりすることができます。

GPT-3（2020年）のリリースは、言語モデルのスケーリングにおけるターニングポイントとなりました。驚異的な1750億個のパラメータ（175Bパラメータ）を備えたGPT-3は、大規模事前学習の限界を押し広げました。GPT-3は、推論中に最小限の例、あるいは全く例がないタスクを実行するという、驚異的な少数ショット学習およびゼロショット学習能力を示しました。GPT-3の生成能力は、クリエイティブライティング、プログラミング、複雑な推論タスクにまで拡張され、超大規模モデルの可能性を示しました。

3.3 GPTの影響と規模

GPTモデル、特にGPT-3の導入は、AIにおける変革の時代を象徴し、自己回帰アーキテクチャと生成能力の威力を実証しました。これらのモデルは、コンテンツ作成、会話エージェント、自動推論といったアプリケーションに新たな可能性をもたらし、幅広いタスクにおいて人間に近いパフォーマンスを実現しました。1,750億のパラメータを持つGPT-3は、スケールの大きな影響力を示し、膨大なデータセットで学習された大規模モデルがAI能力の新たなベンチマークを確立できることを示しています。

言語モデルのパフォーマンスは、モデルのサイズ、データセットのサイズ、およびトレーニング中の計算コストが増加するにつれて着実に向上します。(https://arxiv.org/pdf/2001.08361)

2018年から2020年にかけて、この分野は容赦ないスケールの追求によって牽引されました。研究者たちは、モデルのサイズが数百万から数十億のパラメータへと大きくなるにつれて、複雑なパターンを捉え、新しいタスクへの一般化能力が向上することを発見しました。このスケール効果は、以下の3つの主要な要因によって支えられています。

データセットのサイズ：大規模なモデルでは、事前学習に膨大なデータセットが必要になります。例えば、GPT-3はインターネット上のテキストの大規模なコーパスで学習されており、多様な言語パターンと知識領域を学習できます。
コンピューティングリソース: 強力なハードウェア (GPU や TPU など) と分散トレーニングテクニックを利用できるため、数十億のパラメータを持つモデルを効率的にトレーニングできます。
効率的なアーキテクチャ: 混合精度トレーニングや勾配チェックポイントなどの革新により計算コストが削減され、合理的な時間と予算内で大規模なトレーニングがより実用的になります。

このスケーリングの時代は、言語モデルのパフォーマンスを向上させただけでなく、最先端の結果を達成するためのスケール、データ、計算の重要性を強調し、将来の AI のブレークスルーの基盤を築きました。

4. トレーニング後の調整：AIと人間の価値観のギャップを埋める（2021～2022年）

GPT-3（1,750億のパラメータを持つLLM）は、人間の文章とほとんど区別がつかないテキストを生成する能力があり、AIが生成したコンテンツの信憑性と信頼性について大きな懸念を引き起こしています。

この成果はAI開発における重要なマイルストーンとなる一方で、これらのモデルが人間の価値観、嗜好、そして期待と合致していることを保証するという重大な課題も浮き彫りにしています。大きな問題の一つは「幻覚」です。LLMは事実に反する、意味をなさない、あるいは入力プロンプトと矛盾するコンテンツを生成するため、「全く意味のない」印象を与えます。

これらの課題に対処するため、2021年と2022年の研究者は、人間の意図との一貫性の向上と錯覚の軽減に重点を置き、教師あり微調整（SFT）や人間のフィードバックに基づく強化学習（RLHF）などの技術の開発につながりました。

4.1 教師あり微調整（SFT）

GPT-3のアライメント機能を強化するための最初のステップは、RLHFフレームワークの基本コンポーネントである教師ありファインチューニング（SFT）です。SFTは命令チューニングに似ており、高品質な入力と出力のペアまたはデモでモデルをトレーニングし、指示に従って目的の出力を生成する方法を学習させます。

これらのデモンストレーションは、予想される動作と結果を反映するように慎重に設計されており、モデルが正確でコンテキストに適した応答を生成することを学習します。

ただし、SFT 自体には制限があります。

スケーラビリティ: 人間のデモンストレーションを収集することは、特に複雑なタスクやニッチなタスクの場合、多大な労力と時間がかかります。
パフォーマンス: 人間の行動を単に模倣するだけでは、モデルが人間のパフォーマンスを上回ったり、未知のタスクでうまく一般化したりすることは保証されません。

これらの課題を克服するには、よりスケーラブルで効率的なアプローチが必要であり、それが次のステップである「人間のフィードバックからの強化学習 (RLHF)」への道を開きます。

4.2 人間のフィードバックに基づく強化学習（RLHF）

OpenAIが2022年に導入したRLHFは、SFTのスケーラビリティとパフォーマンスの限界に対処します。人間が完全な出力を記述する必要があるSFTとは異なり、RLHFでは複数のモデルによって生成された出力を品質に基づいてランク付けします。このアプローチにより、より効率的なデータ収集とアノテーションが可能になり、スケーラビリティが大幅に向上します。

RLHF プロセスには、次の 2 つの主要なフェーズが含まれます。

報酬モデルのトレーニング：人間のアノテーターがモデルによって生成された複数の出力をランク付けし、選好データセットを作成します。このデータは、人間のフィードバックに基づいて出力の品質を評価することを学習する報酬モデルのトレーニングに使用されます。
強化学習を用いたLLMの微調整：報酬モデルは、近似ポリシー最適化（PPO）（強化学習アルゴリズム）を用いてLLMの微調整を行います。反復的な更新を通じて、モデルは人間の好みや期待により合致する出力を生成するように学習します。

SFTとRLHFを組み合わせたこの2段階のプロセスにより、モデルは指示に正確に従うだけでなく、新しいタスクに適応し、継続的に改善することができます。RLHFは、人間からのフィードバックをトレーニングループに統合することで、信頼性の高い人間のような出力を生成するモデルの能力を大幅に向上させ、AIのアライメントとパフォーマンスの新たな基準を確立します。

4.3 ChatGPT：会話型AIの進化（2022）

2022年3月、OpenAIはGPT-3.5をリリースしました。これはGPT-3のアーキテクチャは同じですが、トレーニングと微調整が改善されたアップグレードです。主な機能強化には、指示へのより適切な対応を可能にするデータの改善、錯覚の軽減（完全に排除されたわけではありません）、そしてより適切で文脈を考慮した応答を生成するための、より多様で最新のデータセットが含まれます。

ChatGPTは、GPT-3.5とInstructGPTをベースとし、2022年11月にOpenAIによってリリースされました。これは、自然なマルチターン対話向けに特別に調整された画期的な会話型AIモデルです。ChatGPTの主な改良点は以下の通りです。

対話フォーカスの微調整: 大規模な対話データセットでトレーニングされた ChatGPT は、対話のコンテキストと一貫性を維持することに優れており、より魅力的で人間のような対話を可能にします。
RLHF：RLHFを統合することで、ChatGPTは有用なだけでなく、誠実で無害な応答を生成することを学習しました。人間のトレーナーが応答の質に基づいてランク付けすることで、モデルのパフォーマンスを徐々に向上させることができました。

ChatGPT のリリースは、会話型 AI が人間とコンピューターのインタラクションを変える可能性を示しているため、AI における極めて重要な瞬間であり、「ChatGPT の瞬間」と呼ばれることがよくあります。

5. マルチモーダルモデル：テキスト、画像、その他の情報を接続する（2023～2024年）

2023年から2024年にかけて、GPT-4VやGPT-4oといったマルチモーダル大規模言語モデル（MLLM）は、テキスト、画像、音声、動画を統合システムに統合することでAIを再定義しました。これらのモデルは従来の言語モデルの機能を拡張し、より豊かなインタラクションとより複雑な問題解決を可能にしました。

5.1 GPT-4V: 視覚と言語の融合

2023年、OpenAIはGPT-4の言語機能と高度なコンピュータービジョンを組み合わせたGPT-4Vをリリースしました。画像の解釈、キャプションの生成、視覚的な質問への回答、視覚データ内の文脈関係の推論が可能です。クロスモーダルアテンションメカニズムにより、テキストデータと画像データのシームレスな統合が可能になり、医療（例：医用画像の分析）や教育（例：インタラクティブな学習ツール）などの分野で価値を発揮します。

5.2 GPT-4o: フルモーダルフロンティア

2024年初頭までに、GPT-4oは音声と動画の入力を統合することで、マルチモーダルコンピューティングをさらに進化させました。統一された表現空間で動作し、音声の書き起こし、動画の説明、音声へのテキスト合成などが可能になります。リアルタイムのインタラクションと、マルチメディアコンテンツの生成といった創造性の向上により、エンターテインメントやデザインといった業界にとって汎用性の高いツールとなっています。

動画リンク: https://youtu.be/vgYi3Wr7v_g

現実世界への影響：MLLMは、医療（診断）、教育（インタラクティブ学習）、クリエイティブ産業（マルチメディア制作）といった分野に革命をもたらしています。多様なモダリティに対応できる能力は、イノベーションの新たな可能性を切り開きます。

6. オープンソースおよびオープンウェイトモデル（2023～2024年）

2023年から2024年にかけて、オープンソースおよびオープンウェイトの AI モデルが勢いを増し、高度な AI テクノロジーへのアクセスが民主化されました。

• オープンウェイトLLM：オープンウェイトモデルは、最小限の制限で公開可能なモデルウェイトを提供します。これにより、アーキテクチャとトレーニングデータは非公開のまま、微調整と適応が可能になります。迅速な導入に適しています。例：Meta AIのLLaMAシリーズ、Mistral AIのMistral 7B/Mixtral 8x7B。

オープンソースモデルでは、基盤となるコードと構造が公開されています。これにより、モデルの包括的な理解、修正、カスタマイズが可能になり、イノベーションと適応性が促進されます。例：OPT、BERT。

コミュニティ主導のイノベーション: Hugging Face などのプラットフォームはコラボレーションを促進し、LoRA や PEFT などのツールは効率的な微調整を可能にします。

コミュニティは、倫理的なAI実践を最優先にしながら、医療、法律、クリエイティブ分野に特化したモデルを開発してきました。オープンソースコミュニティは、最先端のアライメント技術の出現により、現在、非常にエキサイティングな段階にあります。この進歩により、優れたオープンウェイトモデルがますます多くリリースされるようになりました。その結果、クローズドソースモデルとオープンウェイトモデル間のギャップは着実に縮まっています。LLaMA3.1–405Bモデルは、歴史的に見て初めて、クローズドソースモデルとのギャップを埋めるモデルとなりました。

7. 推論モデル：「システム1」から「システム2」思考への移行（2024年）

2024年、AI開発は強化された「推論」に重点を置くようになり、単純なパターン認識からより論理的で構造化された思考プロセスへと移行しました。この変化は、認知心理学における二重過程理論の影響を受けており、この理論では「システム1」（高速で直感的）と「システム2」（低速で分析的）の思考を区別しています。GPT-3やGPT-4といった初期のモデルは、テキスト生成などの「システム1」のタスクでは優れた性能を発揮しましたが、深い推論や問題解決能力には遅れをとっていました。

「システム1」と「システム2」の思考

7.1 OpenAI-o1：推論能力の大きな飛躍（2024年）

2024年9月12日、OpenAIのo1-previewは、人工知能（AI）の能力、特に数学やプログラミングといった複雑な推論タスクの解決において、飛躍的な進歩を示しました。従来のLLMとは異なり、この推論モデルは「Long Chain of Reasoning（CoT）」を採用しています。これは、モデルが問題を分解し、自身の解決策を批判し、代替案を探索することで「考える」ことを可能にする内部推論軌跡です。これらのCoTはユーザーからは隠されており、ユーザーが目にするのは要約出力です。

推論モデルの主な特徴は次のとおりです。

Long CoT: モデルが複雑な問題を小さな部分に分割し、その解決策を批判的に評価し、検索アルゴリズムと同様に複数のアプローチを探索できるようにします。
推論時間の計算制御: より複雑な問題の場合は、より長い CoT を生成できます。一方、より単純な問題の場合は、計算リソースを節約するためにより短い CoT が使用されます。
強化された推論能力：o1-previewのような初期推論モデルは、特定の分野では標準的なLLMほどの能力を発揮できないかもしれませんが、推論タスクにおいてはそれらを大幅に上回り、多くの場合、人間の専門家に匹敵します。例えば、o1-previewは数学（AIME 2024）、プログラミング（CodeForces）、そして博士レベルの科学的問題においてGPT-4oを上回りました。

OpenAI-o1:

2024年12月5日、OpenAIのo1モデルのフルバージョンはパフォーマンスをさらに向上させ、米国AIME 2024数学試験で上位500位以内にランクインし、GPT-4o（AIME問題の74%～93%を解いたのに対し、GPT-4oはわずか12%）を大幅に上回りました。さらに、より安価で高速なo1-miniは、フルバージョンのo1のわずか20%のコストにもかかわらず、コーディングタスクで優れたパフォーマンスを発揮しました。

OpenAI-o3:

2025年1月31日、OpenAIはo1モデルの成功を基に、推論モデルファミリーにおける最新のブレークスルーとなるo3をリリースしました。o3モデル全体はまだリリースされていませんが、主要なベンチマークテストにおけるそのパフォーマンスは画期的であると評されています。

ARC-AGI: 精度率は 87.5% を達成し、人間の 85% を超え、GPT-4o の 5% をはるかに上回ります。
プログラミング: SWE-Bench Verified で 71.7% のスコアを獲得し、Codeforces で Elo 評価 2727 を獲得して、世界のトップ 200 の競争力のあるプログラマーにランクインしました。
数学: EpochAI の FrontierMath ベンチマークで 25.2% の精度を達成しました。これは、従来の最先端技術 (2.0%) と比べて大幅に向上しています。

OpenAI-o1 および OpenAI-o3 推論モデルのリリースは、人工知能の分野における大きな進歩を表しており、構造化された内部推論プロセスを通じて優れた問題解決能力を提供し、複雑な数学およびプログラミングタスクの新しいベンチマークを設定します。

8. 費用対効果の高い推論モデル：DeepSeek-R1（2025）

LLMは通常、学習と推論に非常に大規模な計算リソースを必要とします。GPT-4oやOpenAI-o1といった最先端のLLMモデルはクローズドソースであるため、最先端のAIの「普及」が制限されています。

8.1 ディープシーク-V3 (2024–12)

2024年12月下旬、費用対効果の高いオープン加重法務修士（LLM）としてDeepSeek-V3が登場し、AIアクセシビリティの新たな基準を確立しました。DeepSeek-V3は、OpenAIのChatGPTなどのトップソリューションに匹敵しますが、開発コストは大幅に低く、推定約560万ドルと、欧米企業の投資額のほんの一部に過ぎません。

このモデルは最大6,710億個のパラメータを含み、そのうち370億個がアクティブです。ハイブリッドエキスパート（MoE）アーキテクチャを採用し、モデルを数学やコーディングなどのタスクに特化したコンポーネントに分割することで、学習負荷を軽減しています。DeepSeek-V3は、キーバリューキャッシュ管理の改善などのエンジニアリング効率化を組み込み、ハイブリッドエキスパートアプローチをさらに進化させています。このモデルには、以下の3つの主要なアーキテクチャ上の特徴が導入されています。

マルチヘッド潜在的アテンション (MLA): アテンションキーと値を圧縮することでパフォーマンスを維持しながらメモリ使用量を削減し、回転位置埋め込み (RoPE) を通じて位置情報を強化します。
DeepSeek Expert Hybrid (DeepSeekMoE): フィードフォワードネットワーク (FFN) で共有エキスパートとルーティングエキスパートのハイブリッドを採用し、効率性を向上させてエキスパートの使用率のバランスをとります。
マルチトークン予測 (MTP): 特に複雑なシーケンスの生成を必要とするタスクにおいて、一貫性がありコンテキストに応じた出力を生成するモデルの機能を強化します。

DeepSeek-V3のリリースは世界的なハイテク株の売りを誘発し、1兆ドル規模の時価総額を危うくし、NVIDIAの株価は市場前取引で13%下落しました。DeepSeek-V3の価格は、出力タグ100万個あたり2.19ドルで、OpenAIの類似モデルの約30分の1のコストです。

8.2 DeepSeek-R1-ZeroとDeepSeek-R1（2025–01）

わずか 1 か月後の 2025 年 1 月下旬、DeepSeek は、優れた推論能力と極めて低いトレーニングコストを実証したモデルである DeepSeek-R1-Zero と DeepSeek-R1 をリリースし、再びセンセーションを巻き起こしました。

これらのモデルは、高度な強化学習技術を活用することで、最先端のAIに典型的に伴って発生する膨大な計算コストなしに、高性能な推論を実現できることを実証しています。この画期的な進歩は、DeepSeekが効率的かつスケーラブルなAIイノベーションにおけるリーダーとしての地位を確固たるものにするものです。

DeepSeek-R1-Zero：DeepSeek-V3をベースにした推論モデルで、強化学習（RL）によって推論能力を強化しています。教師あり微調整（SFT）段階を完全に排除し、DeepSeek-V3-Baseと呼ばれる事前学習済みモデルから直接開始します。
これは、グループ相対ポリシー最適化 (GRPO) と呼ばれるルールベースの強化学習アプローチを採用しており、事前定義されたルールに基づいて報酬を計算するため、トレーニングプロセスがよりシンプルでスケーラブルになります。

DeepSeek-R1：DeepSeek-R1-Zeroの限界（可読性の低さや言語の曖昧さなど）に対処するため、DeepSeek-R1は、限定的な高品質コールドスタートデータと追加の強化学習を組み込んでいます。モデルは、棄却サンプリングや2回目の強化学習を含む複数の微調整と強化学習フェーズを経て、一般化可能性と人間の嗜好との整合性を向上させます。
精錬されたDeepSeekモデル：DeepSeekは、15億から700億のパラメータを持つDeepSeek-R1の小型版を開発しました。これにより、低性能のハードウェアでも高度な推論機能を実現できます。これらのモデルは、オリジナルのDeepSeek-R1から生成された合成データを用いて微調整されており、推論タスクにおいて優れたパフォーマンスを発揮しながら、ローカル展開にも耐えうる軽量性を備えています。
DeepSeek蒸留DeepSeekモデル

DeepSeek-R1は、数学、コーディング、常識、文章作成など、幅広いベンチマークにおいて競争力を発揮しています。使用パターンにもよりますが、OpenAIのo1モデルなどの競合製品と比較して、20～50倍のコスト削減を実現し、大幅なコスト削減を実現します。

8.3 AI業界への影響

DeepSeek-R1の導入は、AI分野における既存の規範に挑戦し、高度な法学修士課程（LLM）の「民主化」を可能にし、より競争力のあるエコシステムを育みます。その手頃な価格とアクセスしやすさは、業界全体における採用とイノベーションの促進につながると期待されています。最近では、AWS、Microsoft、Google Cloudなどの大手クラウドサービスプロバイダーが自社プラットフォーム上でDeepSeek-R1を提供しています。小規模なクラウドプロバイダーやDeepSeekの親会社も、競争力のある価格で提供しています。

結論は

2017年のTransformerアーキテクチャの導入から2025年のDeepSeek-R1の開発に至るまで、大規模言語モデル（LLM）の進化は人工知能分野における革命的な章を刻んでいます。LLMの台頭は、以下の4つの画期的な成果によって特徴づけられています。

Transformers (2017): Transformer アーキテクチャの導入により、これまでにない精度と柔軟性で複雑なタスクを処理できる大規模で効率的なモデルを構築するための基盤が築かれました。
GPT-3 (2020): このモデルは、AI における規模の変革力を実証し、大規模なデータセットでトレーニングされた大規模なモデルが幅広いアプリケーションで人間に近いパフォーマンスを実現できることを証明し、AI が達成できる成果の新たなベンチマークを確立しました。
ChatGPT (2022): ChatGPTは会話型AIを主流にすることで、高度なAIを一般ユーザーにとってより身近でインタラクティブなものにしました。また、AIの普及が倫理的および社会的に及ぼす影響について、重要な議論を巻き起こしました。
DeepSeek-R1 (2025): コスト効率の飛躍的な向上を実現するDeepSeek-R1は、ハイブリッドエキスパートアーキテクチャ（MoE）と最適化アルゴリズムを採用し、多くの米国モデルと比較して運用コストを最大50分の1に削減します。オープンソースであることから、最先端のAIアプリケーションの導入を加速し、あらゆる業界のイノベーターを支援し、AIの未来を形作る上での拡張性、整合性、アクセシビリティの重要性を強調します。

LLMは、一般ユーザーと特定のニーズの両方に対応できる多機能・マルチモーダル推論システムへと徐々に進化しています。この進化は、画期的な技術革新と、拡張性、使いやすさ、そして費用対効果の大幅な向上によって推進されており、人工知能をより包括的かつ広範な方向へと推進しています。

オリジナルリンク:

https://medium.com/@lmpo/%E5%...

ぜひ高評価をお願いします！（いいね！3つ） ↓*

618ZXW

最新ビッグモデルの歴史を簡潔に解説！Transformer（2017年）からDeepSeek-R1（2025年）まで

1.1 大規模言語モデル（LLM）

1.2 自己回帰言語モデル

1.3 発電能力

2.1 Transformerアーキテクチャの主な革新

言語モデルへの影響

3.1 BERT: 双方向コンテキスト理解 (2018)

2018 年、Google は BERT (Bidirectional Encoder Representations from Transformers) を発表しました。これは、Transformer エンコーダーを使用し、幅広い NLP タスクにわたって最先端のパフォーマンスを実現した画期的なモデルです。

3.2 GPT: 生成的事前学習と自己回帰テキスト生成 (2018–2020)

3.3 GPTの影響と規模

4.1 教師あり微調整（SFT）

4.2 人間のフィードバックに基づく強化学習（RLHF）

RLHF プロセスには、次の 2 つの主要なフェーズが含まれます。

4.3 ChatGPT：会話型AIの進化（2022）

5.1 GPT-4V: 視覚と言語の融合

5.2 GPT-4o: フルモーダルフロンティア

7.1 OpenAI-o1：推論能力の大きな飛躍（2024年）

推論モデルの主な特徴は次のとおりです。

OpenAI-o1:

OpenAI-o3:

8.1 ディープシーク-V3 (2024–12)

8.2 DeepSeek-R1-ZeroとDeepSeek-R1（2025–01）

わずか 1 か月後の 2025 年 1 月下旬、DeepSeek は、優れた推論能力と極めて低いトレーニングコストを実証したモデルである DeepSeek-R1-Zero と DeepSeek-R1 をリリースし、再びセンセーションを巻き起こしました。

8.3 AI業界への影響

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

1.1 大規模言語モデル（LLM）

1.2 自己回帰言語モデル

1.3 発電能力

2.1 Transformerアーキテクチャの主な革新

言語モデルへの影響

3.1 BERT: 双方向コンテキスト理解 (2018)

2018 年、Google は BERT (Bidirectional Encoder Representations from Transformers) を発表しました。これは、Transformer エンコーダーを使用し、幅広い NLP タスクにわたって最先端のパフォーマンスを実現した画期的なモデルです。

3.2 GPT: 生成的事前学習と自己回帰テキスト生成 (2018–2020)

3.3 GPTの影響と規模

4.1 教師あり微調整（SFT）

4.2 人間のフィードバックに基づく強化学習（RLHF）

RLHF プロセスには、次の 2 つの主要なフェーズが含まれます。

4.3 ChatGPT：会話型AIの進化（2022）

5.1 GPT-4V: 視覚と言語の融合

5.2 GPT-4o: フルモーダルフロンティア

7.1 OpenAI-o1：推論能力の大きな飛躍（2024年）

推論モデルの主な特徴は次のとおりです。

OpenAI-o1:

OpenAI-o3:

8.1 ディープシーク-V3 (2024–12)

8.2 DeepSeek-R1-ZeroとDeepSeek-R1（2025–01）

わずか 1 か月後の 2025 年 1 月下旬、DeepSeek は、優れた推論能力と極めて低いトレーニング コストを実証したモデルである DeepSeek-R1-Zero と DeepSeek-R1 をリリースし、再びセンセーションを巻き起こしました。

8.3 AI業界への影響

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

わずか 1 か月後の 2025 年 1 月下旬、DeepSeek は、優れた推論能力と極めて低いトレーニングコストを実証したモデルである DeepSeek-R1-Zero と DeepSeek-R1 をリリースし、再びセンセーションを巻き起こしました。