|
LM Po データホエール Datawhaleのヒント 著者:LM Po、編集者:Datawhale 2025年初頭、我が国は画期的で費用対効果の高い大規模言語モデル(LLM)であるDeepSeek-R1を発表し、AI分野に大きな革命を引き起こしました。 この記事では、2017 年の革新的な Transformer アーキテクチャから始めて、LLM の開発をレビューします。 1. 言語モデルとは何ですか? 「言語モデル」とは、人間のような言語を処理、理解、生成するために設計された「人工知能システム」です。大規模なデータセットからパターンと構造を学習し、一貫性があり文脈に応じたテキストの生成を可能にし、翻訳、要約、チャットボット、コンテンツ生成などの分野で応用されています。 1.1 大規模言語モデル(LLM)「言語モデル」(LM)と「大規模言語モデル」(LLM)という用語はしばしば同じ意味で使われますが、実際には規模、アーキテクチャ、学習データ、そして機能に基づいて異なる概念を指します。LLMはLMのサブセットですが、規模がはるかに大きく、通常は数十億のパラメータを含みます(例:GPT-3は1750億のパラメータを持ちます)。この大規模なスケールにより、LLMは幅広いタスクにおいて優れた性能を発揮することができます。 「LLM」という用語は、BERTやGPT-1といったTransformerベースのモデルの登場により、2018年から2019年にかけて注目を集め始めました。しかし、この用語が広く使われるようになったのは、2020年にGPT-3がリリースされてからであり、これらの大規模モデルの大きな影響力と強力な機能が実証されました。 1.2 自己回帰言語モデルほとんどのLLMは「自己回帰」的に動作します。つまり、先行する「テキスト」に基づいて、次の「単語」(またはトークン/サブワード)の「確率分布」を予測します。この自己回帰特性により、モデルは複雑な言語パターンと依存関係を学習することができ、「テキスト生成」に長けています。数学において、LLMとは、前の入力テキスト(₁₂ₙ₋₁)に基づいて次の文字ₙの確率分布を予測する確率モデルです。これは次のように表すことができます。 ₙ₁₂ₙ₋₁ テキスト生成中、LLM はデコード アルゴリズムを使用して、次に出力する単語を決定します。 このプロセスでは、様々な戦略を採用できます。例えば、最も高い確率で次の文字を選択する(すなわち貪欲探索)、または予測された確率分布から文字をランダムにサンプリングする、といった戦略です。後者の手法では、毎回異なるテキストが生成される可能性があります。これは、人間の言語の多様性とランダム性に非常によく似た特性です。1.3 発電能力LLMの自己回帰的な性質により、事前に与えられた文脈に基づいて単語ごとにテキストを生成することができます。下図に示すように、「プロンプト」から始めて、モデルは次の単語を反復的に予測し、完全なシーケンスが生成されるか、事前に設定された停止条件が満たされるまで続けます。プロンプトに対する完全な応答を生成するために、LLMは単語ゲームのように、事前に選択されたトークンを入力に追加することで、応答を反復的に生成します。 LLM のテキスト生成は単語ゲームのようなものです。 この生成機能により、クリエイティブ ライティング、会話型 AI、自動化された顧客サポート システムなど、さまざまなアプリケーションの開発が促進されました。 2. トランスフォーマー レボリューション (2017) Vaswaniらは2017年に画期的な論文「Attention is All You Need(必要なのは注意だけ)」でTransformerアーキテクチャを発表し、NLPにおける画期的な転換点となりました。Transformerは、長距離依存性や逐次処理に課題を抱えていた、リカレントニューラルネットワーク(RNN)や長短期記憶ネットワーク(LSTM)といった従来のモデルの主要な限界に対処しました。 これらの問題により、RNNやLSTMを用いた効果的な言語モデルの実装は困難になります。なぜなら、これらの手法は計算効率が悪く、勾配消失などの問題が発生しやすいからです。一方、Transformerはこれらの障害を克服し、この分野に革命をもたらし、現代の大規模言語モデルの基礎を築きました。 自己注意とTransformerアーキテクチャ 2.1 Transformerアーキテクチャの主な革新自己注意:ラベルを順次処理し、長距離依存性に苦労するRNNとは異なり、Transformerは自己注意を用いて各ラベルの重要度を他のラベルと比較して重み付けします。これにより、モデルは入力の関連部分に動的に焦点を当てることができます。数学的には: ここで、Q、K、Vはクエリ、キー、値の行列であり、dₖはキーの次元です。自己注意は並列計算を可能にし、学習を高速化すると同時に、大域的な文脈理解を向上させます。 マルチヘッドアテンション:複数のアテンションヘッドが並列に動作し、それぞれが入力の異なる側面に焦点を当てます。それらの出力は連結・変換され、より豊かな文脈表現を実現します。 フィードフォワードネットワーク(FFN)とレイヤーの正規化:Transformerの各レイヤーには、各ラベルに適用されるフィードフォワードネットワーク、レイヤーの正規化、残差接続が含まれます。これらにより、学習が安定化され、より深いアーキテクチャがサポートされます。 位置エンコーディング: Transformer 自体はトークンの順序をエンコードしないため、単語の順序を表すために位置エンコーディング (位置と頻度の正弦関数) が追加され、並列化を犠牲にすることなく順序情報が保持されます。 言語モデルへの影響
Transformer アーキテクチャの導入により、これまでにない精度と柔軟性で複雑なタスクを処理できる大規模で効率的な言語モデルを構築するための基盤が築かれました。 3. 事前学習済みTransformerモデルの時代(2018~2020年) 2017年のTransformerアーキテクチャの導入は、NLPにおける新時代の幕開けとなりました。この時代は、事前学習済みモデルの台頭と、かつてないほどのスケーリングへの注力によって特徴づけられました。この時代には、BERTとGPTという2つの影響力のあるモデルファミリーが登場し、大規模な事前学習とファインチューニングのパラダイムの威力を実証しました。 3.1 BERT: 双方向コンテキスト理解 (2018)2018 年、Google は BERT (Bidirectional Encoder Representations from Transformers) を発表しました。これは、Transformer エンコーダーを使用し、幅広い NLP タスクにわたって最先端のパフォーマンスを実現した画期的なモデルです。従来のモデルがテキストを一方向(左から右、または右から左)に処理していたのに対し、BERTは双方向の学習アプローチを採用し、両方向からのコンテキストを同時に捉えることを可能にしました。BERTは、コンテキストに富んだ深みのあるテキスト表現を生成することで、テキスト分類、固有表現認識(NER)、感情分析といった言語理解タスクにおいて優れた性能を発揮します。BERT の主な革新は次のとおりです。
BERTのインパクト:BERTの双方向学習により、GLUE(一般言語理解評価)やSQuAD(スタンフォード質問応答データセット)といったベンチマークにおいて画期的なパフォーマンスを達成しました。この成功は、文脈的埋め込み(周囲の単語に応じて動的に変化する表現)の重要性を実証し、次世代の事前学習済みモデルへの道を開きました。 3.2 GPT: 生成的事前学習と自己回帰テキスト生成 (2018–2020)BERTは双方向の文脈理解を重視していますが、OpenAIのGPTシリーズは異なる戦略を採用し、自己回帰事前学習による生成能力の実現に重点を置いています。Transformerのデコーダーを活用することで、GPTモデルは自己回帰言語モデリングとテキスト生成において優れた性能を発揮します。GPT (2018) GPT の最初のバージョンは 2018 年にリリースされました。これは、従来の言語モデルと同様に、シーケンス内の次の単語を予測するようにトレーニングされる大規模な Transformer モデルです。
OpenAIは、オリジナルのGPTの成功を基に、15億のパラメータを持つはるかに大規模なモデルであるGPT-2(2019年)をリリースしました。GPT-2は優れたゼロショット能力を示し、タスク固有の微調整なしにタスクを実行できることを示しました。例えば、これらのタスク向けに明示的に訓練されていないにもかかわらず、一貫性のある記事を生成したり、質問に答えたり、さらには言語間のテキスト翻訳を行ったりすることができます。 GPT-3(2020年)のリリースは、言語モデルのスケーリングにおけるターニングポイントとなりました。驚異的な1750億個のパラメータ(175Bパラメータ)を備えたGPT-3は、大規模事前学習の限界を押し広げました。GPT-3は、推論中に最小限の例、あるいは全く例がないタスクを実行するという、驚異的な少数ショット学習およびゼロショット学習能力を示しました。GPT-3の生成能力は、クリエイティブライティング、プログラミング、複雑な推論タスクにまで拡張され、超大規模モデルの可能性を示しました。 3.3 GPTの影響と規模GPTモデル、特にGPT-3の導入は、AIにおける変革の時代を象徴し、自己回帰アーキテクチャと生成能力の威力を実証しました。これらのモデルは、コンテンツ作成、会話エージェント、自動推論といったアプリケーションに新たな可能性をもたらし、幅広いタスクにおいて人間に近いパフォーマンスを実現しました。1,750億のパラメータを持つGPT-3は、スケールの大きな影響力を示し、膨大なデータセットで学習された大規模モデルがAI能力の新たなベンチマークを確立できることを示しています。 言語モデルのパフォーマンスは、モデルのサイズ、データセットのサイズ、およびトレーニング中の計算コストが増加するにつれて着実に向上します。(https://arxiv.org/pdf/2001.08361) 2018年から2020年にかけて、この分野は容赦ないスケールの追求によって牽引されました。研究者たちは、モデルのサイズが数百万から数十億のパラメータへと大きくなるにつれて、複雑なパターンを捉え、新しいタスクへの一般化能力が向上することを発見しました。このスケール効果は、以下の3つの主要な要因によって支えられています。
このスケーリングの時代は、言語モデルのパフォーマンスを向上させただけでなく、最先端の結果を達成するためのスケール、データ、計算の重要性を強調し、将来の AI のブレークスルーの基盤を築きました。 4. トレーニング後の調整:AIと人間の価値観のギャップを埋める(2021~2022年) GPT-3(1,750億のパラメータを持つLLM)は、人間の文章とほとんど区別がつかないテキストを生成する能力があり、AIが生成したコンテンツの信憑性と信頼性について大きな懸念を引き起こしています。 この成果はAI開発における重要なマイルストーンとなる一方で、これらのモデルが人間の価値観、嗜好、そして期待と合致していることを保証するという重大な課題も浮き彫りにしています。大きな問題の一つは「幻覚」です。LLMは事実に反する、意味をなさない、あるいは入力プロンプトと矛盾するコンテンツを生成するため、「全く意味のない」印象を与えます。 これらの課題に対処するため、2021年と2022年の研究者は、人間の意図との一貫性の向上と錯覚の軽減に重点を置き、教師あり微調整(SFT)や人間のフィードバックに基づく強化学習(RLHF)などの技術の開発につながりました。 4.1 教師あり微調整(SFT)GPT-3のアライメント機能を強化するための最初のステップは、RLHFフレームワークの基本コンポーネントである教師ありファインチューニング(SFT)です。SFTは命令チューニングに似ており、高品質な入力と出力のペアまたはデモでモデルをトレーニングし、指示に従って目的の出力を生成する方法を学習させます。これらのデモンストレーションは、予想される動作と結果を反映するように慎重に設計されており、モデルが正確でコンテキストに適した応答を生成することを学習します。 ただし、SFT 自体には制限があります。
これらの課題を克服するには、よりスケーラブルで効率的なアプローチが必要であり、それが次のステップである「人間のフィードバックからの強化学習 (RLHF)」への道を開きます。 4.2 人間のフィードバックに基づく強化学習(RLHF)OpenAIが2022年に導入したRLHFは、SFTのスケーラビリティとパフォーマンスの限界に対処します。人間が完全な出力を記述する必要があるSFTとは異なり、RLHFでは複数のモデルによって生成された出力を品質に基づいてランク付けします。このアプローチにより、より効率的なデータ収集とアノテーションが可能になり、スケーラビリティが大幅に向上します。RLHF プロセスには、次の 2 つの主要なフェーズが含まれます。
SFTとRLHFを組み合わせたこの2段階のプロセスにより、モデルは指示に正確に従うだけでなく、新しいタスクに適応し、継続的に改善することができます。RLHFは、人間からのフィードバックをトレーニングループに統合することで、信頼性の高い人間のような出力を生成するモデルの能力を大幅に向上させ、AIのアライメントとパフォーマンスの新たな基準を確立します。 4.3 ChatGPT:会話型AIの進化(2022)2022年3月、OpenAIはGPT-3.5をリリースしました。これはGPT-3のアーキテクチャは同じですが、トレーニングと微調整が改善されたアップグレードです。主な機能強化には、指示へのより適切な対応を可能にするデータの改善、錯覚の軽減(完全に排除されたわけではありません)、そしてより適切で文脈を考慮した応答を生成するための、より多様で最新のデータセットが含まれます。ChatGPTは、GPT-3.5とInstructGPTをベースとし、2022年11月にOpenAIによってリリースされました。これは、自然なマルチターン対話向けに特別に調整された画期的な会話型AIモデルです。ChatGPTの主な改良点は以下の通りです。
ChatGPT のリリースは、会話型 AI が人間とコンピューターのインタラクションを変える可能性を示しているため、AI における極めて重要な瞬間であり、「ChatGPT の瞬間」と呼ばれることがよくあります。 5. マルチモーダルモデル:テキスト、画像、その他の情報を接続する(2023~2024年) 2023年から2024年にかけて、GPT-4VやGPT-4oといったマルチモーダル大規模言語モデル(MLLM)は、テキスト、画像、音声、動画を統合システムに統合することでAIを再定義しました。これらのモデルは従来の言語モデルの機能を拡張し、より豊かなインタラクションとより複雑な問題解決を可能にしました。 5.1 GPT-4V: 視覚と言語の融合2023年、OpenAIはGPT-4の言語機能と高度なコンピュータービジョンを組み合わせたGPT-4Vをリリースしました。画像の解釈、キャプションの生成、視覚的な質問への回答、視覚データ内の文脈関係の推論が可能です。クロスモーダルアテンションメカニズムにより、テキストデータと画像データのシームレスな統合が可能になり、医療(例:医用画像の分析)や教育(例:インタラクティブな学習ツール)などの分野で価値を発揮します。 5.2 GPT-4o: フルモーダルフロンティア2024年初頭までに、GPT-4oは音声と動画の入力を統合することで、マルチモーダルコンピューティングをさらに進化させました。統一された表現空間で動作し、音声の書き起こし、動画の説明、音声へのテキスト合成などが可能になります。リアルタイムのインタラクションと、マルチメディアコンテンツの生成といった創造性の向上により、エンターテインメントやデザインといった業界にとって汎用性の高いツールとなっています。 動画リンク: https://youtu.be/vgYi3Wr7v_g 現実世界への影響:MLLMは、医療(診断)、教育(インタラクティブ学習)、クリエイティブ産業(マルチメディア制作)といった分野に革命をもたらしています。多様なモダリティに対応できる能力は、イノベーションの新たな可能性を切り開きます。 6. オープンソースおよびオープンウェイトモデル(2023~2024年) 2023年から2024年にかけて、オープンソースおよびオープンウェイトの AI モデルが勢いを増し、高度な AI テクノロジーへのアクセスが民主化されました。 • オープンウェイトLLM:オープンウェイトモデルは、最小限の制限で公開可能なモデルウェイトを提供します。これにより、アーキテクチャとトレーニングデータは非公開のまま、微調整と適応が可能になります。迅速な導入に適しています。例:Meta AIのLLaMAシリーズ、Mistral AIのMistral 7B/Mixtral 8x7B。 オープンソースモデルでは、基盤となるコードと構造が公開されています。これにより、モデルの包括的な理解、修正、カスタマイズが可能になり、イノベーションと適応性が促進されます。例:OPT、BERT。 コミュニティ主導のイノベーション: Hugging Face などのプラットフォームはコラボレーションを促進し、LoRA や PEFT などのツールは効率的な微調整を可能にします。 コミュニティは、倫理的なAI実践を最優先にしながら、医療、法律、クリエイティブ分野に特化したモデルを開発してきました。オープンソースコミュニティは、最先端のアライメント技術の出現により、現在、非常にエキサイティングな段階にあります。この進歩により、優れたオープンウェイトモデルがますます多くリリースされるようになりました。その結果、クローズドソースモデルとオープンウェイトモデル間のギャップは着実に縮まっています。LLaMA3.1–405Bモデルは、歴史的に見て初めて、クローズドソースモデルとのギャップを埋めるモデルとなりました。 7. 推論モデル:「システム1」から「システム2」思考への移行(2024年) 2024年、AI開発は強化された「推論」に重点を置くようになり、単純なパターン認識からより論理的で構造化された思考プロセスへと移行しました。この変化は、認知心理学における二重過程理論の影響を受けており、この理論では「システム1」(高速で直感的)と「システム2」(低速で分析的)の思考を区別しています。GPT-3やGPT-4といった初期のモデルは、テキスト生成などの「システム1」のタスクでは優れた性能を発揮しましたが、深い推論や問題解決能力には遅れをとっていました。 「システム1」と「システム2」の思考 7.1 OpenAI-o1:推論能力の大きな飛躍(2024年)2024年9月12日、OpenAIのo1-previewは、人工知能(AI)の能力、特に数学やプログラミングといった複雑な推論タスクの解決において、飛躍的な進歩を示しました。従来のLLMとは異なり、この推論モデルは「Long Chain of Reasoning(CoT)」を採用しています。これは、モデルが問題を分解し、自身の解決策を批判し、代替案を探索することで「考える」ことを可能にする内部推論軌跡です。これらのCoTはユーザーからは隠されており、ユーザーが目にするのは要約出力です。 推論モデルの主な特徴は次のとおりです。
OpenAI-o1:2024年12月5日、OpenAIのo1モデルのフルバージョンはパフォーマンスをさらに向上させ、米国AIME 2024数学試験で上位500位以内にランクインし、GPT-4o(AIME問題の74%~93%を解いたのに対し、GPT-4oはわずか12%)を大幅に上回りました。さらに、より安価で高速なo1-miniは、フルバージョンのo1のわずか20%のコストにもかかわらず、コーディングタスクで優れたパフォーマンスを発揮しました。 OpenAI-o3:2025年1月31日、OpenAIはo1モデルの成功を基に、推論モデルファミリーにおける最新のブレークスルーとなるo3をリリースしました。o3モデル全体はまだリリースされていませんが、主要なベンチマークテストにおけるそのパフォーマンスは画期的であると評されています。
OpenAI-o1 および OpenAI-o3 推論モデルのリリースは、人工知能の分野における大きな進歩を表しており、構造化された内部推論プロセスを通じて優れた問題解決能力を提供し、複雑な数学およびプログラミングタスクの新しいベンチマークを設定します。 8. 費用対効果の高い推論モデル:DeepSeek-R1(2025) LLMは通常、学習と推論に非常に大規模な計算リソースを必要とします。GPT-4oやOpenAI-o1といった最先端のLLMモデルはクローズドソースであるため、最先端のAIの「普及」が制限されています。 8.1 ディープシーク-V3 (2024–12)2024年12月下旬、費用対効果の高いオープン加重法務修士(LLM)としてDeepSeek-V3が登場し、AIアクセシビリティの新たな基準を確立しました。DeepSeek-V3は、OpenAIのChatGPTなどのトップソリューションに匹敵しますが、開発コストは大幅に低く、推定約560万ドルと、欧米企業の投資額のほんの一部に過ぎません。このモデルは最大6,710億個のパラメータを含み、そのうち370億個がアクティブです。ハイブリッドエキスパート(MoE)アーキテクチャを採用し、モデルを数学やコーディングなどのタスクに特化したコンポーネントに分割することで、学習負荷を軽減しています。DeepSeek-V3は、キーバリューキャッシュ管理の改善などのエンジニアリング効率化を組み込み、ハイブリッドエキスパートアプローチをさらに進化させています。このモデルには、以下の3つの主要なアーキテクチャ上の特徴が導入されています。
DeepSeek-V3のリリースは世界的なハイテク株の売りを誘発し、1兆ドル規模の時価総額を危うくし、NVIDIAの株価は市場前取引で13%下落しました。DeepSeek-V3の価格は、出力タグ100万個あたり2.19ドルで、OpenAIの類似モデルの約30分の1のコストです。 8.2 DeepSeek-R1-ZeroとDeepSeek-R1(2025–01)わずか 1 か月後の 2025 年 1 月下旬、DeepSeek は、優れた推論能力と極めて低いトレーニング コストを実証したモデルである DeepSeek-R1-Zero と DeepSeek-R1 をリリースし、再びセンセーションを巻き起こしました。これらのモデルは、高度な強化学習技術を活用することで、最先端のAIに典型的に伴って発生する膨大な計算コストなしに、高性能な推論を実現できることを実証しています。この画期的な進歩は、DeepSeekが効率的かつスケーラブルなAIイノベーションにおけるリーダーとしての地位を確固たるものにするものです。
DeepSeek-R1は、数学、コーディング、常識、文章作成など、幅広いベンチマークにおいて競争力を発揮しています。使用パターンにもよりますが、OpenAIのo1モデルなどの競合製品と比較して、20~50倍のコスト削減を実現し、大幅なコスト削減を実現します。 8.3 AI業界への影響DeepSeek-R1の導入は、AI分野における既存の規範に挑戦し、高度な法学修士課程(LLM)の「民主化」を可能にし、より競争力のあるエコシステムを育みます。その手頃な価格とアクセスしやすさは、業界全体における採用とイノベーションの促進につながると期待されています。最近では、AWS、Microsoft、Google Cloudなどの大手クラウドサービスプロバイダーが自社プラットフォーム上でDeepSeek-R1を提供しています。小規模なクラウドプロバイダーやDeepSeekの親会社も、競争力のある価格で提供しています。結論は 2017年のTransformerアーキテクチャの導入から2025年のDeepSeek-R1の開発に至るまで、大規模言語モデル(LLM)の進化は人工知能分野における革命的な章を刻んでいます。LLMの台頭は、以下の4つの画期的な成果によって特徴づけられています。
LLMは、一般ユーザーと特定のニーズの両方に対応できる多機能・マルチモーダル推論システムへと徐々に進化しています。この進化は、画期的な技術革新と、拡張性、使いやすさ、そして費用対効果の大幅な向上によって推進されており、人工知能をより包括的かつ広範な方向へと推進しています。 オリジナルリンク: https://medium.com/@lmpo/%E5%... ぜひ高評価をお願いします!(いいね!3つ) ↓* |
最新ビッグモデルの歴史を簡潔に解説!Transformer(2017年)からDeepSeek-R1(2025年)まで
関連するおすすめ記事
-
ACL 2024に選出されました!Wang Xiang率いるUSTCチームは、タンパク質データとテキスト情報のクロスモーダル解釈を可能にするタンパク質テキスト生成フレームワークProtT3を提案しています。
-
L4トラックのダークホース、内モンゴルが成果を上げる:1年以内に車両200台を発売、年間売上高3億元、資金調達10億元。
-
ドイツ・ミュンヘンに研究開発センターを建設中!中国のスマートビークル、ノルマンディー上陸作戦開始。
-
自動車業界最大の AI「ダークホース」である Geely 社が独自に開発した大規模音声モデルは、最先端 (SOTA) システムを 10% 上回り、トップに立っています。
-
Li Mu: ビジネスの世界での 1 年は、現実世界での 3 年と同じくらいの気分です!
-
新しいSOTAが登場しました。国産の9Bモデルは4o-miniを複数のスコアで上回り、世界展開する中国のeコマース企業はすでにこれを使用しています。