618ZXW

エキスパートKapacina氏による強化学習に関するDeepSeek R1チュートリアルが話題沸騰中!大規模モデルの内部メカニズムを解説した最新動画は、技術的な知識がなくても理解できることを証明し、爆発的な人気を博しています。

教育にフルタイムで取り組むと発表したAIの第一人者アンドレイ・カルパティ氏が、新年最初の授業を行った。

ChatGPTのような大規模言語モデルの内部動作メカニズムを詳細に分析する3時間半のビデオコースが公開されました。このコースでは、モデル開発の完全な学習プロセス、実際のアプリケーションでモデルを最も効果的に活用する方法、そしてAI開発の将来の動向について解説します。

Kapaci 氏は、これは一般向けのものであり、技術的な背景を持たない人でも理解できると強調しました。

彼はビデオの中で、GPT-2 や Llama 3.1 などの数多くの具体的な例を使用して、大規模モデルの原理を明確かつ簡潔に説明しています。

非常に人気のあるDeepSeekも含まれており、大きな焦点となっています。

カパチコースの価値は否定できない。公開されるとすぐにネットユーザーからのコメントが殺到し、多くの人が徹夜で視聴した。

ネットユーザーたちは、その後の3時間半があっという間に過ぎたとコメントした。

ご存知のとおり、Karpathy が新しいビデオを公開すると、1 日が素晴らしいものになります。すべてのビデオが金鉱なのです!

機械学習エンジニアのロハン・ポール氏も、ChatGPTの内部の仕組みについて最も簡潔かつ明確に説明されているとコメントしました。

早速、要点をお伝えします。動画のフルバージョンへのリンクは記事の最後にあります。

要点を一目で

ChatGPT のようなツールを使用したことがある人は、次のような疑問を持つかもしれません。

このテキストボックスの裏には何があるのでしょうか? 何でも入力してEnterキーを押すことはできますが、一体何を入力すればいいのでしょうか? 生成された単語は何を意味するのでしょうか? これらはどのように機能するのでしょうか? 実際には何とコミュニケーションを取っているのでしょうか?

カパチ氏はビデオの中でこれらの質問に詳しく答えた。

彼はまず、そのような LLM を構築する方法を説明し、その後、すべての段階について詳しく説明しました。

  • 事前トレーニング:データ、単語分割、Transformer ニューラル ネットワークの入出力と内部メカニズム、推論、GPT-2 トレーニング例、Llama 3.1 基本推論例。
  • 監督者の微調整:対話データ、「LLM 心理学」: 錯覚、ツールの使用、知識/作業記憶、自己認識、モデルには考えるためのトークンが必要、スペル、不均一な知能。
  • 強化学習:練習は完璧をつくります、DeepSeek-R1、AlphaGo、人間のフィードバックに基づく強化学習 (RLHF)。

事前トレーニング

最初の段階は事前トレーニング段階で、モデルに豊富な知識を装備します。

事前学習の最初のステップは、インターネットデータのダウンロードと処理です。FineWebなどのインターネット上で公開されているリソースから、大量かつ多様な高品質のテキストと文書を取得することが目標です。

2 番目のステップはテキスト抽出です。

Web クローラーは、Web ページの生の HTML コードを取得します。この生の HTML コードは、Web ページのテキストを抽出し、ナビゲーションや無関係なコンテンツを削除するためにフィルタリングおよび処理する必要があります。

言語フィルタリングも必要です。例えば、英語コンテンツが65%以上含まれるウェブページのみを残す必要があります。各企業は、それぞれのニーズに基づいてどの言語を残すかを決定します。スペイン語をすべてフィルタリングすると、モデルはスペイン語で良好なパフォーマンスを発揮しない可能性があります。

その後、重複除去や個人識別情報の削除などのさらなるフィルタリング手順が実行され、最終的に大規模なテキストデータが得られ、それがトレーニング セットに組み込まれます。

次のステップは、このデータを使ってニューラルネットワークを学習させることです。テキストをニューラルネットワークに入力する前に、テキストを1次元の記号列に変換する必要があります。

バイトペアエンコーディング(BPE)アルゴリズムは、共通バイトを新しいシンボルに組み合わせることで、シーケンス長を短縮し、シンボル語彙を増やします。トークン化とは、テキストをシンボルのシーケンスに変換するプロセスです。入力テキストが異なると、トークン化ルールに従って異なるシンボルシーケンスが生成されます。

ニューラルネットワークを学習させる際、データセットからランダムにトークンが選択され、入力としてネットワークが次のトークンを予測します。ニューラルネットワークの出力は、次のトークンの確率分布です。

トレーニング プロセス中にネットワーク パラメータを継続的に更新することにより、予測結果は実際のデータの統計パターンと一致するようになります。

ニューラルネットワークは内部的には複雑な数式です。入力トークン列はネットワークパラメータと混合され、複数の変換を経て予測結果を出力します。Transformerなどの最新のニューラルネットワークアーキテクチャは、多数のパラメータと複雑な内部構造を備えていますが、本質的にはパラメータを最適化して予測結果をトレーニングデータと一致させています。

学習プロセスには、高性能GPUクラスターを活用した強力なコンピューティングリソースが必要です。このハードウェアは、大規模な並列コンピューティングタスクを効率的に処理し、モデルの学習と最適化を加速します。技術の進歩に伴い、学習コストは徐々に低下していますが、大規模モデルの学習には依然として多大なコンピューティングリソースへの投資が必要です。

ビデオでは、Kapacsi が GPT-2 を例に、そのパラメーター、コンテキストの長さ、トレーニング コストなどのトレーニングについて説明しています。

次に彼はLlama 3を例に挙げて、インターネット文書に類似したトークンシーケンスを生成し、そのパラメータに知識を保存できる基礎となる言語モデルの特性について説明しました。

しかし、モデルの出力はランダムであり、生成される結果は毎回異なる可能性があります。さらに、モデルがトレーニングデータの特定の内容を過剰に記憶してしまう場合があり、その結果、出力がトレーニングデータと非常に類似したり、特定の項目がそのまま繰り返されたりすることがあります。

この現象は、実際のアプリケーションにおいて問題を引き起こす可能性があります。例えば、モデルはトレーニングデータの統計的な規則性に基づいてのみ生成されるため、事実と虚偽の情報を区別できない可能性があります。

事前学習段階では、モデルは大量のインターネット文書データからテキスト生成能力を学習します。出力はベースモデルであり、インターネット文書の統計的特性に類似したトークンシーケンスを生成できますが、質問に答えられる「アシスタント」ではありません。

したがって、さらなるトレーニングが必要です。

トレーニング後

学習後の段階では、モデルは人間が注釈を付けた対話データから学習することで動作を調整し、人間の期待に応える応答を生成します。データセットは比較的小規模で、学習時間も比較的短いです。

初期の対話データセット(InstructGPTなど)は、主に人間のアノテーターによって手作業で作成されていました。しかし、技術の進歩に伴い、現代の対話データセットでは、既存の言語モデルを活用して初期応答を生成し、その後、人間によって編集・最適化されるケースが増えています。これらのデータセットには、幅広いトピックや分野をカバーする数百万件もの対話が含まれることがあります。

具体的には、事後トレーニングには、教師あり微調整 (SFT) と強化学習 (RL) が含まれます。

教師あり微調整フェーズでは、モデルは対話データセットを作成することで、人間と複数ターンの会話を行う方法を学習します。

たとえば、OpenAI の InstructGPT 論文では、人間の注釈者を使用して対話データセットを作成する方法が詳しく説明されています。

強化学習フェーズの目標は、モデルが練習と試行錯誤を通じて問題を解決する最善の方法を発見できるようにすることです。

カパシ氏は、学校での人間の学習を例に挙げました。事前学習は教科書で背景知識を学ぶようなものであり、微調整は専門家が提供する問題解決手法を学ぶようなものであり、強化学習は練習問題を通して知識を定着させ、自ら問題解決のステップを探求するようなものだと説明しました。

具体的には、このモデルは複数の異なる問題解決手法を試します。これらの手法は、異なるプロンプトから得られる場合もあります。その後、これらの解決策が評価され、それぞれの正解がチェックされます。正解は「良い」、不正解は「悪い」とマークされます。

モデルは正解につながる解決策を学習し、それらの解決策を強化します。これは、生徒が実践を通して効果的な方法を発見した後、その方法をより頻繁に使用するようになるのと似ています。

人間によるアノテーションと比較して、強化学習ではモデルが試行錯誤を通じて適切な解決策を自律的に発見できます。人間によるアノテーションは、トレーニングデータを作成する際に、どの解決策がモデルに最適かを判断するのに苦労することがよくあります。モデルが理解できない知識を注入したり、既存の知識を無視したりすることで、理解が困難になることがあります。

モデルは複数のパスを試行して、確実に正しい答えに到達できるソリューションを見つけます。

Kapaci 氏は、大規模言語モデルにおける強化学習の応用と重要性について具体的な例、特にこの分野に世間の注目を集めているDeepSeek が最近発表した論文を挙げて説明しました。

また、人間によるフィードバックによる強化学習 (RLHF) の動作原理とその利点と欠点についても説明しました。

最後に、カパチ氏は、音声、画像、テキストをトークンに変換し、同じモデル内で同時に処理できるマルチモーダル モデルの開発について言及しました。

このマルチモーダル機能により、音声コマンドの理解や画像コンテンツの処理など、モデルはより自然に対話できるようになります。

現在の制限は、モデルがタスクを実行するときに、通常はタスクを受動的に受信して完了し、人間のように長期間にわたって継続的かつ一貫して複雑なタスクを実行できないことです。

将来的には、長期間にわたって継続的にタスクを実行し、定期的に進捗状況を人間に報告するエージェントが登場するかもしれません。そして、人間はこれらのエージェントの監督役を務めることになります。

教育に注力し続けるAI専門家

カパチ氏はOpenAIに入社する前はテスラのAIディレクターを務めていたが、昨年2月に退職した。

彼は主に彼のコースのおかげで、AI 分野で絶大な人気を誇っています。

彼は、初期のブログ投稿やその後の YouTube ビデオチュートリアルシリーズに加え、スタンフォード大学初のディープラーニングコースである CS231n「畳み込みニューラルネットワークと視覚認識」を Fei-Fei Li とともに共同設立しました。

今日、多くの学者や起業家が彼の指導の下でキャリアをスタートしました。

カパチ氏の教育に対する情熱は、オンラインでルービックキューブの解き方を人々に教えていた学生時代にまで遡ります。

昨年7月、OpenAIを去ったカパチ氏は突如、新しいタイプのAIネイティブスクールであるスタートアップ企業、 Eureka Labsの設立を発表した。

AIネイティブをどう理解すればいいのでしょうか?

フェインマンが各ステップでマンツーマン指導してくれる、高品質の教科書を使って学ぶことを想像してみてください。

残念ながら、たとえすべての分野でファインマンのような師を見つけることができたとしても、その師が同時に 2 つの場所にいて、地球上の 80 億人の人々を個人的に指導することは不可能です。

しかし、AI はそれを実行できます。AI は無限の忍耐力を持ち、世界中のすべての言語に精通しています。

そのため、Kapaci は「教師と人工知能の共生関係」を構築し、コース全体を単一の汎用プラットフォーム上で実行できるようにすることを目指しています。

成功すれば、誰でも何でも簡単に学べるようになり、教育の概念そのものの「範囲」と「程度」が拡大することになります。

EurekaLabsの公式GitHubアカウントには関連コースも公開されており、ChatGPTに似た大規模なストーリー生成モデルの構築方法を段階的に学ぶことができます。ご興味のある方はぜひご覧ください。

ビデオリンク: https://www.youtube.com/watch...

参考リンク:https://x.com/karpathy/status...

Eureka Labs: eurekalabs.ai github.com/EurekaLabsAI