618ZXW

ChatGPTの学習後の手法はOpenAIの元共同創設者によって公開され、PPTはオンラインで広く配布されています。

OpenAIを去った後、2人はChatGPTのポストトレーニング手法をPowerPointプレゼンテーションにして公開しました。

ネットユーザーが言っているように、おそらくChatGPTのトレーニング後の状況について、この2人ほど詳しい人はいないだろう。

なにしろ、一人はOpenAIの共同創設者であり、OpenAIでのポストトレーニングの元共同リーダーであるジョン・シュルマン氏であり、もう一人はOpenAIでのポストトレーニング研究の元副社長であるバレット・ゾフ氏だ。

ジョン・シュルマンはツイートした。

ああ、そういえば、バレット・ゾフと私は最近スタンフォード大学で、研修後の成果とChatGPT開発の経験についてプレゼンテーションをしました。残念ながら録画はされていませんが、スライドはあります。

また、インターネット全体で音声/動画の録音を検索しています。「録音があれば、ぜひ教えてください!」

ネットユーザーたちは沈黙を守り、投稿に「いいね!」や保存をするだけだった。

このイベントに出席したネットユーザーは、スピーチが本当に質の高いものであったと証言できる。

2人に感謝の意を表した後、一部のネットユーザーはさらなるコメントを求めた。

推論モデルや DeepSeek RL など、トレーニング後のフェーズに関する最新情報をさらに共有していただければ幸いです。

まずはPPTがどんな感じか見てみましょう〜

ChatGPT トレーニング後の方法(PPT 版)

まず最初に自己紹介をしました。

バレット・ゾフ氏とジョン・シュルマン氏は、以前OpenAIでポストトレーニングの共同リーダーを務めていました。彼らは2022年9月に、連携型チャットボットの開発を主な目標として共同作業を開始しました。「RL」と呼ばれる当初のチームは、少人数で構成されていました。

次に、トレーニング後のフェーズとは何かを紹介しました。

学習後フェーズは、モデル開発の最終段階です。このフェーズの目的は、モデルをよりアシスタントに近いものにし、特定のフォーマットに準拠させ、実際の本番環境に適合させることです。このフェーズでは通常、製品チームとの緊密な連携が求められます。

いくつかの具体的な例を使用して、ベースモデルとトレーニング後のモデルの違いを比較してみましょう。

まとめると、トレーニング後とトレーニング前の違いは次のようになります。

計算リソース要件が低く、反復サイクルが高速であること、人間のフィードバックに基づく強化学習 (RLHF) を使用していること、モデルにツールの使用方法を教えていること、モデルの性格を形成していること、拒否/安全動作を導入していること、事前トレーニング段階での一般化能力に大きく依存していることなどが挙げられます。

トレーニング後の処理は、教師あり微調整 (SFT)、報酬モデル (RM) トレーニング、強化学習 (RL) という 3 つの主要コンポーネントで構成されます。

以下に 3 つのコンポーネントの詳細な紹介を示します。

次に、ChatGPT と OpenAI のトレーニング後の初期開発についてレビューしました。

これには、GPT-3 と GPT-3.5 のリリース、RL チームの作業、GPT-4 の準備プロセス、ChatGPT のリリースを決定した経緯、リリース後の予想外の成功、つまりバイラル拡散の達成などが含まれます。

ChatGPT はかつて大量のユーザー流入に圧倒されました。

時間の経過とともに、ChatGPT モデルとその機能はますます複雑かつ多様化してきました。

2022年12月の初期バージョンと2025年1月のバージョンの比較:

多くの機能が追加されました:

次に、小規模でのテスト、頻繁なアップデートで変更を段階的に統合すること、問題が見つかった場合に以前のバージョンに迅速にロールバックできることなど、メインライン モデルを通じて機能拡張と会社の成長という文脈で変更を統合し、リスクを軽減する方法について議論しました。

このプロセス中にいくつかの間違いや課題も発生しました...

たとえば、モデルはテキストを生成するときに多くのスペルミスを犯しました。

強化学習 (RL) 後、スペルエラー率が上昇することが判明し、教師あり微調整 (SFT) データセットでスペルエラーのヒントが見つかりました。

最終的には、比較によってプロセスが改善されます。生成された2つのテキスト(完成版1と完成版2)を比較し、改善されたバージョンを選択します。専門家が2つのテキストを比較し、場合によっては改善されたバージョンを作成します。

また、過剰に拒否されるケースもあります。

最初の拒否プロセスが長すぎる:

時制を変更するなど、モデルの拒否メカニズムを回避できる方法があります。

二人はその後、境界と人間のデータの問題を挙げながら、拒絶に対処するのがなぜ難しいのかを説明した。

ソリューションには、ペアデータ、ターゲット境界の例、ラベル付きデータの階層的処理が含まれます。

さらに、モデルにはバイアスが生じる可能性があります。

また、虚偽または誤解を招くコンテンツが生成される可能性もあります。

嗜好、主観、高い関与が求められるタスクでは、人間からの高品質なフィードバックを得ることも大きな課題です。

解決策の 1 つは、人間と AI のチームを使用して注釈付けを実行することです。

また、彼らは、手がかりの多様性、ラベルの品質、ドメイン、正確性、意図、コンプライアンスの観点から、さまざまなソースからの人間のフィードバックの利点と欠点を調査し、それぞれの強みをどのように活用するかについて疑問を提起しました。

モデルを私たちの希望通りに動作させるには、まず何を望んでいるのかを把握する必要があります。

二人は、この措置は予想以上に困難であり、明確な基準が必要だと述べた。

OpenAIは2024年5月にモデル仕様を公開した。

もう一つの未解決の問題は、モデルの多様性と興味をどのように維持するかということです。

2 人は、トレーニング後の反復とモデルの蒸留を通じてこれらの特性を維持または強化すると述べました。

本論文では、InstructGPT と Llama 3.1 に代表される「2 つの時代」のモデルトレーニングプロセスを、ベースモデルからアライメントモデルまでのトレーニング手順を含めてまとめ、最終目標は複数回最適化されたアライメントモデルを生成することです。

モデルのトレーニングと最適化中に、さまざまなスタイルや世界観を含むベースモデルの多様性と興味を回復および維持する方法を探るために、未解決の問題が提起されています。

最後に、彼らはトレーニング後に関するいくつかの論文とブログを推奨しました。

二人ともOpenAIの元CTOに引き抜かれた。

John Schulman 氏と Barret Zoph 氏は OpenAI を去った後、現在何をしているのでしょうか?

2人は、元OpenAI CTOのミラ・ムラティ氏の新しいスタートアップチームであるThinking Machines Labに加わったと報じられている。

ミラ・ムラティは昨年9月にOpenAIからの退任を正式に発表しました。退任直後の10月には、彼女が1億ドル以上の資金を調達し、新たな会社/AIラボを設立する準備を進めていると報じられました。

ミラ・ムラティ氏はすでに、OpenAI、Google、Anthropicなどの大企業から20人以上のトップ研究者やエンジニアを採用している。

これには、ジョナサン・ラックマンとバレット・ゾフが含まれます。

ジョン・シュルマン氏は昨年8月にOpenAIを去り、まずOpenAIの競合企業であるAnthropicに入社してLLMの調整に取り組み、その後わずか6か月で再びOpenAIを去り、ムラティ氏のスタートアップに主任科学者として加わった。

Barret Zoph 氏は、昨年 9 月頃に Mira Murati 氏を退社し、その後 Mira Murati 氏のチームに CTO として加わりました。

参考リンク: [1] https://x.com/johnschulman2/s... [2] https://www.businessinsider.c...