|
データホエール Datawhaleの推奨事項 著者: Zhang Junlin、 Sina の新技術研究開発責任者。 さあ、この流れに乗って、OpenAI o1 の価値と重要性、そして RL のスケーリング則について議論しましょう。 I. OpenAI o1 は大規模モデルにおける大きな進歩を表しています。 OpenAI o1は、GPT 4のリリース以来、大規模モデルにおける最大の進歩だと考えています。論理的推論能力の向上と使用される手法は予想以上です。GPT 4oとo1は大規模モデル開発の方向性が異なりますが、o1の方向性はGPT 4oの方向性よりも根本的で、はるかに重要です。その理由を以下で分析します。 O1 の方向が 4O の方向よりも重要なのはなぜですか? これらは大規模モデル開発における2つの異なるアプローチを表しています。正直なところ、GPT 4oのリリースを見たときは少しがっかりしました。当初、OpenAIはO1のアプローチを優先するだろうと思っていましたが、予想外にGPT 4oが先にリリースされました。GPT 4oは基本的に、異なるモダリティを統合した統一モデルの作成方法を探求していますが、大規模モデルの知能レベルを大幅に向上させることは難しいでしょう。一方、O1は、大規模モデルがAGIの観点からどこまで実現可能か、そしてその限界は何かを探求しています。明らかに、後者の質問の方が重要です。 O1モデルの機能がさらに向上すれば、マルチモーダル統合モデルであるGPT-4oにフィードバックすることができます。これは、GPT-4oベースモデルをO1ベースモデルに直接置き換えたり、O1モデルを使用して論理的推論用の合成データを生成してGPT-4oを強化したり、GPT-4oモデルをO1で蒸留したりするなど、さまざまな方法で実現できます。多くの可能性があり、それらはすべてGPT-4oの複雑なタスクを解決する能力を直接向上させ、より複雑なマルチモーダルアプリケーションシナリオのロックを解除できます。OpenAIの将来の計画は、O1とGPT-4oの2つのラインがあります。基本的なロジックは、おおよそ次のとおりです。最も重要なベースモデルの論理的推論機能をO1を通じて強化し、それらの機能をGPT-4oのようなマルチモーダルな汎用モデルに移転します。 OpenAI o1 のアプローチは本質的に COT の自動化です。 COT (コンテンツ指向検索) を使用して複雑な問題をいくつかの単純なステップに分解することは、大規模なモデルで複雑な論理問題を解くのに有益であることはわかっていますが、以前は主に手動で COT を記述することで実現されていました。ユーザーの質問によって形成されたツリーのルートノードから始めて最終的に正解に到達することは、AlphaGo がチェスをプレイすることに似ており、COT の特定のステップで構成される巨大なツリー状の検索空間を形成すると想像できます。ここで、COT の特定のステップの組み合わせ空間は膨大であり、人間が記述した COT は最適ではない可能性があります。<質問、明示的な正解> で構成される大量の論理データがあれば、AlphaGo に似たモンテカルロ木探索 (MCTS) と強化学習を組み合わせることで、正解につながる COT パスをすばやく見つけるように大規模モデルをトレーニングすることが確かに可能です。 問題が複雑になるほど、ツリーの探索空間は大きくなり、探索の複雑さが増し、正解を見つけるために必要なCOTステップ数が増加します。その結果、モデルによって生成されるCOTはより複雑になり、o1の速度低下と生成されるCOTトークン数の増加という形で現れます。明らかに、問題が複雑になるほど、o1自体によって生成される隠れCOTは長くなり、大規模モデルの推論コストは高くなります。しかし、最も重要なのはパフォーマンスであり、コストは主要な懸念事項ではありません。大規模モデルの推論コストは過去1年間で著しく急速に減少しており、迅速に削減する方法は常に存在します。 上記の o1 のアプローチからわかるように、Prompt プロジェクトは徐々に消滅していきます。 以前は、複雑な問題を解決するには、非常に複雑なプロンプトを作成する必要がありました。しかし、O1は本質的にCOT(コンテンツ指向タスク)などの複雑なプロンプトを自動化するものであるため、ユーザーは複雑なプロンプトを自ら作成する必要がなくなります。ユーザーに複雑なプロンプトを作成させるのは本質的に非人道的です。複雑な手動プロセスをすべて自動化することが、間違いなく今後のトレンドです。 エージェントは注目のコンセプトですが、実用化には至っていません。主な理由は、ベースモデルの複雑な推論能力が不十分であることです。ベースモデル(Plan)を使用して複雑なタスクを10ステップに分解した場合、個々のステップの精度が95%と高くても、10ステップ全体の精度を掛け合わせた最終的な精度はわずか59%という悲惨な結果にしかなりません。O1はこの方向性に明るい未来を保証しているのでしょうか?必ずしもそうではありません。O1のモデルカードは、エージェントタスクを具体的にテストし、単純および中程度の難易度のエージェントタスクでは大幅な改善が見られましたが、ステップ数の多い複雑なタスクでは精度が低いままでした。つまり、O1はエージェントの明るい未来を保証するものではありませんが、セルフプレイを通じて論理的推論を強化するというO1のアプローチには、大きな発展の可能性があることは明らかです。この観点から、エージェントの将来は有望に思えます。 OpenAIは業界の導き手となることが多く、ある方向性が実行可能であることを最初に証明することがよくあります(例:ChatGPT、GPT 4、Sora、GPT 4o、そして今ではO1)。その後、他の企業が必死になってその流れに乗り、時には非常に速いスピードでOpenAIを追い抜くこともあります。その代表例がSoraです。OpenAIが競合他社に対抗する能力を披露していなければ、この方向性の可能性に気付く人は誰もいなかったでしょう。しかし、一度それが認識されると、リソースを集中させて単一の明確に定義された方向性に焦点を当てることで、OpenAIを上回ることが可能になります。現在、国内外の一部のビデオ生成モデルは、Soraよりも優れている場合もあります。Soraはまだ大部分が進行中の作業のままですが、その主な理由は、OpenAIが追求すべき方向性が多すぎるため、どの領域にも十分なリソースが割り当てられていないことです。そのため、開発が進めば進むほど、進行中の作業が進行中の作業になり、疲労感につながります。 OpenAIのO1は、基本的に皆を有望な方向に導いており、今後誰もが再びこの分野に注目し始めると予想しています。GPT 4oや動画生成に集中するよりも、この分野に集中する方が良いと思います。具体的な仕組みは分かっていませんが、大まかな方向性は明確であり、成果もほぼ実証されています。6ヶ月もすれば、主要企業は具体的な技術を解明し、追いつくでしょう。そうすれば、OpenAIが再び恩恵を受けられるようになるでしょう。さらに、この分野は特に大きなリソースを必要としないようです。アルゴリズムとデータ主導型であり、データ量もそれほど大きくないため、追求コストも低そうです。これは検討する価値のある方向性です。 II. O1で述べた事前学習スケーリング則とRLスケーリング則の起源 大まかに言えば、大規模言語モデルの最も基本的な機能は、言語の理解と表現、世界知識の保存と検索、論理的推論(数学、コーディング、推論の能力を含む。コーディングは言語とロジックのハイブリッドという独特の特徴がある。言語の観点から見ると、コーディングは制限された自然言語と見なすことができますが、複雑な内部ロジックの問題が絡み合っている。言語の観点から見ると、コーディングは簡単に解決できそうに思えるが、論理の観点から見ると、比較的難しい。つまり、コーディングは現在、言語理解を除けば大規模モデルにとって最もパフォーマンスの高い領域である)。 言語の理解と表現は、LLMの最も強力な機能です。ChatGPTの初期バージョンでは、純粋に言語によるコミュニケーションのさまざまなタスクを人間に近いレベルのパフォーマンスで処理できました。現在、この点では、小規模モデルでも大規模モデルに劣っていません。モデルが大きくなるにつれて世界知識の能力は向上しますが、錯覚の問題は未解決のままであり、さまざまなアプリケーションの大きな制限となっています。論理的推論は常にLLMの弱点であり、改善が最も難しい側面でした。GPT 4以降、LLMの論理的推論能力を効果的かつ大幅に強化することが、さまざまな大規模モデル間の違いと利点を浮き彫りにする中核的な課題です。したがって、大規模モデルにとって最も重要な側面は、世界知識の面で錯覚を効果的に排除し、複雑な論理的推論能力を大幅に向上させることです。言語能力はもはや問題ではありません。 大規模モデルのスケーリング則について、盛んに議論されている点に戻りましょう。まずは、その基本的な機能から見ていきましょう。スケーリング則に基づくアプローチ、つまりデータとモデルサイズを増やすことで大規模モデルのパフォーマンスを向上させるアプローチは、現在では成長が鈍化しつつあると広く考えられています。実際、大規模モデルの3つの基本的な機能の源泉を検証すると、その理由が分かります(以下は私の推測であり、正確性を保証するものではありません)。 本質的に、大規模モデルの能力はすべてその学習データに由来します。これらの能力を反映する学習データが増えるほど、その能力は強化されます。言語能力は当然のものであり、あらゆる学習前データセットには、言語の語彙的要素と統語的要素がかなりの割合で含まれています。したがって、学習データには言語能力を反映するデータが最も多く含まれており、大規模モデルが最も強力な言語能力を持つのはそのためです。 データに含まれる世界知識の量は、基本的にトレーニングデータの量に比例します。当然のことながら、データが多いほど、含まれる世界知識も多くなります。スケーリング則は、データに含まれる世界知識の量の関係を反映しています。しかし、ここで問題があります。大規模なモデルが扱うデータが増えるほど、新しいデータに含まれる新しい知識の割合は小さくなります。これは、多くの知識が以前のデータで既に扱われているためです。したがって、データの規模が大きくなるにつれて、遭遇する新しい知識の割合は減少し、世界知識の観点からスケーリング則の減速に反映されます。 なぜ論理的推論能力の向上が最も難しいのでしょうか。それは、トレーニングデータにおけるこの側面を反映した自然データ(コード、数学の問題、物理学の問題、科学論文など)の割合が低すぎるためです。当然、大規模なモデルはうまく学習できません。論理的推論に関連するデータの量を継続的に増やすことで絶対量を増やすことはできますが、割合が小さすぎるため、改善効果は全体的なデータ規模の増加に比例せず、効果はあまり大きくありません。これは、論理的推論能力のスケーリング則の見かけ上の減速に反映されています。これはごく自然なことです。モデルの論理的能力を向上させるために、トレーニング前とトレーニング後の段階で論理的推論データの割合を大幅に増やすことが多く、これが効果的であったのもこのためです。 オリジナルリンク: https://weibo.com/1064649941/..._0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316 * |
張俊林:OpenAI o1の価値と意義、そして強化学習のスケーリング則
関連するおすすめ記事
-
ChatGPT、人間の医師50人を上回る!病気診断の精度90%を達成。OpenAI社長は、人間と機械の連携にはさらなる強化が必要だと語る。
-
イーロン・マスクが視覚障害者をターゲットに、ニューラリンクの次世代脳コンピューターインターフェース製品が承認される。
-
信頼できるデータ循環時代の新たなコンピューティングパワーを探る:隠された言語の年次カーニバルのハイライトを垣間見る
-
Geely、Qianli、Jieyue は技術協力を深め、全領域インテリジェント車両の新時代を共同で切り開きます。
-
急騰中の銘柄であるディープシークは、一夜にしてエヌビディアの4兆ドルの評価額を吹き飛ばした。大晦日には、新たなマルチモーダルモデルをオープンソース化した。
-
安徽省のAIの天才が自動車会社のトップとして初登場。