|
「o1 のリリース後、新しいパラダイムが出現しました。」 その鍵となるのが、OpenAI の研究科学者であり o1 の主要貢献者であるHyung Won Chung 氏が、このテーマについて MIT で行ったスピーチを公開したことです。 スピーチのテーマは「教えるのではなく、奨励する」であり、その中心となるメッセージは次の通りです。 AI にあらゆる特定のタスクを教えようとするよりも、AI が自ら学習するように促すことが重要です。 『Mind Chain』の著者であるジェイソン・ウェイ氏は、すぐに支持を表明した。 私は、ヒョンウォン氏が新しいパラダイムを識別し、埋没コストを完全に放棄する能力に感銘を受けました。 ヒョンウォン氏はスピーチの中で次のようにも語った。
スピーチの主な内容は以下の通りです。 AI の扱い: 人に魚を与えれば、その人は 1 日分の食料を得られます。人に魚の釣り方を教えれば、その人は一生の食料を得られます。Hyung Won Chung氏について簡単に紹介したいと思います。o1の開発者リストから判断すると、彼は推論研究に根幹を成す人物です。 入手可能な情報によると、彼はMITで博士号(再生可能エネルギーとエネルギーシステムを専門)を取得しており、昨年2月に研究科学者としてOpenAIに入社した。 OpenAI に入社する前は、 Google Brainで大規模言語モデルの事前トレーニング、命令の微調整、推論、多言語化、トレーニング インフラストラクチャを担当していました。 Google在籍中、モデルのファインチューニングに関する論文を第一著者として発表しました。(MindChainの著者であるJason Wei氏も第一著者です。) 本題に戻りましょう。MITでのスピーチで、彼はまずこう述べました。 AGI への唯一の実行可能な道は、一般的なスキルの出現を可能にするインセンティブ モデルを介することです。 彼の見解では、AI の分野は、従来のスキルを直接教える方法から、モデルが自ら学習して一般的なスキルを習得するようにインセンティブを与える方法へと移行し、パラダイム シフトを遂げつつある。 理由は至って単純です。AGI は個別に習得するにはあまりにも多くのスキルを包含しているからです。(適応性と持続性を重視しています。) 具体的にどのように彼らにインセンティブを与えるべきでしょうか? 彼は次のトークン予測を例に挙げ、この弱いインセンティブ構造によって、モデルが各タスクを個別に解決するのではなく、大規模なマルチタスク学習を通じて何兆ものタスクを解決するための一般的なスキルを学習するように促すことができることを説明しました。 彼は次のように述べた。 できるだけ少ない労力で数十のタスクを解決しようとしている場合は、各タスクを個別にパターン認識するのが最も簡単なアプローチかもしれません。 彼は「人に魚を与えればその人は一日食べられるが、人に魚の釣り方を教えればその人は一生食べられる」という例えを使って、インセンティブベースのアプローチでこの課題を解決した。 魚の味を教え、お腹を空かせてあげましょう。 その後、AIは自力で釣りに出かけ、その過程で忍耐力、天気の読み方、魚の理解など、他のスキルも学習します。 これらのスキルの一部は普遍的であり、他のタスクにも応用できます。 この「忍耐強く説得する」プロセスを前にすると、直接教えたほうが早いのではないかと思う人もいるかもしれません。 しかしヒョンウォンの見解は: これは人間にも当てはまりますが、機械の場合は、より多くの計算を行って時間を短縮することができます。 言い換えれば、時間が限られている場合、人間はスペシャリストとジェネラリストのどちらかを選択しなければならないかもしれませんが、機械にとっては計算能力が驚異的な効果を発揮する可能性があります。 彼はさらにこの点を説明するために、ドラゴンボールではキャラクターが特別なトレーニング施設で1年間のトレーニング効果を得ることができるが、外の世界では1日だけのように感じられるという設定を指摘した。 機械の場合、この知覚の違いははるかに大きくなります。 その理由はよく知られています。大規模な汎用モデルは、大規模なトレーニングと学習を通じて、ゼロからトレーニングを開始する必要がなく、新しいタスクやドメインに迅速に適応して習得できるからです。 同氏は、データによればコンピューティング能力は5年ごとに約10倍に増加していることが示されていると付け加えた。 要約すると、ヒョンウォン氏は、核心的な問題は次の点にあると考えています。
さらに、 AIに人間のように考えることを教えようとしているという誤解があると彼は考えています。 問題は、私たちが神経レベルでどのように考えているのか分からないことです。 機械は、人間が理解できる数学的な言語や構造に限定されるのではなく、学習方法を選択するためのさらなる自律性を持つべきです。 彼の見解では、システムやアルゴリズムが人間が定義したルールや構造に過度に依存すると、新しい予期せぬ状況やデータに適応することが難しくなる可能性がある。 その結果、より大規模または複雑な問題に直面した場合、そのスケーラビリティは制限されます。 過去70年間のAIの発展を振り返り、彼は次のようにまとめました。 AI の進歩は、人工構造の削減とデータおよび計算能力の向上に密接に関連しています。 同時に、スケーリングの法則については、計算の規模を単純に拡大するだけでは科学的または十分に興味深いとは見なされない可能性があるという疑問が現在存在します。 ヒョンウォンの意見は次のとおりです。 システムまたはモデルを拡張するプロセスでは、拡張を妨げる仮定または制約を特定する必要があります。 たとえば、機械学習では、モデルは小さなデータセットではうまく機能するかもしれませんが、データの量が増えるにつれて、モデルのパフォーマンスが低下したり、トレーニング時間が許容できないものになったりする可能性があります。 この時点で、より大きなデータ量やより複雑なタスクに適応するために、アルゴリズムを改善したり、データ処理フローを最適化したり、モデル構造を変更したりする必要があるかもしれません。 言い換えれば、ボトルネックが特定されたら、モデルまたはシステムがより大規模に効果的に動作できるように、イノベーションと改善を通じてこれらの仮定を置き換える必要があります。 トレーニング vs. 推論: 結果は似ているが、推論のコストは1000億倍安い上記に加えて、o1 のもう一人の主要著者であるNoam Brown 氏も次のような見解を述べています。 トレーニングと推論はモデルのパフォーマンス向上に同様の効果をもたらしますが、後者の方がはるかに安価で、コストは 1,000 億分の 1 です。 つまり、モデル開発のトレーニング段階でのリソース消費は膨大ですが、実際にモデルを推論に使用するコストは比較的低いということです。 これは将来のモデル最適化の可能性を浮き彫りにすると考える人もいます。 しかし、この 2 つはまったく比較できないと考えて懐疑的な人もいます。 これは奇妙な比較です。一方は限界費用、もう一方は固定費用です。まるで実店舗の価格はそこで販売されている商品の50万倍も高いと言っているようなものです。 これについてどう思いますか? |
o1 の中心著者は次のように述べています。「AI にあらゆるタスクを教えようとするよりも、AI が自ら学習するように促すことが重要です。」
関連するおすすめ記事
-
このロボットは私の散歩の相棒になりました!複雑な屋外の地形も楽々とこなし、「ジム」でランニングもできます。
-
[TVMチュートリアル] x86 CPU向け畳み込みネットワークの自動チューニング
-
李菲菲の最新インタビュー:AIの10年、彼女が見る世界
-
DeepSeek R1 Zero を再現するための中国語チュートリアルがここにあります!
-
Google の Gemini 実験モデルが突如リーダーボードのトップに返り咲きました。GPT-4o がトップに立ったのはたった 1 日だけでした。
-
Ant Financial は AI-to-B を探求し、烏鎮で新しい AI データ合成および生成プラットフォームを発表しました。