618ZXW

o1 の中心著者は次のように述べています。「AI にあらゆるタスクを教えようとするよりも、AI が自ら学習するように促すことが重要です。」

「o1 のリリース後、新しいパラダイムが出現しました。」

その鍵となるのが、OpenAI の研究科学者であり o1 の主要貢献者であるHyung Won Chung 氏が、このテーマについて MIT で行ったスピーチを公開したことです。

スピーチのテーマは「教えるのではなく、奨励する」であり、その中心となるメッセージは次の通りです。

AI にあらゆる特定のタスクを教えようとするよりも、AI が自ら学習するように促すことが重要です。

『Mind Chain』の著者であるジェイソン・ウェイ氏は、すぐに支持を表明した。

私は、ヒョンウォン氏が新しいパラダイムを識別し、埋没コストを完全に放棄する能力に感銘を受けました。
2022 年後半に彼は強化学習の威力を認識し、それ以来ずっとそれを推進してきました。

ヒョンウォン氏はスピーチの中で次のようにも語った。

  • 技術者は問題自体の解決に重点を置きすぎていますが、主要な問題を特定することがさらに重要です。
  • ハードウェアの進歩は飛躍的に進んでおり、ソフトウェアとアルゴリズムもそれに追いつく必要があります。
  • AIに人間のように考えることを教えようとしているという誤解があります。
  • 長期的には、単純に規模を拡大する方が効果的であることが多いです。
  • ...

スピーチの主な内容は以下の通りです。

AI の扱い: 人に魚を与えれば、その人は 1 日分の食料を得られます。人に魚の釣り方を教えれば、その人は一生の食料を得られます。

Hyung Won Chung氏について簡単に紹介したいと思います。o1の開発者リストから判断すると、彼は推論研究に根幹を成す人物です。

入手可能な情報によると、彼はMITで博士号(再生可能エネルギーとエネルギーシステムを専門)を取得しており、昨年2月に研究科学者としてOpenAIに入社した。

OpenAI に入社する前は、 Google Brainで大規模言語モデルの事前トレーニング、命令の微調整、推論、多言語化、トレーニング インフラストラクチャを担当していました。

Google在籍中、モデルのファインチューニングに関する論文を第一著者として発表しました。(MindChainの著者であるJason Wei氏も第一著者です。)

本題に戻りましょう。MITでのスピーチで、彼はまずこう述べました。

AGI への唯一の実行可能な道は、一般的なスキルの出現を可能にするインセンティブ モデルを介することです。

彼の見解では、AI の分野は、従来のスキルを直接教える方法から、モデルが自ら学習して一般的なスキルを習得するようにインセンティブを与える方法へと移行し、パラダイム シフトを遂げつつある。

理由は至って単純です。AGI は個別に習得するにはあまりにも多くのスキルを包含しているからです。(適応性と持続性を重視しています。)

具体的にどのように彼らにインセンティブを与えるべきでしょうか?

彼は次のトークン予測を例に挙げ、この弱いインセンティブ構造によって、モデルが各タスクを個別に解決するのではなく、大規模なマルチタスク学習を通じて何兆ものタスクを解決するための一般的なスキルを学習するように促すことができることを説明しました。

彼は次のように述べた。

できるだけ少ない労力で数十のタスクを解決しようとしている場合は、各タスクを個別にパターン認識するのが最も簡単なアプローチかもしれません。
何兆ものタスクを解決しようとしている場合は、言語、推論などの一般的なスキルを学習することで、タスクを解決する方が簡単かもしれません。

彼は「人に魚を与えればその人は一日食べられるが、人に魚の釣り方を教えればその人は一生食べられる」という例えを使って、インセンティブベースのアプローチでこの課題を解決した。

魚の味を教え、お腹を空かせてあげましょう。

その後、AIは自力で釣りに出かけ、その過程で忍耐力、天気の読み方、魚の理解など、他のスキルも学習します。

これらのスキルの一部は普遍的であり、他のタスクにも応用できます。

この「忍耐強く説得する」プロセスを前にすると、直接教えたほうが早いのではないかと思う人もいるかもしれません。

しかしヒョンウォンの見解は:

これは人間にも当てはまりますが、機械の場合は、より多くの計算を行って時間を短縮することができます。

言い換えれば、時間が限られている場合、人間はスペシャリストとジェネラリストのどちらかを選択しなければならないかもしれませんが、機械にとっては計算能力が驚異的な効果を発揮する可能性があります。

彼はさらにこの点を説明するために、ドラゴンボールではキャラクターが特別なトレーニング施設で1年間のトレーニング効果を得ることができるが、外の世界では1日だけのように感じられるという設定を指摘した。

機械の場合、この知覚の違いははるかに大きくなります
したがって、より優れた計算能力を持つ強力なジェネラリストは、スペシャリストよりも専門分野で優れていることがよくあります。

その理由はよく知られています。大規模な汎用モデルは、大規模なトレーニングと学習を通じて、ゼロからトレーニングを開始する必要がなく、新しいタスクやドメインに迅速に適応して習得できるからです。

同氏は、データによればコンピューティング能力は5年ごとに約10倍に増加していることが示されていると付け加えた。

要約すると、ヒョンウォン氏は、核心的な問題は次の点にあると考えています。

  • モデルのスケーラビリティ
  • モデルの進化を加速するには計算能力が不可欠です。

さらに、 AIに人間のように考えることを教えようとしているという誤解があると彼は考えています。

問題は、私たちが神経レベルでどのように考えているのか分からないことです。

機械は、人間が理解できる数学的な言語や構造に限定されるのではなく、学習方法を選択するためのさらなる自律性を持つべきです。

彼の見解では、システムやアルゴリズムが人間が定義したルールや構造に過度に依存すると、新しい予期せぬ状況やデータに適応することが難しくなる可能性がある。

その結果、より大規模または複雑な問題に直面した場合、そのスケーラビリティは制限されます。

過去70年間のAIの発展を振り返り、彼は次のようにまとめました。

AI の進歩は、人工構造の削減とデータおよび計算能力の向上に密接に関連しています。

同時に、スケーリングの法則については、計算の規模を単純に拡大するだけでは科学的または十分に興味深いとは見なされない可能性があるという疑問が現在存在します。

ヒョンウォンの意見は次のとおりです。

システムまたはモデルを拡張するプロセスでは、拡張を妨げる仮定または制約を特定する必要があります。

たとえば、機械学習では、モデルは小さなデータセットではうまく機能するかもしれませんが、データの量が増えるにつれて、モデルのパフォーマンスが低下したり、トレーニング時間が許容できないものになったりする可能性があります。

この時点で、より大きなデータ量やより複雑なタスクに適応するために、アルゴリズムを改善したり、データ処理フローを最適化したり、モデル構造を変更したりする必要があるかもしれません。

言い換えれば、ボトルネックが特定されたら、モデルまたはシステムがより大規模に効果的に動作できるように、イノベーションと改善を通じてこれらの仮定を置き換える必要があります。

トレーニング vs. 推論: 結果は似ているが、推論のコストは1000億倍安い

上記に加えて、o1 のもう一人の主要著者であるNoam Brown 氏も次のような見解を述べています。

トレーニングと推論はモデルのパフォーマンス向上に同様の効果をもたらしますが、後者の方がはるかに安価で、コストは 1,000 億分の 1 です。

つまり、モデル開発のトレーニング段階でのリソース消費は膨大ですが、実際にモデルを推論に使用するコストは比較的低いということです。

これは将来のモデル最適化の可能性を浮き彫りにすると考える人もいます。

しかし、この 2 つはまったく比較できないと考えて懐疑的な人もいます。

これは奇妙な比較です。一方は限界費用、もう一方は固定費用です。まるで実店舗の価格はそこで販売されている商品の50万倍も高いと言っているようなものです。

これについてどう思いますか?