|
データホエール Datawhaleのヒント スピーチ:ヤン・ルカン、編集: Datawhale ヤン・ルカン氏は、ハドソン・ヤーズでの最新の講演で、 LLM(限定学習モデル)はテキストベースの学習だけでは人間に近い知能に到達することは決してできないと述べました。そのため、Metaは現在、より長期的な次世代AIシステムの研究に重点を移しており、LLMへの集中は終了しています。 ルカン氏は、ザッカーバーグ氏が人間レベルのAIに到達するにはどれくらいかかるのかと何度も尋ね、少なくとも数年、あるいは10年はかかるだろうと答えたと述べた。 人間の知能には、推論、計画、持続的な記憶、物理世界の理解という、現在の人工知能システムに欠けている 4 つの基本的な特性があります。 ヤン・ルカンは、Facebook AI Research(Fair)のチーフAIサイエンティストであり、ニューヨーク大学教授です。2018年のACMチューリング賞をはじめ、数々の賞を受賞しています。人工知能振興協会(AAAI)および米国工学アカデミーの会員です。 ヤン・ルカン氏が最近のスピーチで何を言ったのか見てみましょう。 Datawhale は、元の意味を変えずに、次の翻訳と構成を提供しました。 LeCun: 人間レベルの人工知能 この講演では、人間レベルの人工知能 (AI) について、それをどのように実現できるか、またどのような障害に遭遇する可能性があるかなどについて説明します。 人間レベルの AI とは何ですか? まず、人間レベルのパフォーマンスを実現できる人工知能が必要です。 将来、私たちのほとんどがスマートグラスなどのデバイスを装着し、それらとインタラクトするようになるからです。これらのデバイスにはアシスタントが搭載されるでしょう。もしかしたら1台ではなく、複数のアシスタントスイートが統合されるかもしれません。つまり、デバイスを使っている間、私たち一人ひとりがスマートな仮想チームの一員として働くことになります。つまり、私たち一人ひとりが上司となり、生身の人間ではなく、多くの仮想従業員を管理するようになるのです。人間の知能を根本的に向上させ、より創造的で効率的な働き方を実現するためには、このようなシステムを構築する必要があります。 しかし、これを実現するには、これらの機械が世界を理解し、物事を記憶し、ある程度の直感と常識を持ち、人間のように推論し、計画を立てられる必要があります。AIの能力を称賛する声をよく耳にしますが、現在のAIシステムは実際にはこれらのことを行うことができません。 私たちが必要としているのは、永続的なメモリと、複雑な一連のアクションを計画する能力を備え、制御可能で安全な、世界モデルを学習して構築できる AI システムです。 テキストのみによるトレーニングでは、人間に近いレベルの知能を達成することは決してできません。 この目的のために、私は2年前に論文で「目標駆動型人工知能」というビジョンを提案しました。 Facebook AI Research(以下「Fair」)の多くのメンバーも、このビジョンの実現に向けて私と共に取り組んでいます。これまでFair部門は、長期的かつ将来を見据えた研究を行うだけでなく、多くの応用プロジェクトも手掛けてきました。しかし、約1年半前、Meta社がAI製品に特化し、アプリケーション開発を担うGenAI部門を設立しました。そのため、Fairは現在、LLMを主眼に置いた研究ではなく、次世代AIシステムに関する長期的な研究へとシフトしています。 現在の AI システムは主に自己教師学習によって制限されています。 過去 5 ~ 6 年間、LLM を含む多くの AI システムの成功は、自己教師学習に依存してきました。 自己教師学習とは、特定のタスクではなく、入力を適切に表現するようにシステムを訓練することです。一つのアプローチは、破損したデータから再構築することです。例えば、テキストの一部は、単語の削除や変更によって破損している可能性があります。この手法は、DNA配列、タンパク質、さらには画像にも適用できます。そして、巨大なニューラルネットワークを訓練し、破損していない完全なバージョンを再構築します。 これは元の信号を再構築しようとする生成モデルですが、いくつかの問題があります。 上の画像の赤い枠はコスト関数に似ており、入力yと再構成されたyの間の距離を計算します。学習プロセスでは、システムパラメータに対するこの距離を最小化します。このプロセスにおいて、システムは入力の内部表現を学習します。この表現は、テキスト内の単語の予測など、後続のタスクに使用できます。これは自己回帰予測と呼ばれます。 LLMは特殊なケースであり、そのアーキテクチャは、あるアイテム(例えば単語)を予測する際に、左側にある他のトークンのみを参照し、未来を予測できないように設計されている。システムをトレーニングし、上記の手順に従うことで、自己回帰予測を実現できる。 これは新しい概念ではありません。1950年代に遡り、クロード・シャノンの時代から存在していました。しかし、今日では、膨大な量のデータで学習できる大規模なニューラルネットワークアーキテクチャが確立され、それによって進歩がもたらされ、これまでは実現できなかった機能が実現しています。 しかし、自己回帰予測にはいくつかの限界があります。真の推論ではなく、離散的なオブジェクト、シンボル、タグ、単語などの形で現れるデータにのみ適用できます。 人間レベルの知能に到達するには、まだいくつかの重要な要素が欠けています。 これは人間レベルの知能だけでなく、現在のAIシステムが完全には達成できないこと、さらには猫や犬でさえできることを指します。10歳の子供はテーブルを片付けながら食器洗い機に食器を入れることを一気に習得でき、17歳の子供は約20時間の練習で運転を習得できます。しかし、レベル5の自動運転車はまだ存在せず、テーブルを片付けながら食器洗い機に食器を入れることができる家庭用ロボットも存在しません。 つまり、私たちが何か重要なことを見逃していることは明らかです。そうでなければ、AI システムはこれらのことを実行できるはずです。 モラベックのパラドックスと人間と機械の比較の結論 モラベックのパラドックスは、人間にとっては些細なこと、あるいは知的だとも思えないことを機械が行うのに苦労する一方で、言語やチェスのプレイといった高度で複雑な抽象的思考は機械にとって簡単なことであるというものです。 おそらく理由の一つは、LLMが通常20兆個のトークンで学習されることでしょう。一般的な言語におけるトークンは、約4分の3語、つまり1.5×10¹³語に相当します。各トークンは約3バイトで、合計6×10¹³バイトになります。これだけのテキストをすべて読むには、私たち人間が数十万年かかるでしょう。これは、インターネット上で公開されているすべてのテキストの量とほぼ同じです。 しかし、4歳児の覚醒時間は合計16,000時間で、200万本の視神経線維が脳に流入します。各線維は1秒あたり約1バイト、あるいは0.5バイトの速度で情報を伝達するため、データ量は約10¹⁴バイトとなり、これはLLMとほぼ同じ桁数です。 したがって、4 年間で子供たちが見る視覚データの量は、インターネット全体で公開されているすべてのテキストでトレーニングされた最大のモデルに含まれるデータ量と同じになります。 このことから、次のような結論を導き出すことができます。 まず、テキストのみでトレーニングしても、人間に近いレベルの知能に到達することは決してできません。 第二に、視覚情報は非常に冗長性が高い。視神経線維は1秒間に1バイトの情報しか伝達しないため、網膜の光受容体と比較して100:1の圧縮率を実現している。この情報は脳に入り、そこで約50倍に拡大される。 冗長性は、実は自己教師学習に不可欠です。自己教師学習は、冗長性のあるデータからのみ有用な情報を学習できます。データが高度に圧縮されている場合、それはほぼランダムノイズと化しており、そこから何も学習できなくなります。 そのため、AI システムにビデオを視聴させたり、現実世界での生活を実際に体験させたりすることで、常識や物理的な直感を学習させる必要があります。 目標駆動型AIアーキテクチャ 目標駆動型AIアーキテクチャとは何か説明しましょう。これはLLMやフィードフォワードニューラルネットワークとは異なり、推論プロセスにおいてニューラルネットワークだけでなく、実際に最適化アルゴリズムを実行する点が異なります。 概念的には、次のように機能します。フィードフォワード プロセスとは、入力を観察し、一連のニューラル ネットワーク レイヤーなどの感知システムを介して実行し、出力を生成するプロセスを指します。 通常、単一の入力に対しては出力は1つしかありません。しかし、多くの場合、単一のセンサー入力に対して、出力の解釈は複数存在する可能性があります。必要なのは、単一の関数を計算するだけでなく、単一の入力を複数の出力にマッピングする処理を処理できることです。 これを実現する唯一の方法は暗黙関数を使用することです。これは基本的に、上図の右側の赤い枠内に示されている目的関数のようなものです。これは主に入力と提案された出力の適合性を測定するために使用され、入力に最も一致する出力値を見つけることで最終的な出力が計算されます。 この目的関数をある種のエネルギー関数と考え、このエネルギーを最小化することで出力に対する最適化を行うことができます。複数の解が存在する可能性があり、それらの解を反復処理するメソッドが存在する可能性があります。 これが人間の知覚システムの仕組みです。ある特定の知覚について複数の解釈がある場合、脳は自動的にそれらの解釈を循環させます。 この考え方は新しいものではありません。60年以上も前から存在し、最適制御理論の分野ではモデル予測制御として知られています。その利点は、学習なしに新しいタスクを達成できることです。私たちはよくこれを行います。新しい状況に直面した時、自分の行動の結果を考えて想像し、目標を達成するために行動を起こします。これが計画です。さらに、ほとんどの推論形式は最適化へと簡略化でき、最適化を通じたこの推論プロセスは、ニューラルネットワークを数層実行するだけの単純な方法よりもはるかに強力です。 世界モデル、タスクに応じて構成できるコスト関数、最適なアクションシーケンスを見つける実行プログラム、短期記憶、認識システムなどのコンポーネントを含む AI システムを構築できます。 行動シーケンスを例に挙げると、2つの行動の結果を予測したい場合、世界モデルを複数回実行し、時間経過に沿って展開することができます。まず、初期の世界状態表現を取得し、行動0の仮定を入力し、世界モデルを用いて次の状態を予測します。次に、行動1と次の状態を入力し、コストを計算します。そして、バックプロパゲーションと勾配ベースの最適化手法を用いて、コストを最小化する2つの行動を見つけます。これがモデル予測制御です。 さらに興味深いのは、インテリジェントシステムはまだこの問題を解決できないものの、人間は簡単に解決でき、動物でさえも階層的計画を実行できることです。 例えば、ニューヨークからパリへの旅行を計画していると想像してみてください。理論的には、世界に対する理解、自分の身体、そしてここからパリまでの地球全体の地形に対する認識を駆使して、低レベルの筋肉制御を含む旅程全体を計画することができます。しかし、10ミリ秒ごとに筋肉制御のステップを考慮するように分解すると、その数は膨大になります。 そのため、人間は実際には階層的な計画アプローチを用いています。まず非常に高次のレベルで計画を立て、それを徐々に洗練させ、最終的に低次のレベルの筋肉制御を通じて具体的な行動を実行します。 これはAIシステムにとってまさに大きな課題です。私は、赤ちゃんが言語やインタラクションを学ぶ前に、顔の追跡や生体運動といった世界に関する基本的な概念を何歳で習得するのかを解明しようとしてきました。しかし、重力、慣性、保存則、運動量といった概念は、実際には生後9ヶ月頃の赤ちゃんにしか認識されません。 統合型予測アーキテクチャ:機械学習の4つの柱を放棄する テキスト予測によって動画内のピクセルを予測するといった従来の手法は、完全に失敗しました。ここで提案する解決策は、Joint Embedded Prediction Architecture(JEPA)です。 そのアイデアは、ピクセルの予測を放棄し、代わりに世界で起こっていることの抽象的な表現を学習し、その表現空間で予測を行うというものです。これが、ジョイントエンベディング予測アーキテクチャの原理です。X(破損バージョン)とYをエンコーダーを介して別々に処理し、Xの表現からYの表現を予測するようにシステムをトレーニングします。 それで、これをどうやって行うのでしょうか? 勾配降下法やバックプロパゲーションといった手法を単純に用いてシステムを学習し、予測誤差を減らすだけでは、システムは失敗する可能性があります。予測を容易にする定数表現を学習するかもしれませんが、その分、情報が失われてしまいます。 ここで、区別を覚えておくことが重要です。生成アーキテクチャ (予測子の再構築を試みるオートエンコーダなど) は、表現空間で予測を実行する結合埋め込みアーキテクチャとは異なります。 このアーキテクチャは画像の適切な表現を学習するのに最適であるという実証的証拠がたくさんあるため、将来は共同埋め込みアーキテクチャにあると私は信じています。 多数の大規模プロジェクトが効果的であると主張しているにもかかわらず、再構成を通じて画像表現を学習するすべての試みは効果がありませんでした。実際には、右手アーキテクチャによって最高のパフォーマンスが達成されます。 本質的に、予測を行うために事物や現象の適切な表現を見つけることは、知性の現れであり、科学の本質です。 たとえば、惑星の軌道を予測する場合、惑星は複雑ですが、必要なのは 6 つの数値 (位置座標 3 つと速度ベクトル 3 つ) だけです。 では、そのようなシステムをどのようにトレーニングするのでしょうか? システムクラッシュを防ぐため、エンコーダの出力表現の情報量を測定するコスト関数を設計し、情報量を最大化するか、負の情報を最小化するように試みることができます。システムの学習中は、表現空間における予測誤差を最小化しながら、入力から可能な限り多くの情報を抽出することが目標となり、情報の抽出と予測不可能な情報の回避のバランスをとることができます。 このようにして、予測に使用できる適切な表現空間を得ることができます。 情報をどのように測定するかについては、かなり複雑な問題なので、ここで簡単に説明します。 トレーニング エネルギー モデルとエネルギー関数に基づく数学的アプローチもありますが、ここでは詳しく説明しません。 つまり、いくつかの従来の方法を放棄する必要があるのです。 生成モデルを放棄し、代わりに Joint Embedded Prediction Architectures (JEPA) をサポートします。 確率モデルを放棄し、代わりにエネルギーベースのモデルをサポートします。 比較方法を放棄します。 また、強化学習を放棄するという考え方もあります。これは私が過去 10 年間にわたって話してきたことです。 これらは現在最も人気のある機械学習の4つの主要な柱です。そのため、私は現在人気がなく、批判されています… 具体的なアプローチの一つは、エンコーダ出力の情報量を推定することです。現在、ニューヨーク大学とフラットアイアン大学の同僚が提案したVICReg法など、6つの手法があります。この手法の核となる考え方は、システムクラッシュを防ぎ、定数のみを出力することです。 したがって、エンコーダから出力される変数の標準偏差がゼロではないことを保証する必要があります。これは、サンプルバッチのコスト関数に条件を設定することで実現できます。しかし、システムは変数を相関させることで不正を行う可能性があるため、変数共分散行列の非対角項を最小化する条件も追加する必要があります。これだけでは不十分かもしれません。sx次元を高次元空間vxに拡張し、この空間で分散共分散正則化を適用する必要もあります。ここで問題があります。私は実際には情報量の上限を最大化しており、実際の情報量が上限の変化に追従することを期待していますが、情報量の下限がなく、その計算方法もわかりません。 蒸留法という、かなり不思議な仕組みで動作する手法もあります。その核となる考え方は、モデルの一部のみを更新し、他の部分では勾配の逆伝播を行わず、興味深い方法で重みを共有するというものです。 このアプローチは多くの論文で検討されており、完全な自己教師あり学習システムを用いて良好な画像表現を学習させるのに有効です。マスキングは画像の劣化に対処するために用いられ、最近では動画にも適用されています。これにより、動作認識などの下流タスクのために、良好な動画表現を抽出できるようにシステムを学習することが可能になります。このプロセスには、動画のマスキング、システムの実行、表現空間における予測、そしてクラッシュを防ぐための蒸留技術の使用が含まれており、結果として大幅な改善がもたらされます。 将来、このプロジェクトが成功し、推論、計画、物理世界の理解が可能な AI システムを実現できるとしても、数年、あるいは 10 年かかるかもしれません。 したがって、もし私たちがこれをうまく実現できれば、デジタル世界とのあらゆるやり取りを真に仲介するシステムが実現するでしょう。それらのシステムは私たちのあらゆる疑問に答えることができ、常に私たちと共にあるでしょう。そして、それらは本質的に人類のあらゆる知識の集積となるでしょう。 その時点では、それは製品というよりは、インターネットのようなインフラストラクチャのように感じられるでしょう。 機械は確かに人間の知能を超えるでしょうが、制御されるでしょう。 このAIプラットフォームはオープンソースでなければなりません。世界中の言語、文化、価値観を理解できる多様なAIアシスタントが必要であり、そのためには世界中からの貢献が必要です。 さらに、ベースモデルのトレーニングには費用がかかり、それを実行できる企業は限られています。Metaのような企業はオープンソースのベースモデルを提供しており、世界中の人々のニーズに合わせて微調整することができます。 AIが人間レベルのパフォーマンスに到達するにはどれくらいの時間がかかるのでしょうか?数年から数十年かかるかもしれません。このプロセスには多くの不確実性があり、解決すべき問題も多く、私たちの想像をはるかに超える困難を伴うことはほぼ間違いないでしょう。 それは一夜にして起こるものではなく、徐々に進化していくものです。 したがって、このプロセスは、ある日突然私たちが AI の秘密を発見し、超知能を獲得し、私たち全員が超知能システムに置き換えられるというようなものではありません。 機械は確かに人間の知能を超えるでしょうが、目標指向的であるため、制御されることも確実です。 私たちは彼らに目標を設定し、彼らはその目標を達成します... これで話は終わりですが、もちろんリスクは伴います。 ビデオリンク: [1]https://www.youtube.com/watch... いいね! (3件のいいね!)↓ |
ヤン・ルカン氏の最新の 10,000 語のスピーチ: 次世代 AI システムに特化して、私たちは基本的に LLM を放棄しています。
関連するおすすめ記事
-
Alibaba Tongyiが大型ビデオ生成モデルをリリースします。予約ページがオンラインになりました。
-
Tencent は、3,890 億のパラメータを持つ最大のオープンソース MoE モデルをリリースしました。このモデルは商用利用が無料で、ベンチマークでは Llama 3.1 を上回っています。
-
DeepSeekとHuaweiが提携!レート制限付きのシリコンベースのモバイルAPIをリリース、国産APIを最安値で提供、導入障壁ゼロ。
-
中科恵玲が開発した新しいヒューマノイドロボットブランド「CASBOT」が立ち上げられました。
-
中科ウェンゲは、知川 X-Agent プラットフォームとエレガントなオーディオビジュアル大型モデルのアップデートをリリースしました。
-
ウルトラマンはマスク氏を公然と非難し、OpenAIの役員は「彼らはマスク氏を買収したいと言ったが、我々は何の申し出も受けていない」と述べた。