LeCun 氏の最新の 10,000 語のスピーチ: 純粋言語モデルは人間のレベルに到達できないため、基本的に諦めています。

ウルトラマン、マスク、そしてアントロピックのCEOが揃って2026年頃にAGIを実現するという目標を立てたとき、ルカン氏は間違いなく彼らの主張に冷水を浴びせかけました。それは全くのナンセンスでした。

彼は最近の演説で、人工知能が人間のレベルに達するには、システムが推論し、計画し、物理世界を理解するのに少なくとも数年、あるいは10年はかかるだろうと述べた。

また、テキストのみによるトレーニングでは人間に近いレベルの知能を達成することは決してできないため、Meta は現在では基本的に純粋な言語モデルを放棄していることも明らかにしました。

さらに、彼は現在の大規模モデルの限界、推論と計画のための世界モデルの利用を含む目標駆動型AIアーキテクチャについて議論し、最後にオープンソースAIの重要性を強調しました。将来の発展に関しては、機械は最終的に人間の知能を超えるものの、目標駆動型であるため制御されるだろうと述べました。

QuantumBit は、元の意味を変えることなく、次のとおり改訂しました。

LeCun: 人間レベルの人工知能

(彼はまず、FAIR の「F」はもはや Facebook を意味するのではなく、「基本」を意味すると説明しました。)

人間レベルの人工知能について、またそれをどのように実現できるか、あるいはなぜ実現できない可能性があるのかを探ってみましょう。

人間レベルの AI とは何ですか?

まず、人間レベルのパフォーマンスに達する人工知能が必要です。

将来、ほとんどの人がスマートグラスなどのデバイスを装着し、それらとコミュニケーションをとるようになるでしょう。これらのデバイスは、様々なアシスタント機能を統合し、単一の機能ではなく、システム全体を構成するようになります。つまり、私たち一人ひとりがインテリジェントなバーチャルアシスタントの集団を持つことになります。つまり、誰もが「上司」になるということです。ただし、これらの「従業員」は生身の人間ではありません。私たちは、人間の知能を根本的に向上させ、より創造的で効率的な人間にするために、このようなシステムを構築する必要があります。

しかし、この目標を達成するには、世界を理解し、情報を記憶し、直感を持ち、常識、推論、計画性を備え、人間と同じレベルに到達できる機械が必要です。

一部の支持者からは異なる意見を耳にしたことがあるかもしれませんが、現在のAIシステムはまだこれらの機能を実現できていません。そのため、世界の基本的な仕組みを学習し、シミュレーションできるシステム、つまり世界の仕組みに関するメンタルモデルを備えたシステムを開発する必要があります。実際、あなたの猫も含め、あらゆる動物は既存のAIシステムよりも複雑なモデルを持っています。

私たちが必要とするシステムは、永続的なメモリ（現在の言語モデルにはない）、複雑な一連のアクションを計画する機能（現在の言語モデルにもできない）、そして制御可能で安全である必要があります。

テキストのみによるトレーニングでは、人間に近いレベルの知能を達成することは決してできません。

この目的のために、私は2年前に論文で「目標駆動型人工知能」というビジョンを提案しました。

FAIRの多くのメンバーがこのビジョンの実現に向けて取り組んできましたが、1年半前、Metaは人工知能製品の開発に注力するGenAIという製品部門を設立しました。そのため、FAIRはより長期的な視点に立った次世代AIシステムの開発へと再編されました。私たちはもはや言語モデルに注力していません。

言語モデルや他の多くのシステムを含む人工知能の成功は、過去 5 ～ 6 年間、主に自己教師学習手法に依存してきました。

自己教師学習へのアプローチの一つは、損傷から再構築することで回復することです。例えば、テキストの一部（テキスト、DNA配列、タンパク質など、あらゆるもの、場合によっては画像）を取り出し、単語を削除したり、他の単語を変更したりすることで損傷を与えます。そして、大規模なニューラルネットワークを訓練し、入力データの完全で損傷のないバージョンを再構築します。

これは元の信号を再構築しようとする生成モデルです。

したがって、この赤いボックスはコスト関数として機能し、入力Yと再構成されたyの間の距離を計算します。これは、学習プロセス中にシステムのパラメータ全体にわたって最小化する必要があるものです。このプロセスにおいて、システムは入力の内部表現を学習し、これは後続の様々なタスクに使用できます。

言語モデルは、アイテム、トークン、または単語を予測するために左側の他のトークンのみを調べるようにアーキテクチャが設計されており、将来を見ることができない特殊なケースです。

これは新しい概念ではなく、1950年代に遡るクロード・シャノンの時代から存在していました。しかし、変化したのは、膨大な量のデータで学習できる大規模なニューラルネットワークアーキテクチャが現在存在し、それによって以前には存在しなかった特性が生み出されていることです。

しかし、自己回帰予測には大きな制限があります。それは、実際の推論が含まれないことです。また、離散的なオブジェクト、シンボル、タグ、単語などの形で現れるデータ、つまり基本的に区別できるデータにのみ適用できることも制限の1つです。

人間レベルの知能に到達するには、まだ何か重要なものが欠けています。
ここで必ずしも人間レベルの知能について話しているわけではありませんが、あなたの猫や犬が成し遂げる驚くべき偉業でさえ、現在のAIシステムの能力を完全に超えています。10歳の子供でもテーブルを片付けたり、食器洗い機に食器を入れたりすることができます。17歳の子供でも約20時間の練習で運転を習得できます。しかし、レベル5の自動運転車はまだ存在せず、ましてやテーブルを片付けたり、食器洗い機に食器を入れたりできる家庭用ロボットなど存在しません。

これは私たちがよく遭遇するモラベックのパラドックスです。私たちにとって些細なこと、知的だとさえ考えられないことが、機械にとっては非常に困難です。しかし、言語操作やチェスといった高度で複雑な抽象的思考は、機械にとっては非常に簡単なようです。

おそらく理由の一つは、言語モデルが通常20兆個のトークンで学習されることでしょう。典型的な言語におけるトークンは平均して単語の約4分の3で、これは1.5×10¹³語、6×10¹³バイトに相当します。これだけのテキストをすべて読むには、私たち人間が数十万年かかるでしょう。これは、インターネット上で公開されているテキストの総量とほぼ同等です。

4歳児は16,000時間起きており、その間に200万本の視神経線維が脳に入ります。各線維は1秒あたり約1バイト、場合によっては0.5バイトの情報を伝達するため、データ量は約10の14乗バイトになります。

したがって、4 歳児が見る視覚データは、インターネット全体で公開されているテキストに対して最大の言語モデルをトレーニングするために使用されるデータ量と同量になります。

このことから、次のような結論を導き出すことができます。

まず、テキストのみのトレーニングでは、人間に近いレベルの知能に到達することは決してできません。

第二に、視覚情報は非常に冗長性が高い。視神経線維は1秒間に1バイトの情報しか伝達しないため、網膜の光受容体と比較して100:1の圧縮率を実現している。この情報は脳に入り、そこで約50倍に拡大される。

冗長性は、実は自己教師学習に不可欠です。自己教師学習は、冗長性のあるデータからのみ有用な情報を学習できます。データが高度に圧縮されている場合、それはほぼランダムノイズと化しており、そこから何も学習できなくなります。

したがって、基本的にはビデオを視聴したり、現実世界で物事を体験したりすることで、システムに常識と物理学を学習させるようにトレーニングする必要があります。

機械学習の4つの柱を放棄する

それでは、この目標駆動型アーキテクチャとは何かについてお話ししましょう。これは言語モデルやフィードフォワードニューラルネットワークとは大きく異なります。推論の際には、ニューラルネットワークだけでなく、実際に最適化アルゴリズムも実行されるからです。

概念的には、次のように機能します。フィードフォワードプロセスとは、入力を観察し、一連のニューラルネットワークレイヤーなどの感知システムを介して実行し、出力を生成するプロセスを指します。

通常、単一の入力に対しては出力は1つしかありません。しかし、多くの場合、単一のセンサー入力に対して、出力の解釈は複数存在する可能性があります。必要なのは、単一の関数を計算するだけでなく、単一の入力を複数の出力にマッピングする処理を処理できることです。

これを実現する唯一の方法は、暗黙関数を使用することです。これは基本的に、右側の赤いボックスに示されている目的関数のようなものです。これは主に、入力と提案された出力の適合性を測定するために使用され、入力に最も一致する出力値を見つけることで最終的な出力が計算されます。

この目的関数をある種のエネルギー関数と考え、このエネルギーを最小化することで出力に対する最適化を行うことができます。複数の解が存在する可能性があり、それらの解を反復処理するメソッドが存在する可能性があります。

これが人間の知覚システムの仕組みです。ある特定の知覚について複数の解釈がある場合、脳は自動的にそれらの解釈を循環させます。

実は、この概念はかなり古く、60年以上も遡ります。これは最適制御理論の一分野であるモデル予測制御に基づいています。この分野では、ワールドモデルを用いて一連の制御コマンドの効果を計算し、それらのコマンドシーケンスを最適化することで、動作が期待どおりに進むようにします。従来のロボットの動作計画はすべてこの手法を用いており、新しいものではありません。

ここでの新しい点は、現実世界を抽象的に表現できる知覚システムである世界モデルを学習することです。これらすべての要素を組み合わせることで、包括的なAIシステムを構築できます。

したがって、アクションが単発ではなくシーケンスであり、世界モデルがT時点の世界状態と、T+1時点の世界状態を予測して実行する可能性のあるアクションを予測できる現実的なシステムである場合、このシナリオにおける2つのアクションシーケンスの結果がどうなるかを予測する必要があります。これは、世界モデルを複数回実行することで実現できます。

次に、バックプロパゲーションと勾配ベースの最適化手法を用いて、コストを最小化する2つのアクションを見つけます。これがモデル予測制御の基本原理です。さらに、世界は必ずしも完全に決定論的ではないため、潜在変数を世界モデルに入力する必要がある場合もあります。

さらに興味深いのは、インテリジェントシステムはまだこの問題を解決できないものの、人間は簡単に解決でき、動物でさえも階層的計画を実行できることです。

例えば、ニューヨークからパリへの旅行を計画していると想像してみてください。理論上は、世界に対する理解、自分の身体、そしてここからパリまでの地球全体の地形に対する意識を駆使して、低レベルの筋肉制御も含めた旅程全体を計画することができます。しかし、10ミリ秒ごとの筋肉制御まで細かく分解すると、その数は膨大になります。

そのため、人間は実際には階層的な計画アプローチを採用しています。まず非常に高レベルで計画を立て、それを徐々に洗練させ、最後に低レベルの筋肉制御によって具体的な行動を完了させるのです。

これはAIシステムにとってまさに大きな課題です。私は、赤ちゃんが言語やインタラクションを学ぶ前に、顔の追跡や生体運動といった世界に関する基本的な概念を何歳で習得するのかを解明しようとしてきました。しかし、重力、慣性、保存則、運動量といった概念は、実際には生後9ヶ月頃の赤ちゃんにしか認識されません。

テキスト予測によって動画内のピクセルを予測するといった従来の手法は、完全に失敗しています。本稿では、 Joint Embedding Prediction Architecture (JEPA)と呼ばれる新たなソリューションを提案します。このアーキテクチャでは、ピクセル予測を放棄し、世界で何が起こっているかの抽象的な表現を学習し、その表現空間において予測を行います。エンコーダには、破損したXとYの2つの埋め込みデータが入力されます。システムは、Xの表現からYの表現を予測するように学習されます。

それで、これをどうやって行うのでしょうか?

勾配降下法やバックプロパゲーションといった手法を単純に用いてシステムを学習し、予測誤差を減らすだけでは、システムは失敗する可能性があります。予測を容易にする定数表現を学習するかもしれませんが、その分、情報が失われてしまいます。

したがって、覚えておいていただきたいのは、予測子の再構築を試みる生成アーキテクチャ (オートエンコーダー、生成敵対ネットワークなど) と、表現空間で予測を行う結合アーキテクチャの違いです。

未来はこれらのジョイントアーキテクチャにあると私は信じています。画像の優れた表現を学習する最良の方法は、これらのジョイントアーキテクチャを用いることだという豊富な経験的証拠があります。

再構成を通して画像表現を学習しようとする手法はどれも最適ではなく、効果にも限界があります。一部の大規模プロジェクトではこれらの手法が有効であると主張していますが、実際にはそうではありません。右に示すアーキテクチャこそが、真に最高のパフォーマンスを発揮するのです。

これは実は、私たちが知能の分野で行っていることと非常によく似ています。つまり、物事や現象の適切な表現を見つけて予測を立てることです。まさにこれこそが科学の本質です。

たとえば、非常に複雑な天体である惑星の軌道を予測したい場合、予測を行うために必要なのは、3 つの位置座標と 3 つの速度ベクトルの 6 つのパラメータだけです。

次の質問は、そのようなシステムをどのようにトレーニングするかということです。

システムクラッシュを防ぐ一つの方法は、エンコーダからの表現に含まれる情報量を測定できる場合、その情報量を最大化するか、負の情報を最小化するようにコスト関数を設計することです。入力から可能な限り多くの情報を抽出しつつ、その表現空間における予測誤差を最小化するようにシステムを学習させる必要があります。システムは、可能な限り多くの情報を抽出しつつ、予測不可能な情報を抽出しないというバランスを見つけます。

このようにして、このスペースで予測を行うことができる適切な表現が得られます。

さて、情報をどのように測定するのでしょうか？ここが少し複雑になってきます。

この部分は省略します。エネルギーベースのモデルや訓練エネルギー関数の観点から数学的に理解する方法はありますが、深く掘り下げる時間はありません。

しかし、基本的に私がここでお話ししているのは、皆さんがこれまで考えてきたこととは異なる点がたくさんあるということです。

生成モデルを放棄し、代わりに Joint Embedded Prediction Architectures (JEPA) をサポートします。
確率モデルを放棄し、代わりにエネルギーベースのモデルをサポートします。
比較方法を放棄します。
また、強化学習を放棄するという考え方もあります。これは私が過去 10 年間にわたって話してきたことです。

これらは、現在最も人気のある機械学習の4つの主要な柱です。そのため、私は今のところあまり人気がないかもしれません。

最初の一連の手法は、エンコーダから出力される情報を推定し、その情報量を測定します。現在、これを実現できる手法は6つ知られています。ここでの核となる考え方は、システムクラッシュを防ぎ、定数のみを出力することです。

したがって、エンコーダから出力される変数の標準偏差がゼロでないことを確認する必要があります。この要件をサンプルバッチのコスト関数に組み込むことで、重みによって変数が定数に衝突することがないようにすることができます。これは比較的簡単です。

ここで問題となるのは、システムが「ごまかし」をして、すべての変数を等しくしたり、高い相関関係にしたりする可能性があることです。そのため、これらの変数の共分散行列の非対角要素を最小化することで、それらの独立性を確保する必要があります。

もちろん、これだけでは十分ではありません。変数間に相関関係が残っている可能性があるからです。そこで、SXの次元を高次元空間VXに拡張し、その空間で分散共分散正則化を適用するという別の手法を採用しました。これで十分だと思われます。

しかし、ここには重要な詳細があります。私は情報量の上限を最大化しようとしており、この上限が最大化されるにつれて実際の情報量が増加すると期待しています。本当に必要なのは、下限値です。下限値を押し上げることで情報量を増やすことができるのです。残念ながら、現時点では情報量の下限値は存在しません。あるいは、仮に下限値があったとしても、その計算方法が分かっていません。

2つ目の方法は「蒸留法」として知られ、不思議な仕組みで作用します。グリルが発見したこの方法は、そのメカニズムはまだ完全には解明されていませんが、驚くほど効果的です。

その中心的なアイデアは、モデルの一部のみを更新し、他の部分に勾配を逆伝播せず、興味深い方法で重みを共有することです。

この方法については数多くの論文で研究されてきました。

完全な教師あり学習によって画像の良い表現を学習するようにシステムを訓練したい場合、このアプローチは他のアプローチと同様に効果的です。私たちの最近の研究は、特にマスクによって画像の劣化がもたらされる場合のビデオ領域にも拡張されています。ビデオの良い表現を抽出できるようにシステムを訓練し、それを行動認識などの下流タスクに使用することができます。これは、ビデオセグメントを取得し、その一部をマスクし、モデルに通して表現空間で予測を行い、この蒸留技術を用いてシステムクラッシュを防ぐという手順で、非常に効果的に機能します。

したがって、将来このプロジェクトが成功し、最終的に物理世界を推論し、計画し、理解できるシステムを開発できたとしても、すべてが適切に機能するまでには数年、あるいは 10 年もかかる可能性があります。

もしこれをうまく実現できれば、デジタル世界とのあらゆるやり取りを真に仲介するシステムが実現するでしょう。それらのシステムは私たちのあらゆる疑問に答えることができ、常に私たちと共にあるでしょう。本質的には、あらゆる人類の知識の集積体となるでしょう。これは製品というより、インターネットのようなインフラに近いと言えるでしょう。

機械は人間の知能を超えるだろうが、制御されるだろう。

このAIプラットフォームはオープンソースでなければなりません。AIアシスタントは多様性を備え、世界中のあらゆる言語、文化、価値観を理解できる必要があるからです。

しかし、この機能は単一の企業が開発した単一のアシスタントだけでは実現できません。この多様性は、世界中の人々からの貢献によって実現される必要があります。もちろん、モデルの学習と定義には莫大なコストがかかるため、これを実行できる企業はごくわずかです。Metaのような企業がオープンソースの空間で基本モデルを提供できれば、世界中の人々がそれぞれのニーズに合わせて微調整できるようになります。

人工知能が人間レベルのパフォーマンスに到達するにはどれくらいの時間がかかるのでしょうか？分かりません。数年、あるいは数十年かかるかもしれません。そこには多くの不確実性があり、解決すべき問題も多く、私たちの想像をはるかに超える困難が待ち受けていることはほぼ間違いないでしょう。

それは一夜にして起こるものではありません。徐々に進化していくプロセスです。

したがって、ある日突然人工知能の秘密が明らかになり、機械の電源を入れるとすぐに超知能が備わり、私たち全員が超知能システムに置き換えられるというようなことは起こりません。

機械は人間の知能を超えるでしょうが、目標指向的であるため、制御されるでしょう。私たちは機械に目標を設定し、機械はその目標を達成します。ここにいる私たちの多くが、それぞれの産業界、学術界、あるいは他の分野のリーダーであるように。私よりも賢い同僚はたくさんいますが、だからといって彼らが支配したり、乗っ取ろうとしているわけではありません。

これで話は終わりですが、もちろんリスクは伴います。

参考リンク：https://www.youtube.com/watch...

618ZXW

LeCun 氏の最新の 10,000 語のスピーチ: 純粋言語モデルは人間のレベルに到達できないため、基本的に諦めています。

LeCun: 人間レベルの人工知能

人間レベルの AI とは何ですか?

テキストのみによるトレーニングでは、人間に近いレベルの知能を達成することは決してできません。

機械学習の4つの柱を放棄する

機械は人間の知能を超えるだろうが、制御されるだろう。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ