|
最近のインタビューで、ルカン氏はDeepSeekを大いに賞賛した。 彼は、DeepSeek は傑出した成果であり、そのオープンソースの性質は開発者だけでなく全世界に利益をもたらすと述べました。 しかし、ルカン氏はまた、DeepSeekに対する金融市場の反応として「システムのトレーニングがより安価に行えるようになったため、これほど多くのコンピューターは必要なくなる」といった発言は間違っていると指摘した。 結局のところ、インフラストラクチャの構築と投資のほとんどは、モデルのトレーニングではなく、モデルの実行に使用されます。 彼はまた、 OpenAIの「スターゲイト」プロジェクトに対する見解にも言及した。OpenAIは以前、ソフトバンクとオラクルと合弁会社を設立し、今後4年間で総額5,000億ドルをこのプロジェクトに投資すると発表していた。しかし、ルカン氏は、それがすべてを変えるとは考えていないと述べた。 彼は、このプロジェクトへの投資は実際には Microsoft や Meta への投資と同程度であり、両者に大きな違いはないと考えています。 さらに、ルカン氏は、現在の AI システムはまだ多くの点で非常に「愚か」であり、大規模な言語モデルだけでは不十分であり、AI の開発には複雑な物理世界を理解する必要があることを強調しました。 ルカン氏の大胆な発言はネットユーザーを驚愕させた。 現在の AI は愚かで知性が欠けていると言いながら、自分が構築しているものに独自の「感情」の概念を押し付けるのは、少し狂っていると思います。 もちろん、ルカン氏の意見に同意する研究者もいる。 QuantumBit では、原文の意味を変えずに、いくつかの問題を翻訳し、整理しました。 最新の面接質問集AIは人間と同じような感情を持つようになるのでしょうか?Q:私たちはAIを人間の能力に匹敵するレベルにまで引き上げることを目指しています。AIが人間の怒りのような感情を表現することは可能だと思いますか? LeCun:いいえ、そうは思いません。 現状、AIシステムは多くの点でまだ「愚か」です。AIシステムは言語をうまく扱えるため賢いと考えられていますが、実際には真の知性を備えていません。 彼らは物理世界を理解しておらず、私たち人間のような永続的な記憶も持ち合わせていません。真の意味で推論したり、計画を立てたりすることもできません。これらはすべて、知的行動の基本的な特徴です。 そこで、私と FAIR および NYU の同僚たちが取り組んでいることの 1 つは、依然としてディープラーニングに基づいた新しいタイプの AI システムの設計です。 このシステムは、物理世界を理解し、物理的な記憶を持ち、推論と計画能力を持つでしょう。私の考えでは、この設計図に従ってこのようなシステムを構築できれば、恐怖、興奮、失望といった感情を持つようになるでしょう。なぜなら、これらはすべて結果に対する期待だからです。 これらのシステムは、私たちが設定した目標に従って動作し、その目標を達成するためにどのような行動を取ることができるかを考えます。目標が達成されると事前に予測できれば、ある程度「満足」しますが、目標が達成されないと予測できれば、「不満」を感じます。 したがって、彼らは自分が取るかもしれない一連の行動の結果を予測することができるので、ある程度の感情を持つことになります。 しかし、怒りや嫉妬といった感情を人為的にプログラムに刻み込むわけではありません。 しかし、意識は別の問題です。私たちはそれが何なのか、実際には知りません。真の定義はなく、何かが意識を持っているかどうかを判断できるような、真に測定可能なものもありません。 動物を観察する時と同じように、類人猿には意識がある、そしておそらくゾウやそれに似た動物にも意識があるだろう、という点には同意するでしょう。しかし、犬には意識があるのでしょうか?ネズミには意識があるのでしょうか?その境界線はどこにあるのでしょうか? 意識の適切な定義がないので、実際に判断することはできません。 機械学習の3つのモデルについて議論するQ:当時は機械学習はひどいと言っていましたが、今は状況は変わりましたか? ルカン氏:まさにそれが私たちの研究テーマです。人間や動物と同じくらい効率的に学習できる機械学習システムを構築する新しい方法を模索しています。現状では、そのような方法は確立されていないからです。 機械学習が過去数十年にわたってどのように発展してきたかをお話しします。実は、機械学習の初期の主なモデルは3つあります。 1 つのタイプは教師あり学習と呼ばれ、最も古典的なものです。 教師あり学習システムの学習方法は次のとおりです。例えば、画像認識に使用するシステムの場合、画像、例えばテーブルの写真を見せ、「これはテーブルです」と指示します。これが教師あり学習です。正しい答え、つまりシステムコンピュータが出力すべきものをシステムに指示します。 「テーブル」が提供されない場合は、出力が希望する結果に近づくように、独自のパラメータ、つまり内部構造が調整されます。 テーブル、椅子、車、猫、犬など、多数の例を使ってトレーニングを続けると、最終的にはシステムはトレーニングに使用したすべての画像を認識する方法を見つけ出し、さらに、トレーニング画像に類似しているが、これまで見たことのない画像も認識できるようになります。これを汎化能力と呼びます。 動物や人間の学習方法に近いと考えられる「強化学習」と呼ばれるモデルもあります。 強化学習では、システムに正しい答えを教えるのではなく、システムが生成した答えが良いか悪いかを伝えるだけです。これは、ある程度、人間や動物の学習の種類を説明できます。例えば、自転車に乗ろうとするとします。最初は乗り方がわからず、しばらくすると転んでしまいます。これで、うまく乗れていないことが分かります。そこで、少し戦略を変えることで、最終的には自転車に乗れるようになります。 しかし、強化学習は非常に非効率であることが証明されています。 チェス、囲碁、ポーカーをプレイするようにシステムを訓練したい場合、この方法は非常に有効です。なぜなら、システムに何百万回もの自己対戦を行わせ、その後、微調整を加えることができるからです。 しかし、現実世界ではあまり応用できません。車を自動運転するように訓練する場合、強化学習は使えません。そうしないと、何千回も衝突してしまうでしょう。ロボットに物を掴む方法を学習させる場合、強化学習は解決策の一部にはなりますが、すべてではありませんし、強化学習だけでは不十分です。 したがって、自己教師学習と呼ばれる 3 番目の学習形式が存在します。 自己教師学習は、自然言語理解とチャットボットの近年の進歩を牽引してきました。自己教師学習では、特定のタスクを実行するようにシステムを訓練するのではなく、入力の構造を捉えるように訓練します。 たとえば、テキストおよび言語処理のアプリケーションでは、テキストの一部を取得し、いくつかの単語を削除するなど、何らかの方法でテキストを破損させてから、欠落した単語を予測するようにシステムをトレーニングします。 このアプローチの特殊なケースとして、最後の単語が見えないテキストセグメントを扱う場合が挙げられます。この場合、システムをそのテキストの最後の単語を予測するようにトレーニングします。これは、大規模な言語モデルやあらゆるチャットボットのトレーニングに用いられる手法です。 技術的な側面は異なるかもしれませんが、基本的な原理は同じです。これは自己教師学習と呼ばれます。特定のタスクのためにシステムを訓練するのではなく、入力コンテンツの内部的な依存関係を学習するように訓練します。 自己教師あり学習の成功は驚くべきものです。驚くほどうまく機能し、最終的に得られるシステムは言語を真に理解しているように見えます。さらに、教師あり学習や強化学習を通して微調整し、質問に正しく答えられるようにすれば、これらのシステムは質問を理解できるようになります。 これは現在業界の誰もが熱心に研究している方向性ですが、物理世界を理解するシステムが必要な場合、このモデルは機能しません。 AIシステムに欠けている重要な要素について議論するルカン:物理世界は言語よりもはるかに理解しにくいものです。言語は人間だけが使えるため、知性の重要な側面だと思われがちですが、実際には言語は比較的単純なものであることが分かっています。 これは離散的であり、離散的なシンボルのシーケンスであるため単純です。 辞書に含まれる単語の数は有限であるため、次の単語を正確に予測するようにシステムを訓練することはできませんが、辞書内の各単語がその位置に出現する確率を推定するように訓練することは可能です。これが予測における不確実性への対処方法です。 ただし、ビデオで何が起こるかを予測するようにシステムをトレーニングすることはできません。 これまでも多くの人がこの試みに取り組んできましたし、私自身も20年間取り組んできました。もしシステムを訓練して動画の中で何が起こるかを予測できれば、そのシステムは無意識のうちに世界の根底にある構造、例えば物理学の直感的な知識や、動物や人間が幼児期に学ぶ物理学のあらゆる知識を理解するようになるでしょう。 ご存知の通り、物を拾って放すと、それは落ちます。重力によって地面に引っ張られるのです。人間の赤ちゃんは生後9ヶ月頃にこれを学習します。 これは難しい問題です。猫や犬はわずか数ヶ月で重力について学習できますが、猫は特にそれが得意です。複雑な動きを計画し、登ったり降りたり、ジャンプしたりすることができます。彼らはいわゆる直感的な物理学を非常によく理解しています。そして、これをコンピューターで再現する方法はまだわかっていません。 その理由は、AI研究者が「モラベックのパラドックス」と呼んでいるものだからです。 ハンス・モラベックはロボット工学の専門家です。彼は、コンピューターにチェスをさせたり数学の問題を解かせたりすることはできるが、動物のように物体を操作したりジャンプしたりするといった物理的な動作をさせることはできないと指摘しています。 これはパラドックスのもう一つの例です。離散的なオブジェクトとシンボルの空間はコンピューターで簡単に処理できますが、現実の世界は非常に複雑なため、ある状況で機能する手法が別の状況では機能しない可能性があります。 これを直感的に理解したい場合、次の方法が良いでしょう。視覚や触覚などの感覚を通して受け取る情報の量は、言語を通して受け取る情報量に比べて非常に膨大です。 これが、大規模な言語モデルや、司法試験に合格したり、数学の問題を解いたり、まともな記事を書いたりできるチャットボットが存在する理由を説明できるかもしれません。しかし、家庭用ロボットはまだ存在していません。猫や犬ができるような作業をこなせるロボットもまだ存在していません。レベル5の完全自動運転車もまだ存在していませんし、20時間ほど練習すれば17歳の子供のように運転できるようになる自動運転車ももちろん存在しません。 つまり、視覚のような複雑な感覚入力を理解するためにシステムをどのようにトレーニングするかという、非常に重要なことが欠けていることは明らかです。 動物や人間に匹敵する知能を持ち、常識を持ち、ある段階では意識やその他の能力も備え、世界の複雑さに真に対処できる機械を実現したいのであれば、私たちはこの課題を克服する必要があります。 典型的な大規模言語モデルは、約10の14乗バイト、つまり1の後に14個のゼロが続くバイトで構成されます。これは、インターネット上で公開されているすべてのテキストの総量に相当します。この資料をすべて読むには、私たち人間が数十万年かかるでしょう。これは極めて膨大な情報量です。 大規模言語モデルの情報量と、生後4年間に視覚系を通して脳に取り込まれる情報量を比較すると、幼児は約16,000時間起きています。視神経に到達する情報量は約2MB/秒です。これは約10の14乗バイトに相当します。 言い換えれば、幼児が最初の 4 年間に接する情報やデータの量は、最大の言語モデルによって処理される情報量とほぼ同等です。 これは、テキストを使った学習だけでは人間レベルの人工知能を実現することは決してできないことを示しています。システムは現実世界を理解しなければなりません。そして、現実世界ではそれを実現することは非常に困難です。 Q: LinkedInとFacebookのページでAIとエントロピーについて言及されていますが、どのような関連性があるのでしょうか?文章が分かりにくいですね。分かりやすく説明していただけますか? LeCun:これは常に私を魅了してきた問いです。コンピュータサイエンス、物理学、情報理論、その他多くの分野における多くの問題の根源です。つまり、情報をどのように定量化するか、つまりメッセージにどれだけの情報が含まれているかということです。 メッセージに含まれる情報量は絶対的な量ではないと、私は何度も述べてきました。なぜなら、それはそれを解釈する人によって決まるからです。センサーから、口頭で伝えられるメッセージから、あるいはその他あらゆるものから抽出できる情報量は、それをどのように解釈するかによって決まるのです。これが重要な点です。 情報を絶対的な尺度で測れるという考えはおそらく間違いです。あらゆる情報の尺度は、それを解釈する特定の方法に相対的なものなのです。これが私がずっと言おうとしてきたことです。 これは非常に広範な意味合いを持ちます。なぜなら、情報を測定する絶対的な方法がなければ、物理学の多くの概念は、例えばエントロピーのように客観的な定義を持たないからです。エントロピーは、物理系の状態について私たちがどれだけ知らないかを示す尺度です。もちろん、これはその系についてどれだけ知っているかによって異なります。 したがって、私はエントロピー、複雑性、または情報コンテンツを定義するための良い方法を見つけようと粘り強く取り組んできました。 Q: AIモデルのトレーニング用グローバルデータベースは限界に達したと思いませんか? 2000年にはデータの25%をデジタル化しましたが、現在では全データの100%をデジタル化しています。 ルカン:いいえ、デジタル化されていないテキスト知識は依然として大量に存在します。さらに、多くの先進地域では多くのデータがデジタル化されているかもしれませんが、そのほとんどは公開されていません。 例えば、医療データは膨大な量が公開されておらず、世界の多くの地域の文化データや歴史データもデジタル形式では入手できないか、あるいは入手できたとしてもスキャンされた文書の形でしか存在していません。そのため、それらは利用可能なテキストのようなものではありません。 したがって、その発言は誤りであり、適切に活用されていないデータが依然として大量に存在すると考えています。 O1型推論モデルについてQ: O1のような自由推論や抽象的思考モデルについてはどうでしょうか?あなたの研究室でも同様の結果が得られると期待できますか? LeCun: ディープラーニングの鍵は、観察結果から抽象的な表現を注意深く構築するという問題にあります。ディープラーニングの核心は、表現を学習することです。 実際、私は深層学習分野における主要な会議である「国際学習表現会議(ICLR)」の共同設立者の一人です。これは、抽象表現の学習という問題がAI全体、特に深層学習にとっていかに重要であるかを示しています。 今日、システムに推論を実行させたい場合、別の特性セットを備える必要があります。AIの分野では、推論や行動計画には長い歴史があり、関連する研究は1950年代にまで遡ります。古典的なモデルは、問題に対する解決策を探索する方法を見つけることです。 たとえば、都市のリストを渡し、それらすべてを通る最短ルートを見つけるように頼まれたとしたら、全体の移動ができるだけ短くなるように最も近い都市から出発するべきだと思うでしょう。 さて、あらゆる可能な経路、つまりあらゆる都市配置の集合からなる空間が存在します。これは非常に広大な空間であり、GPSなどのアルゴリズムは、あらゆる可能な経路の中から最短経路を見つけることで経路を探索します。あらゆる推論システムは、この探索概念に基づいています。 言い換えれば、可能な解決策の範囲内で、希望する目標を満たす解決策を探すことになります。 既存の大規模言語モデルなどの現在のシステムは、この探索を非常に原始的な方法で実行します。いわゆるトークン空間(出力空間でもある)内で探索を行います。つまり、基本的には、システムが多数の異なるトークンシーケンスを多かれ少なかれランダムに生成し、別のニューロンを用いてこれらの仮説シーケンスすべてを調べ、最も適切と思われるシーケンスを見つけて出力します。 これは膨大なリソースを消費します。なぜなら、膨大な出力を生成し、その中から最適なものを選択する必要があるからです。さらに、これは人間の思考方法ではありません。私たちは、膨大な数のアクションを生成し、その結果を観察し、どれが最善かを判断するような思考はしません。 例えば、目の前に立方体が浮かんでいるところを想像してください。そして、その立方体を持ち上げて、垂直軸を中心に90度回転させます。すると、90度回転した立方体になります。今度は、この立方体を想像してください。回転させる前の立方体と同じに見えるでしょうか?答えは「はい」です。 ご存知のように、立方体を 90 度回転させて、同じ視点から見ると、同じに見えます。 Q: それは自由な推論の幻想ですか? LeCun:あなたがやっていることは、出力行動状態や行動空間ではなく、精神状態での推論です。 言い換えれば、出力状態に関係なく、抽象空間で推論していることになります。 したがって、私たちは世界についてのメンタルモデルを有しており、それによって何が起こるかを予測し、現実を操作し、行動の結果を予見することができます。例えば、立方体を90度回転させるなど、行動の結果を予測できれば、特定の目標を達成するための一連の行動を計画することができます。 したがって、私たちが意識的にタスクを達成しようとするときはいつでも、私たちの思考はすべてそれに集中し、何かをうまく行うためにどのような一連の行動をとる必要があるかを考えます。 基本的に、私たちが日々注意深く行うこの種の作業はすべて計画が必要です。そして、ほとんどの場合、私たちは階層的な方法で計画を立てます。 例えば、最終ステップにいきなり飛びつくことはありません。ニューヨークからワルシャワに戻ると決めた場合、空港に行って飛行機に乗る必要があることは分かっています。すると、空港に到着するというサブゴールが生まれます。これが階層的な計画のポイントです。 ある時点で、椅子から立ち上がるといった、それ以上計画を立てる必要がないほど具体的な目標を設定するようになります。この動作は既に慣れているので、それ以上計画を立てる必要はありません。直接実行でき、その動作を完了するために必要な情報はすべて揃っています。 したがって、階層的な計画が必要であり、インテリジェントシステムにも階層的な計画が必要です。この概念は非常に重要です。現時点では、機械にこれを実行させる方法が分かっていません。これは今後数年間の大きな課題です。 DeepSeekとOpenAI Stargateについて議論するQ:世界中で新しいモデルDeepSeekが話題になっています。これはOpenAIの一部のモデルよりもはるかに安価です。これはもう決着がついていて、運命は決まったとお考えですか?このことについて、どうお考えですか? LeCun:明確にしておきたいことがあります。研究成果が公開される場合、その成果を生み出すために使用された技術、あるいは関連論文、ホワイトペーパー、レポートなども公開され、コードがオープンソースであれば、世界中がその恩恵を受けることができます。 分かりましたか?成果物のクリエイターだけが恩恵を受けるわけではありません。成果物を作ったクリエイターやチームは名声と認知度を高め、世界全体がその恩恵を受けることができるのです。それがオープンソースの魅力です。 Metaは、個人としても企業としても、常にオープンリサーチとオープンソース哲学を強く支持してきました。オープンソースリサーチを実践する組織が成果を上げるたびに、オープンソースコミュニティ全体がその恩恵を受けます。 これを競争的な状況だと表現する人もいますが、実際はそうではなく、むしろ協力関係のようなものです。 問題は、このコラボレーションをグローバルなものにしたいかどうかです。私の答えは「はい」です。なぜなら、優れたアイデアは世界中から生まれる可能性があるからです。優れたアイデアを単一の機関が独占することはできません。だからこそ、オープンなコラボレーションこそが、この分野の発展を加速させるのです。 業界の中には過去にもオープンリサーチを実践して成功した人がおり、OpenAI はその一例です。 Anthropic はこれまで一度もオープンになったことがなく、すべてを秘密にしてきました。 Googleは、部分的なオープン化から、ほぼ閉鎖的なアクセスへと徐々に移行してきました。例えば、Palmを支える技術のすべてを公開しているわけではありません。現在も多くのオープンな研究を行っていますが、それは主に基礎研究と長期的な研究です。 多くの人々が本質的に世界的な研究コミュニティから自らを排除し、この分野の発展に参加したり貢献したりしていないことを私は非常に残念に思います。 AI分野が過去10年間で急速に発展した理由は、オープンリサーチにあります。これは単なる私の意見ではなく、事実です。 例を挙げましょう。AI業界全体、少なくともシステム構築の研究開発段階では、PyTorchと呼ばれるオープンソースソフトウェアが使用されていると言っても過言ではありません。これは当初、MetaFAIRラボの同僚によって開発され、その後、多くの人々が参加するようになりました。 数年前、PyTorchの所有権はLinux Foundationに移管され、Metaは主要なコントリビューターではありましたが、もはやコントロール権は失いました。PyTorchは開発者コミュニティによって効果的に管理されており、OpenAIをはじめとする多くの企業を含む、事実上業界全体で利用されています。 Google には独自のソフトウェアがありますが、Microsoft や Nvidia などの企業も PyTorch を使用しており、世界中の学術コミュニティや研究全体で PyTorch が使用されています。 科学文献に掲載されている論文の約70%でPyTorchが言及されていると私は考えています。これは、AI分野の進歩が他者の研究成果の上に成り立っていることを示しています。さらに、これは技術の進歩にとって論理的な道筋です。 Q: DeepSeek がなかったら、OpenAI の Stargate プロジェクトはすべてを変えていたでしょうか? ルカン:いやいや DeepSeekについて少し考えを述べさせてください。これは素晴らしい成果であり、関わったチームは素晴らしいアイデアを持っており、間違いなく素晴らしい仕事を成し遂げました。 中国がこれほど優れた革新的な成果を生み出したのは今回が初めてではありません。私たちはこれを以前から認識しており、特にコンピュータービジョンの分野では進歩が顕著です。 大規模言語モデルへの中国の貢献は比較的最近のことですが、コンピュータービジョンの分野では、トップクラスのコンピュータービジョン会議に多くの中国人が出席しています。彼らは皆、非常に優れた才能を持つ優秀な科学者です。そのため、世界のどの地域も優れたアイデアを独占することはできません。 DeepSeekのアイデアはすぐに模倣されるかもしれませんが、すでに世界の知識の一部となっています。それがオープンソースとオープンリサーチの素晴らしさです。製品レベルでは競争かもしれませんが、根本的な方法論レベルでは、まさに協働なのです。 さて、「スターゲイト」プロジェクトについてお話しましょう。今日、AI分野に関わるすべての企業は、数十億人の人々が毎日AIアシスタントを使いたがる、それほど遠くない未来を予見しています。 今、メガネをかけています。このメガネのカメラが見えるか分かりませんが、Meta社の製品です。話しかけることができます。AIアシスタントに接続されていて、どんな質問でもできます。カメラを通して植物の種類などを識別することもできます。 そのため、私たちは、人々がスマートグラスやスマートフォンなどのスマートデバイスを身に着け、日常生活の中で AI アシスタントを常に使用する未来を思い描いています。 これは、AIアシスタントのユーザーが数十億人に達し、1日に何度も使用することを意味します。そのためには、非常に大規模なコンピューティングインフラストラクチャが必要になります。大規模な言語モデルやAIシステムの運用にはコストがかかるため、強力なコンピューティング能力が求められます。 ご存知のとおり、Meta は今年、主に AI 分野のインフラに約 600 億~ 650 億ドルを投資しており、Microsoft はすでに 800 億ドルの投資を発表しています。 スターゲイト プロジェクトは 5,000 億ドルを投資する予定ですが、これは 5 年から 10 年にわたる投資であり、資金がどこから調達されるかは不明です。したがって、Microsoft や Meta が行った投資と同程度の大きさであり、両者の間に大きな違いはありません。 これは大規模モデルの学習のためのものではなく、実際には比較的安価です。投資の大部分は推論、つまり数十億人の人々を支援するAIアシスタントを実行するためのものです。 したがって、金融市場が DeepSeek に対して「システムのトレーニングをより安価に行えるようになったため、これほど多くのコンピューターは必要なくなる」などと反応するのは間違っていると私は考えています。 つまり、学習は多少効率化されるものの、結果としてより大規模なモデルしか学習しなくなるということです。そして最終的には、インフラと投資の大部分は、学習ではなくモデルの実行に投入されることになります。投資はモデルの実行に向けられるべきなのです。 元動画リンク: https://www.youtube.com/watch... 参考リンク: https://x.com/vitrupo/status/... |