|
データホエール データホエールの共有 転載元:Zhihu、著者:Star-Picking Fox 編集者: MLNLP ヤン・ルカン氏のアドバイスは実に明快です。LLMの学位は既に大企業の手に渡っており、学生にできることはほとんどありません。既存の道を進むのではなく、より多くの可能性を探求する方が良いのです。「LLMの限界をなくそう!」と。しかし、これを文字通りに解釈するのはあまりにも表面的なので、もう少し深く掘り下げて議論しましょう。 ルカン氏の意見ルカン氏による大規模言語モデルへの批判は長年続いている。彼は2022年という早い時期に、言語は人類の知識のほんの一部しか担っておらず、人類の知識の大部分と動物の知識はすべて非言語的であるため、大規模言語モデルは人間レベルの知能に到達できないと指摘した。彼は一貫して大規模言語モデルの能力に懐疑的であり、複雑な世界を理解するには限界があると考えている。 ルカン氏は、現在のAI研究は生成モデルや強化学習といった主流のアプローチを放棄すべきだと考えています。自己教師あり学習の方が、汎用人工知能(AGI)へのブレークスルーを達成する可能性が高いと主張しています。AIの未来は、大規模言語モデルだけに頼るのではなく、より多様な技術的方向性を模索すべきだと考えています。これは彼の一貫した見解です。 この見解の背景には、大規模モデルに内在する限界に対する懸念があります。業界がいわゆる「強力かつ効率的な」大規模モデルを必死に推進しているのは、基盤となるアーキテクチャの研究が遅々と進んでいないことに一因があり、待つにはあまりにも焦りすぎているのです。 LLM の現在の制限は何ですか?現在のLLMのほとんどはTransformerアーキテクチャに基づいており、その中核となるのはセルフアテンションマシンです。このマシンは、入力シーケンス内の各要素について、他のすべての要素に対するアテンションスコアを計算する必要があります。シーケンスの長さが長くなると、この計算の複雑さは2乗的に増加し、計算コストが急激に増加します。さらに、セルフアテンション層のメモリ要件は入力シーケンスの長さに比例するため、シーケンスが長くなるとメモリ消費量も大幅に増加します。これが、LLMにコンテキスト長制限がある理由です。 モデル出力の観点から見ると、大規模言語モデルは一貫性のあるテキストを生成できるものの、生成された単語の文脈や意味を完全に理解できない場合があります。つまり、生成されるテキストは深みに欠けたり、会話の文脈との関連性が不完全だったりする可能性があります。例えば、大規模言語モデルは学習過程において出来事の時系列的順序の概念を欠いているため、「時間」を理解できない可能性があります。空間的には、同じ出来事を記述する複数のテキストを処理する際に、大規模言語モデルはそれらの間のつながりを認識できず、一貫性のある完全な世界観を形成できない可能性があります。 モデルが行うことはすべて次のトークンを推測することであるため、モデルは実際には「自分が知っていること」を知っているわけではなく、大規模な言語モデルの意思決定プロセスは多くの場合ブラック ボックスになり、解釈可能性に欠け、デバッグが困難になります。 これらの問題に対処するため、様々な手法が検討されてきました。例えば、ディープラーニングモデルのエネルギー消費量を削減しながらパフォーマンスを維持または向上させるために、モデルのプルーニング/圧縮/蒸留、軽量アーキテクチャ、モデル並列化、データ並列化といった手法が考案され、より小規模なモデルで同等、あるいはそれ以上の結果を達成することが期待されています。 しかし、ルカン氏の見解では、これらはすべて単一の道を追求する試みであり、一時的な解決策に過ぎず、根本的な原因には対処していない。コンピュータサイエンスの学生にとって、たとえ十分な計算能力を持っていたとしても、法学修士課程の限界を突破するような成果を生み出すことは容易ではない。 LLMの学際的応用大規模モデルの限界を克服しようとするよりも、より有望な方向性は、その学際的な応用を探求することです。例えば、清華大学のNie Zaiqing教授のチームが開発したマルチモーダルな生物医学大規模モデルであるBioMedGPTは、遺伝子、分子、細胞、タンパク質、文献、特許、知識ベースなど、複数のソースからの異種データを統合します。これにより、創薬標的の発見、リード化合物の設計と最適化、タンパク質設計といった分野への応用が容易になります。 学生にとっては、これは成果を上げやすくなるかもしれません。一方で、学際的な研究は、専門データベース、実験装置、分野専門家の知識といった既存のリソースをより効果的に活用することを可能にし、計算能力不足によるフラストレーションを回避します。また、プロジェクトを通じて大規模モデリング技術を特定の分野に適用する方法を学ぶことは、技術を実際のアプリケーションに応用する能力を習得することにも役立ち、多くの学生の就職に有利に働きます。さらに重要なのは、学際的な分野の最先端はイノベーションが最も集中している場所であることが多く、ここで働くことで計り知れない価値を生み出すことができるということです。 もちろん、LLM を使用して学際的なアプリケーションを作成するには、エンジニアリング スキルが不可欠です。 世界モデルLLM が AI の究極の方向性ではないとしたら、それは何なのでしょうか? Yann LeCun 氏はその答えとして「世界モデル」を提示しています。 ルカンが提案した自律知能のためのシステムアーキテクチャ 世界モデルとは、知能システムが現実世界をどのように捉え、シミュレートするかを記述する概念フレームワークです。知能エージェントの認知機能、論理的推論、意思決定に不可欠です。特に、世界モデルは自然法則、社会構造、そして人間の思考プロセスに関する深い洞察を包含しており、AIが環境状態をより正確に識別し、外部の変化に対応する能力を提供します。正確な世界モデルを構築することで、AIシステムはそのモデル内で反復処理と実験を行い、現実世界における最適な意思決定を行うことができます。ヤン・ルカンは、世界モデルが強力な人工知能(AGI)への重要な技術的道筋の一つであると考えています。 世界モデルを理解するために、2種類の技術に例えてみましょう。1つ目はマルチモーダル大規模モデルです。Soraが開発された当初、多くの人はそれを世界シミュレーターだと考えていました。しかし、Soraは動画を生成できるものの、どちらかといえば動画ツールであり、反事実的推論、つまり実データなしに「もし~だったら」といった質問に正確に答える能力が不足していることが判明しました。Soraは物理法則を正確に学習できなかったため、単にデータを積み重ねるだけでは高度な知能を実現できない可能性があります。一方、世界モデルの最大の特徴は、反事実的推論を実行できることです。 もう一つのシナリオはデジタルツインです。この技術は一般的にデータ駆動型のアプローチに基づいており、物理的な実体またはプロセスを表すデジタルコピーを作成します。デジタルモデリング技術、リアルタイムデータ収集、シミュレーション実行、そして詳細な分析を活用することで、デジタルツインは元のシステムと同期し、そのパフォーマンスを効果的に監視・改善することができます。このアプローチにより、ユーザーは仮想環境における物理システムの動作をシミュレーション、予測、最適化することができ、効率性の向上とリスクの軽減につながります。しかし、時間の経過とともに、純粋にデータ駆動型のデジタルツインでは複雑なシステムのニーズを満たすことができなくなります。例えば、スマートビルディングでは、温度、湿度、エネルギー消費量など、建物内の環境条件を監視・制御するためにデジタルツインを使用しています。しかし、建物の実際の使用状況は、季節、天候、居住者の行動によって変化する可能性があります。モデルがこれらの動的な変化に適応できない場合、最適化の推奨事項は適用できなくなります。まさにこの点において、ワールドモデルが優れた能力を発揮し、システムは膨大な量のセンサーデータを統合・解釈して、将来の潜在的なシナリオを予測することができます。 AI分野での活躍を目指す人にとって、法学修士課程は現在を象徴し、世界モデルは未来を象徴すると言えるでしょう。大規模モデルに関しては、単純な言語モデルはマルチモーダルモデルほど将来性がないかもしれません。これは、技術スタックがまだ収束しておらず、マルチモーダル学習とクロスモーダルアライメントが依然として技術的な課題となっているためです。しかし、反事実的推論においてブレークスルーが達成されれば、AIの意思決定能力は大幅に向上し、真のAGI(自動生成知能)につながる可能性が高まります。 |
学生に大規模モデルに取り組まないようにアドバイスするヤン・ルカンのツイートをどう解釈すべきでしょうか?
関連するおすすめ記事
-
長らく行方不明だったゲーム界の伝説、李牧がビリビリでのアップデートを再開し、ラマ 3.1 論文の朗読をリードし、ラマ 3.1 アリーナで 3 位にランクされました。
-
DeepMind のベテランが AI プログラミング ベンチャーを立ち上げ、デビュー時に 1 億 5,500 万ドルを確保、Nvidia と Sequoia Capital が投資を競う – チームはまさに驚異的です。
-
『白蛇伝 浮世』の総レンダリング時間は2億5200万コア時間に到達!Tencent Cloudが独占技術サポートを提供。
-
SAM 2の最新アプリケーションが開発されました!オックスフォード大学のチームが医療用SAM 2をリリース。医療画像セグメンテーションにおける評価の新たな境地を切り開きます。
-
MIT/CETIチームが機械学習を用いてマッコウクジラの音声アルファベットを解読しました!人間の言語システムに非常によく似ており、情報伝達能力がはるかに高いことが分かりました!
-
科学研究のためのAI検索が登場!Zhihuの直接的な回答が、正規の学術論文データベースと統合され、直接テストできるようになりました。