道楽が奥飛寺、QuantumBitからレポート | WeChat公式アカウント QbitAIAGIはいつ実現するのでしょうか?Google DeepMindのCEO、デミス・ハサビス氏は最近のインタビューで次のように予測しました。 10年です。 今後 10 年以内に AGI が登場しても驚かないでしょう。 このインタビューで、ハサビス氏は AI の開発動向について詳しく語りました。 その中には、次のような誰もが非常に関心を持つトピックがいくつかあります。 AIは短期的には過大評価されてきましたが、長期的にはその潜在力と影響は過小評価されたままです。 Google の「スーパー チーム」として、Google DeepMind は商業的利益と科学的研究のバランスを取る必要があります。 オープンソースは技術の進歩にとって重要ですが、悪用される可能性のある技術に関しては、悪用を評価して制限するためにオープンソース化する前に 1 年待つ必要があるかもしれません。 詳細は下記テキスト版をご覧ください。 初期段階のAI「実装上の問題」Q :今日のインタビューには、DeepMindの共同創業者であり、現Google DeepMind CEOのハサビス氏をお招きしました。 ハサビス:ありがとうございます。インタビューに参加できて光栄です。以前、概念や言語が、シミュレーション環境やロボットが持つ実際の知能など、現実世界にどのように応用されているかについてお話ししました。これらは、私たちが周囲の世界を理解するために必要となるかもしれません。 しかしながら、これらのシステムはまだ理想的なレベルに達していないことを認めなければなりません。多くの誤りを犯し、世界の完全なモデルを真に構築できているわけではありません。それでもなお、言語学習のみを通じて達成された進歩は、私たちの期待をはるかに上回っています。 Q :前回は、言語を現実世界でどのように応用するかについて多くの議論をしました。「応用」とはどういう意味か、簡単に説明していただけますか?初めてインタビューをご覧になる方が混乱しないよう、ご説明いただければ幸いです。 ハサビス: 「実装」という概念は、1980年代から1990年代にかけてMITなどの学術機関で構築された古典的なAIシステムに由来しています。これらのシステムは主に巨大な論理システムであり、相互接続された多数の単語を含む巨大なデータベースとして想像できます。 しかし、問題は、「犬は4本足である」といった記述はデータベース内に見つかるものの、システムが実際の犬の写真に直面した際に、それらのピクセルをデータベース内のシンボルと一致させることができないことです。これは「ランディング問題」として知られています。 言い換えれば、システムは記号や抽象的な表現を保有しているものの、現実世界におけるそれらの表現の具体的な意味を理解することができないのです。それ以来、この問題の解決に向けた試みは続けられてきましたが、完璧な解決策は未だに達成されていません。 過去のシステムとは異なり、今日の AI システムはデータから直接学習し、最初からデータと現実世界とのつながりを確立します。 興味深いことに、これらのシステムが最初は言語のみに基づいて学習したとしても、シミュレータ、ロボット、または現実世界の他の形式の入力に接続されておらず、言語空間でのみ学習するため、理論的には「着陸」に必要な多くの情報が欠けているはずです。 しかし驚くべきことに、これらのシステムは依然として現実世界に関するある程度の知識を推測することができます。 Q :これはおそらく、人々がシステムとインタラクションする過程で、どの答えが正解でどの答えが不正解かをシステムに伝えるからでしょう。こうしたフィードバックを通して、システムは「根拠のある」情報を受け取り、徐々に現実世界とのつながりを築いていくのです。 ハサビス氏:確かに、初期バージョンでは「犬はどのように吠えるのか」といった質問に誤って答えるなど、「根拠のある」情報が不足しているためにシステムが間違った答えを出した場合、人々のフィードバックによってそれが修正されるでしょう。 このフィードバックは私たち自身の「実践的」知識に基づいているため、システムはある程度、このフィードバック内の情報を吸収して学習します。 短期的には過大評価されているが、長期的には過小評価されている。Q :それと、AIの誇大宣伝についても質問があります。現状は、誇大宣伝が不十分なせいでしょうか、それとも過剰なせいでしょうか? ハサビス氏:後者だと思います。短期的には、誇大宣伝が少し行き過ぎているように思います。 AIは何でもできるとよく言われますが、実際にはそれほど強力ではありません。多くのスタートアップ企業やベンチャーキャピタリストが、あまり成熟していない非現実的なアイデアを追いかけています。 一方で、現状でもまだ過小評価されているというか、十分な注目を集めていないように思います。特にAGI、そしてポストAGIの段階に入っていく中で、これがどれほど大きな変化をもたらすのか、そしてそれに伴う責任について、人々が十分に理解していないように感じます。 したがって、短期的には確かに過大評価されているが、長期的には依然として過小評価されていると私は考えています。 マルチモーダルGeminiからAstra汎用AIエージェントへQ : さて、このインタビューから重要な質問をしたいと思います。Gemini は、他の研究室がリリースした他の大規模言語モデルとどう違うと思いますか? ハサビス:プロジェクト・ジェミニの当初から、複数種類のデータを同時に処理できるようにするという目標を設定していました。テキストだけでなく、音声、動画、画像、コードなど、あらゆる形態の情報を解析できるようにしたいと考えていました。 私たちは、システムが現実世界のさまざまな情報を理解し、処理できる場合にのみ、真に世界を理解し、より正確で包括的な世界モデルを構築できると確信しています。 これは実際には、上で述べた「実装」の問題の拡張ですが、今回はこれを達成するための基盤として言語を使用しています。 Q : では、「実装」が依然としてプロジェクト全体の鍵となるのでしょうか? ハサビス氏:確かに、それは重要です。 私たちには究極の目標があります。それは、万能アシスタントを開発することです。私たちは「Astro」というプロトタイププロジェクトを開発しました。これは、ユーザーの入力を理解するだけでなく、周囲の環境も認識することができます。 あなたのパーソナルアシスタントやデジタルアシスタントが、あなたの問題の背景やあなたが置かれている状況をより深く理解することができれば、どれほど効果的になるか想像してみてください。そのため、私たちはこの種のシステムがはるかに価値あるものになると確信しています。 そのため、プロジェクトの当初からマルチモーダル機能をシステムに統合しました。当時、この機能を備えたモデルは当社のみでしたが、現在では他のモデルも追いつこうと努力しています。 Q : Project Astroは、動画や音声データを処理できる新興の汎用AIエージェントです。Google I/Oで、Astroがユーザーがメガネの位置を記憶するのを支援するデモを披露されたと記憶しています。この技術の起源に興味があります。これは、以前のGoogle Glassの単なる進化形なのでしょうか? ハサビス氏:Googleはメガネ型デバイスの開発において長い歴史を持ち、2012年頃からこの分野に参入しています。そのため、この分野において大きな先行者利益を享受しています。当時は、インテリジェントアシスタントが見たものを理解するために必要な技術が不足していたのかもしれません。しかし今日、このデジタルアシスタントはあなたのそばにいて、周囲の世界を理解し、非常に自然に感じられます。 Q : ジェミニの起源を知りたいのですが、ジェミニは組織内の 2 つの別々の部門から生まれ、両部門によって共同で達成されたのですか? ハサビス氏:実際、昨年私たちはアルファベット(グーグルの親会社)の2つの研究部門、つまりディープマインドとグーグル・ブレインを「スーパー部門」と呼ぶ新しい部門に統合しました。 このようにして、社内の優秀な人材がすべて 1 つのチームに集められ、言語モデルを中心に、すべての研究分野の最高の知識が組み合わされました。 以前はTrin ChillaやGopherといったプロジェクトがあり、PalmやLambdaといった初期の言語モデルの開発に携わっていました。これらのモデルにはそれぞれ長所と短所があり、私たちはそれらをすべてGeminiプロジェクトに統合しました。これは合併後の最初の非常に重要なプロジェクトです。 もう一つの重要な点は、すべてのコンピューティングリソースを統合していることです。これにより、大規模なトレーニング実行が可能になり、実質的にすべてのコンピューティングパワーを集中させることで、 Geminiをより強力かつ効率的にすることができます。 両チームはAIの最前線を注視し、個々の研究においては幅広く協力してきましたが、戦略的なパートナーシップはそれほど緊密ではなかったかもしれません。統合後のチームは、Googleの「エンジンルーム」と言えるでしょう。 両チームの仕事内容は実際には非常に似ており、違いはほとんどありません。今後は、次世代のTransformerアーキテクチャの構想など、基礎研究における優位性をさらに強化していきます。両チームとも、それを自ら開発したいと考えています。 ちなみに、TransformerはGoogle Brainによって開発され、私たちはそれを深層強化学習と組み合わせましたが、まださらなるイノベーションが必要だと考えています。過去10年間と同様に、BrainとDeepMindは今後も貢献し続けると信じています。 Googleの「エンジンルーム」Q :Google DeepMindがGoogleの「エンジンルーム」になったとおっしゃいましたが、これは大きな変化ですね。Googleはあなたに大きな賭けをしているのでしょうか? ハサビス:そうだと思います。Googleは常にAIの重要性を明確に認識してきたと思います。ピチャイ氏はCEOに就任した当初、Googleは「AIファースト」の企業だと述べました。 彼が就任した当初、この問題について議論しました。彼はAIをモバイルインターネットに次ぐ大きなパラダイムシフトの可能性と捉えており、その影響はさらに甚大になるだろうと考えていました。 しかし、研究の観点だけでなく、製品やその他の側面においても、これが何を意味するのかを真に理解し始めたのは、ここ1、2年のことだと思います。ですから、今は非常にエキサイティングな時期ですが、私たちの才能を結集し、全力を尽くすことが正しい選択だと信じています。 Q : 別の観点から見ると、Google の「エンジン ルーム」になることは、DeepMind が商業的利益と純粋な科学的研究の考慮の間でより大きなバランスを見つけなければならないことを意味しますか? ハサビス氏:確かに、商業的利益は私たちの責任の一部となったため、より一層考慮する必要があります。しかしながら、まだ明確にすべき点がいくつかあります。私たちは引き続き科学研究を推進し、この分野への投資は着実に増加しています。 これは Google DeepMind が独自に行ったことであり、競合他社もこの成果を AI の一般的な利点とみなしていると思います。 「オープンソース」は非常に必要です。Q :それでは、次の質問に移りましょう。オープンソースについてです。おっしゃる通り、テクノロジーが広く利用可能になると、本当に素晴らしいことが起こります。DeepMindは過去に多くの研究プロジェクトをオープンソース化してきましたが、今は状況が変わったようですね。オープンソースについて、あなたの考えを教えていただけますか? ハサビス氏:オープンソースは不可欠であり、私たちは常にオープンソースとオープンサイエンスを強く支持してきました。ご存知の通り、TransformerやAlphaGoといったプロジェクトを含め、私たちが行ったほぼすべての研究プロジェクトを公開しており、NatureやScienceといった一流誌に掲載しています。 AlphaFoldもオープンソースであり、これらはすべて私たちが行った賢明な選択です。おっしゃる通り、このアプローチは、情報を共有することで技術と科学を可能な限り最速で進歩させることができるため、うまく機能します。多くの場合、オープンソースは普遍的に有益であり、それが科学の仕組みなのです。 ただし、AGI や強力な AI など、二重の用途を持つテクノロジーに関しては例外があります。 問題は、あらゆる有益なユースケースを実現し、真の科学者やエンジニアがこれらのアイデアを構築・批評することで社会の急速な進歩を促進することを望んでいる点です。しかし同時に、これらのシステムを悪用する可能性のある者をどのように制限するかという問題もあります。 今はこれらのシステムはまだ十分に強力ではないと思うので問題ありませんが、2、3年後、特にプロキシ動作を行うシステムが導入され始めると、深刻な損害を引き起こす可能性があります。 当社には Gemma と呼ばれる独自のオープンソース Gemini モデルがありますが、これらは小型モデルであり、最先端のモデルではありません。 これらの機能は、ラップトップで実行でき、パラメータ数も比較的少ないため、開発者にとって依然として非常に有用です。ただし、最新の最先端モデルではないため、現段階ではこれらの機能については十分に理解されています。 最終的に私たちが行うことは、オープンソース モデルを使用することですが、そのモデルは最新の最先端モデルより 1 年ほど遅れることになるため、ユーザーによる公開テストでこれらのモデルの機能を真に評価できるようになります。 オープンソースの問題の一つは、何か問題が起きた場合、取り返しがつかないことです。プロプライエタリモデルでは、悪意のある人が不適切に使い始めた場合、それを停止させることができ、極端な場合にはシステム全体を停止させることさえ可能です。しかし、一度オープンソース化すると、後戻りはできません。一方通行になってしまうのです。 AGIは10年以内に実現されるでしょう。Q :現在、様々なAIモデルが研究者によって開発されていますが、AIがあらゆる科学研究をサポートする段階に入った場合、研究機関が存在する余地はあるのでしょうか? ハサビス氏:まだその余地はあると思います。現在は汎用AGIの登場前の段階であり、社会、学界、政府、そして産業界の研究所の緊密な協力が必要だと考えています。 これが最終的に目標を達成できる唯一の方法だと心から信じています。AGIの次に何が起こるのかとお尋ねであれば、おそらくそれが本当に知りたいことなのでしょう。AGIは、現実、物理、意識といったものの本質に関する最も根本的な疑問を探求するために使えるため、私がずっと構築したいと願ってきたものです。 Q : コンピューター科学者のスチュアート・ラッセル氏はかつて私に、AGI に到達したら、私たちは昔の貴族のように、何の目標も考えもなく、気楽で贅沢な生活だけを楽しむようになるのではないかと心配していると言っていました。 ハサビス氏:将来は非常に興味深いものになると思います。しかし、これは先ほど申し上げた「過小評価」の問題、つまり短期的な誇大宣伝と長期的な誇大宣伝の違いにも関わってきます。もしそれを誇大宣伝と呼ぶのであれば、確かにある程度は過小評価されていると言えるでしょう。 これから起こる変化は計り知れないものになると信じています。最終的には多くの病気、おそらくすべての病気を治し、エネルギー問題や気候問題を解決できると確信しています。 Q :そういえば、以前AGIで宇宙の謎を解明できるとおっしゃっていましたね。ワームホールなど、私たちがまだ想像もしていない可能性もあると思いますか? ハサビス氏:もちろん、私はこの可能性を完全に信じています。ワームホールが現実のものとなることを心から願っています。物理学と現実の本質について、私たちはまだ多くの誤解を抱いているように思います。 量子力学と重力の統一、標準模型の問題、超弦理論などは、明らかに数え切れないほどの未解明の謎を秘めています。物理学界の多くの友人と深く議論を重ねてきましたが、彼らは皆、既存の理論的枠組みには多くの問題が完全には調和していないと考えています。 私は多元宇宙の説明が特に好きではないので、もし新しい理論を思いついて、それを宇宙の大規模な装置を使って検証することができれば、それは素晴らしいことだと思います。 私が時間と空間のプランクスケールに魅了されるのは、それがあたかもすべてを分割できる最小単位であるかのように、現実の究極の解像度を表現しているように見えるからです。 したがって、特にAGI へのアクセスと豊富なリソースを考慮すると、このレベルで徹底的な実験的探究を行うべきだと私は考えています。おそらく、そのような実験装置を設計または構築できるでしょう。 Q :DeepMindは20年プロジェクトだとおっしゃっていましたが、どれくらい進んでいますか?計画通りに進んでいますか? ハサビス:はい、計画通りに進んでいます。20年かかるプロジェクトは、完了までにさらに20年かかるように感じられることが多いので、信じられないかもしれませんが、大きな進歩を遂げてきました。 私たちの目標は2030年までにこれを達成することなので、今後10年以内に達成できたとしても驚きません。
|
DeepMind 創設者との最新インタビュー: AGI は 10 年以内に登場し、ヘルスケアとエネルギー環境を大きく変えるでしょう…
関連するおすすめ記事
-
世界初!復旦大学の馮建鋒氏が率いるチームが、860億個のニューロンを持つデジタルツイン脳プラットフォームを開発しました。
-
大規模モデルを微調整するプロセス全体について考える
-
南京大学が1位、北京郵電大学がリード:第4回AIサマーキャンプの登録受付を開始しました!
-
スター揃いの新車スタートアップ企業の「死の記録」:顧客の車を修理するために部品を盗み、初納車からわずか1年で倒産
-
2025 年の「Empowering Developers」サミット フォーラムが間もなく始まります。ぜひご登録いただき、ご参加ください。
-
2024年、Hanvon Technologyは3つの主要製品をリリースし、インテリジェントアプリケーションの新しいエコシステムを共同で構築します。