618ZXW

千訊智能の高陽氏:RobotGPT-1段階に到達、4年後には段階3.5達成予定 | MEET 2025

私の考える具現化された知能の定義は非常にシンプルです。それは、例えば老齢期の祖父母の世話をするなど、人間がさまざまなことをするのを助ける能力です。
...
現時点で具現化された知能レベル L1 ~ L5 を定義することは意味がありません。中心となる標準は、依然として、ロボットがどのような実際的な問題を解決できるかというものであるべきです。

具現化された知能のトレンドは急成長しているが、明確な発言をする人はほとんどいない。ガオ・ヤン氏はその一人だ。

清華大学学際情報科学研究所の助教授であり、カリフォルニア大学バークレー校で博士号を取得しました。その後、カリフォルニア大学バークレー校でピーター・アビール氏らと共同研究を行い、博士研究員として研究を行いました。現在は、Embodied Vision and Robotics (EVAR Lab) を率い、ロボットへの人工知能の搭載に注力し、汎用的な身体性知能フレームワークの構築に取り組んでいます。彼が提案したViLaアルゴリズムは、Figure AIに採用されています

2024年、高陽氏は身体性知能に特化した企業、千訊知能(Qianxun Intelligence)を共同設立しました。中国版「図01」とも呼ばれるこの企業は、シードラウンドとエンジェルラウンドを含む3回の資金調達ラウンドを1年足らずで完了し、総額2億人民元を調達しました。

MEET 2025 Intelligent Future Conference において、QuantumBit は Gao Yang 博士を招き、具現化された知能の現状と将来について議論し、モデル アーキテクチャ、データ、産業アプリケーションの観点からその発展を探りました。

MEET 2025 Intelligent Future Conferenceは、QuantumBitが主催する業界サミットで、20名を超える業界代表者が議論に参加しました。1,000名を超える来場者と320万人を超えるオンライン視聴者が集まり、主要メディアからも大きな注目を集め、大きく報道されました。

要点

  • 具現化された知能とは、ロボットが私たちに代わってさまざまなことを行えるようになることと定義されます。
  • AI とロボット工学の成熟により、具現化された知能産業が誕生しました。
  • 具現化された知能は、手動で収集されたデータへの依存を減らす必要があります。
  • 現時点で L1 から L5 までの具現化された知能を定義することは意味がありません。長い間、私たちは L2.99 に留まるしかありません。
  • RobotGPT ステージ 1.0 に到達し、原則が決定されました。4 年以内に RobotGPT-3.5 ステージに到達できます。
  • 10年後には世界人口の10%が自分専用のロボットを所有するようになることを願っています。

(高陽氏の見解をより良く伝えるために、QuantumBit は原文の意味を変えずに以下のように要約しました。)

10年後には、人類の10%が自分専用のロボットを所有することになるかもしれません。

QuantumBit: 具現化された知能とはどのように定義しますか?

Gao Yang:これは非常に率直な質問だと思います。

かつて私が身体化された知能について講演していたとき、おそらく60代か70代と思われる高齢の女性が私の話をじっくり聞いて、自分が老後を過ごしたときにロボットが世話をしてくれるようになるのはいつなのかと私に尋ねました。

これは実際に具現化された知性です。

具現化された知能とは、祖父母の世話をするなど、私たちのためにさまざまなことを(たとえば、家で)行うことができるロボットを構築することです。

だからこそ、私はQianxun Intelligenceを設立しました。私の最大の理想と願いは、10年後には世界の10%の人々が自分専用のロボットを所有できるようになることです。

機能も非常にシンプルです。例えば、夜遅くに帰宅することが多く、夜食を食べたいけれど食器を片付けるのは面倒だ、週末は家の中の物が片付けられていないことが多いので、片付けを手伝ってくれるロボットが欲しい…といった具合です。

これはいわゆる「具現化知能」であり、物理的なロボットが、私たちがやりたくないことや自分でやるのが面倒なことを、あらゆる形で手伝ってくれるというものです。これが私の具現化知能の理解です

QuantumBit:身体性知能の概念はアラン・チューリングによって考案され、半世紀前に定義・構想されました。今年は身体性知能元年、あるいは成熟元年とされています。身体性知能が成熟したと感じ、起業を決意したきっかけとなった、業界における技術変化や要因の変化について教えてください。

高陽:ここで唯一の変数は、OpenAIが事前学習と一連の事後学習手法を組み合わせることで、真に人間の知能を生成できる、あるいは少なくとも人間の知能に似たもの、あるいは人間の知能と同等のレベルを達成できることを証明したことです。これは、身体性知能ビジネスを始める上で最も重要な変数だと思います。

皆さんがおっしゃったように、これまでのロボットは手書きのルールで動いていて、すべてハードコードされていたため、環境への適応性が低かったんです。実は、ロボットのハードウェアについてはあまり詳しくなかったのですが、実際に産業用ロボットが年間どれくらい売れているのかを見に行って、とても驚きました。産業用ロボットの世界販売台数は年間200万台程度なんです。

このスケールは、自動車や携帯電話と比べると非常に小さいです。根本的な制約は、ロボットの操作が非常に難しいことです。特殊な装置であるため、効果的に使用するには高度な専門知識が必要です。

両者の違いは、一つはインテリジェント技術によってロボットがますます使いやすくなっていることもう一つはロボット製造において大きな進歩を遂げてきたことだと思います。ミリメートル未満の精度を持つロボットを非常に低価格で製造できるのです。

これら二つの側面の成熟により、身体性知能産業が誕生しました。もちろん、この産業はまだ非常に初期段階にあります。私がよく言うように、身体性知能はシリコン系生命体の創造者とよく表現されるため、実際には非常に困難です。身体性知能が開発されれば、人類を炭素系生命体として導くプログラムが実質的に完成することになります。したがって、これは非常に長期的な取り組みになると考えています。少なくとも私にとっては、生涯をかけて取り組むプロジェクトです

データは、具現化された知能の開発において依然として重要な焦点です。

QuantumBit: 過去 1 年間の具現化知能分野における中核的な進歩について、どのような見解をお持ちですか。また、2025 年にブレークスルーのために優先すべき分野はどれでしょうか。

Gao Yang:先ほどお話ししたVLAモデルに加え、この1年間の身体知能における最大のブレークスルーは、モデルの事前学習方法にあると思います。私たちの現在のアプローチ(Phiを含む)では、モデルを学習させ、特定の機能を付与するために1万時間分のデータを収集しています。

ChatGPT、Stable Diffusion、ビデオ生成モデル(Sora)など、現在利用可能なすべての印象的な大規模モデルを振り返ってみると、そのデータ量は100Tトークン、または数十億の画像とテキストのペアに相当します。

現在、私たちが手作業で収集している運用データの量は、このレベルをはるかに下回っています。そのため、身体性知能の開発においては、事前学習にインターネットデータをより有効活用することが非常に重要だと考えています。

この問題に関して、例えばVLAは比較的弱いです。VLAの事前学習データは画像とテキストのみで構成されています。学術界にはこの問題を解決するための斬新なアイデアが数多く存在し、今後3~4年は非常に重要かつ継続的に発展していく分野になると思います。

△ Gao Yangの研究グループはViLaアルゴリズムを提案した

いくつか具体的な例を挙げましょう。例えば、GoogleのRT-Trajectoryはかなり代表的な研究だと思います。このモデルは、収集した模倣学習データだけを学習に使用した場合、データ量が決して十分ではないことを示しています。

ロボットの大まかな軌道を中間表現で表すという斬新なアプローチを採用し、ロボットがその軌道を大まかにたどることを可能にします。具体的な詳細は、基盤となる戦略によって直接生成されます。

同様の論文は数多くあり、私の研究グループも関連研究を数多く行ってきました。私自身の研究は、物体の将来の粒子運動パターンを用いて中間層表現を特徴づけることです。

この仕事は非常に刺激的だと思います。なぜなら、過去にはデータを収集し、トレーニングして学習を模倣することができました。しかし、この大規模モデルの波では、大量のデータが必要になるからです。

今年の新たな研究努力は、実際に私たちの将来の発展への道を示しています。

VLA自体は非常に優れたパラダイムであり、将来の中核となるパラダイムの一つです。しかし、VLA以外にも、人間が収集したデータへの依存を減らすための取り組みが増えており、これも今年の非常にエキサイティングな進展です。

現時点で具現化された知能 L1-L5 を定義することは意味がありません。

QuantumBit: ロボットや具現化された知能の標準をカスタマイズするとしたら、その標準はどのようなものであるべきでしょうか?

Gao Yang:標準を設定する本来の目的は、業界の発展を促進し、各企業が達成した技術レベルを測定することです。

しかし、私は、基準が何であれ、客観的な技術的制限により、相当の期間、ほとんどの具現化された知能は、限られたシナリオでのみ L2.99 に到達するか、または到達できると主張することしかできない可能性があると考えています。

したがって、この標準は最終的には宣伝的なレトリックに傾くものになる可能性があり、限られた時間内に、さまざまなシナリオで人々が L4 または L5 レベルを達成できなくなる可能性があります。

したがって、基準は依然として、当社がお客様のニーズを満たすことができるかどうかによって決まりますが、これは非常に明確です。

例えば、工場、商業施設、家庭といった様々な場所での作業を想定した場合、ロボットは実際にそれを実現できるでしょうか?これらのシナリオで作業する場合、ダウンタイムが発生する確率はどれくらいでしょうか?

これらは、追求すべきより具体的かつ価値のある指標の一部です。

私は今では、具体化された知能の L1-L5 メトリックを定義することはあまり意味がないと考えています

鍵となるのは、具現化された知能脳が、食品の配達や工場の部品組み立てといった具体的な問題を解決できるかどうかです。これは私たちが探求し、追求していくべき課題です。

ロボットが「大学を卒業」するまではまだ待たなければなりません。

QuantumBit: では、具現化された知能は現在どの段階にあるのでしょうか?

Gao Yang:私たちはGPTが1.0から3.5、4.0、そしてo1へと進化していく過程を目の当たりにしてきました。GPT-1が初めて登場した時は、誰も真剣に受け止めませんでした。明瞭に話すことができず、推論能力もなく、人とのコミュニケーションにも多くの問題を抱えていました。

しかし、GPT-1 が作成された時点では、大規模言語モデル技術の原理はすでにほぼ確立されていました。

RobotGPTは現在、ステージ1.0にあると考えています。基本原理は確立されているため、この技術はまだ初歩的で、今後数年間は大きな進歩は見られないかもしれません。しかし、知能の発達は指数関数的な曲線を描いているため、個人的には、具現化された知能脳はRobotGPT-3.5に到達すると考えています。それほど進歩しているわけではないかもしれませんが、すでに多くの驚くべき能力が見られるようになるでしょう。

その日が来るまでには、まだ少し時間がかかると思いますが、それほど遠くはないと思います。

QuantumBit: RobotGPT が大学に入るまで待ちます。

高陽:ええ、彼は大学に入ったばかりで、まだ何も知らないんです。大学を卒業して、それぞれの家庭に本当に入っていく必要があります。おそらく10年くらいかかるでしょう。

GPT-4は多くの質問に答えることができますが、10%のケースでは依然として信頼性に欠けています。そのため、言語モデルの能力をさらに向上させ、人間の生産と生活のあらゆる側面に真に浸透できるようにする必要があります。

ロボットモデルにも同じことが当てはまると思います。3.5インチのロボットを開発しても、堅牢性は劣り、コストも少し高くなるかもしれません。技術の向上を続けていく必要があります。ですから、10年後には10%の人が自分専用のロボットを所有するようになると思います