618ZXW

人工知能アカデミー(AAI)は、2024 Embodied World Model Summit を主催し、産業界、学界、研究機関の連携を通じて技術革新と産業応用を促進しました。

2024年11月5日、北京市人工知能研究院主催の「愛源フォーラム・2024体現世界モデルテーマサミット」が愛源ビルで開催されました。愛源学院理事長の黄鉄軍氏、愛源学院学院長の王忠元氏、愛源学院副学院長の林永華氏が出席しました。

北京大学具現化マルチモーダル大規模モデルセンター長の張尚航氏、北京大学具現化知能センター長、北京大学助教授、Galaxy General創設者の王何氏、Google DeepMindの研究者であり、Google RT1、RT2、SayCanの作者であるテッド・シャオ氏、そして清華大学、香港大学、コーネル大学、カリフォルニア大学バークレー校、マンチェスター大学、粤港澳大湾区大学(準備中)、中国科学院などの著名な大学や研究機関の学者や専門家、およびAccelerated Evolution、Fourier、Leju Robotics、Stardust Intelligenceなどの主要な具現化知能企業の創設者やCEOが、具現化知能と世界モデルの最先端の方向性と技術的実践について洞察を共有し、詳細な議論を行いました。

身体化知能の開発には、ハードウェアの安定性、データの取得とシミュレーション、身体化脳・小脳モデルの階層的アーキテクチャ、エンドツーエンドの技術ルート、エンドユーザーシナリオなど、数多くの課題が存在します。産業界、学界、研究機関間の緊密な連携と広範な連携が不可欠です。

人工知能研究院の王中元院長は開会の辞で、同研究院が持つマルチモーダル大規模モデル技術とリソースの優位性を活かし、北京大学、清華大学、中国科学院などの大学・研究機関、そして銀河通、楽居、加速進化、ユニツリーといった産業チェーンの上流・下流企業と連携し、身体化知能イノベーションプラットフォームを構築すると述べた。このプラットフォームは、データ、モデル、シナリオ検証の研究に重点を置き、身体化知能イノベーションエコシステムを共同で構築していく。

知遠具現化マルチモーダル大型モデル研究センターは、ロボットの具現化の基本モデルとして、高速システムと低速システムのフレームワークを革新的に設計しました。高速システムはエンドエフェクタの姿勢を効率的かつ迅速に予測し、低速システムはより深く思考し、複雑で誤った行動に直面した際にエラーを修正することで、ロボットの脳機能を継続的に向上させます。

この高速および低速のシステム フレームワークを実現するために、AIZ は、具体化されたエンドツーエンドおよび小脳の階層構造を含むさまざまな技術的ルートを模索し、オープン ワールドの一般化されたオブジェクト操作を実行し、意味理解と常識推論の脳モデルに基づいてゼロ サンプル オブジェクト ナビゲーションを実現しました。

エンドツーエンドモデルであれ階層構造であれ、最終的な目標は、ロボットが物理世界の法則をより深く理解し、環境とより良く相互作用し、より正確な時間的動作を実行できるようにすることです。そのため、AIZは、オープンワールドにおけるロボットのタスク操作におけるオブジェクトの一般化やシーンの一般化といった問題を解決するために、世界モデルのための4次元時空を構築する4次元世界モデルRobo4Dも提案しました。

関連研究は、国際的な主要会議である NeurIPS 2024 および ICML 2024 に採択されました。

人工知能技術センターのマルチモーダル大規模モデル研究センターは、ロボットが環境と相互作用した後に発生する将来の出来事を予測するために世界モデルを活用し、正確な行動を生成し、行動の正否を事前に予測します。人工知能の世界モデル設計では、まず世界モデルの開始モードと応答モードをビデオモードに設定し、次に、行動とロボットの現在の状態に関する言語コマンドに基づいて、ロボットが行動を実行する完全なビデオを生成します。

与えられたタスクに対し、このモデルはタスク実行プロセスを完全に予測し、物理世界からパターンを学習して動画を生成し、それをロボットの動作に変換することができます。タスクから動画生成、そして動画から動作へのプロセスは、AIDA(AIDA Technology Group Corporation)のEmu3ネイティブマルチモーダル世界モデルを活用し、理解と生成を統合し、自己反省的な思考連鎖を形成します。

人工知能学院身体化マルチモーダル大規模モデル研究センター長の張尚航氏は、近年の研究が身体化基礎モデルの幅広い展望を示していると考えている。センターは、ロボット工学分野におけるスケーリング則を実践し、身体化マルチモーダル大規模モデルとビッグデータの構築を継続的に探求していく。現実世界の4次元時空間世界モデルの実現は、ロボットの総合的なAGI実現に向けた重要な一歩である。この4次元世界モデルは、ロボットの世界の基本シミュレーターとして機能し、時間的・空間的知能、長期・短期記憶、物理概念の学習能力、現実の物理世界との相互作用とフィードバックの受け取り能力を備える。

最近の研究では、人工知能アカデミーの具体化マルチモーダル大規模モデルセンターが、世界モデルを2次元から4次元へと拡張しました。事前誘導型3Dガウススプラッティングアルゴリズムを用いて、単一視点からのビデオクリップに基づいて4次元世界空間を生成しました。次に、マルチラウンド世界空間マッピングモデルを用いて、異なる場所の世界空間をビデオ領域にマッピングし、最終的に下流のタスクに適用しました。この生成データにより、ロボット操作の汎化能力が向上しました。

招待講演において、智遠大学身体知能研究センター長、北京大学助教授、そしてGalaxy Generalの創設者でもある王和氏は、空間知能は三次元情報の活用に重点を置くべきであると強調した。そうでなければ、空間幾何学の理解は非常に限定的なものになってしまう。また、インタラクティブ・インテリジェンスにも重点を置くべきだ。インタラクティブ・インテリジェンスを支える膨大なデータは、実世界データの収集ではなく合成データに置き換えることで、大規模モデルに必要なデータ規模を達成し、真の汎化を実現する必要がある。

現在、AIZ 身体化知能研究センターでは、スキルの一般化と大規模な身体化エンドツーエンドモデルのトレーニングに関する一連の研究を行っています。

まず、現実世界で見られる2D画像を3Dにアップスケールし、拡散モデルを用いて視差を予測します。さらに、デスクトップ上のオブジェクトの配置、テクスチャ、ライティングなど、様々な空間形状や位置関係を網羅した大規模なモーションデータシミュレーション合成技術を独自に開発しました。光の屈折や反射もシミュレータ上でシミュレーションされ、レンダリングされます。

チームの最新の成果は、10億データポイント規模のDexGraspNet 2.0データセットの完成です。このデータセットは、様々な物体に基づく大規模な把持ラベル生成をカバーしています。この大規模データセットで学習された器用な手による把持モデルは、一般化されたシーンにおける実デバイス成功率が90%を超えています。

エンドツーエンドのモデル開発においては、チームは世界初のビデオストリームに基づく大規模エンドツーエンドナビゲーションモデルであるNaVidを学習しました。このモデルはマッピングを必要とせず、深度情報やオドメトリ情報といった他のセンサー信号にも依存しません。ロボットのカメラで収集されたシングルビューRGBビデオストリームのみに依存し、Sim2Realを介して現実世界の屋内および屋外シーンにおいてゼロショット汎化を実現します。

最近、人工知能アカデミーは、大規模ナビゲーションモデルに3次元モダリティを組み込み、エンドツーエンドの空間ナビゲーションモデルNaVid-4Dを提案しました。このモデルは、より要求の厳しい自然言語コマンドによる一連のナビゲーションタスクにおいて、さらなる飛躍的な進歩を遂げています。

会議中、人工知能研究院院長の王中元氏が司会を務め、身体化知能技術と応用の最先端展望に関する円卓討論が行われました。清華大学オートメーション学部教授で加速進化共同創設者の趙明国氏、人工知能研究院身体化知能研究センター所長、北京大学助教授、ギャラクシージェネラル創設者の王和氏、フーリエ創設者兼CEOの顧潔氏、楽居創設者の冷暁坤氏、中国科学院オートメーション研究所研究員の王鵬氏、カリフォルニア大学バークレー校の潘嘉義氏が、身体化知能の存在論的形式、データ、一般化能力、産業応用展望などのトピックについて、最新の考えや見解を共有しました。

さらに、午後には空間知能と世界モデルに関する円卓討論会が、人工知能研究院副院長の林永華氏の司会で行われました。清華大学機械工学科助手研究員の陳睿氏、同大学電子工学科准教授の戴継峰氏、スターダスト・インテリジェンスの創設者兼CEOの頼潔氏、香港大学助教授の李紅陽氏、北京総合人工知能研究所研究員の黄思源氏が、ロボット世界モデルの技術ロードマップ、主要な技術ポイント、そして中核的な課題について、それぞれ異なる視点から意見を述べました。

北京人工知能研究院(BAAI)の黄鉄軍院長は閉会の辞で、知能は環境の産物であると指摘した。人間の知能は、環境への適応と進化、そして世界の抽象化から生まれる。知能は大小様々な形態を取り、単一の統一された実体に還元することはできない。身体化された知能の発展は避けられない潮流である。ヒューマノイドロボットであろうと他の形態のロボットであろうと、将来はそれを支える大規模な産業クラスターが必要となり、主要部品や材料、ソフトウェアとハ​​ードウェアの協調的な開発を促進することになるだろう。