具現化知能の包括的かつ最新の概要！（パート1）

元記事：Zheng Chengrui (Datawhale)

Datawhaleのヒント

著者: 鄭成瑞、アルゴリズムエンジニア

‍

最近、「具現化された知能」という概念が非常に人気になってきました。

最近、Zhihui Jun 氏によるヒューマノイドロボットの設計図とコードの完全なセットがオープンソースとして公開され、業界内で白熱した議論が巻き起こっている。

フェイフェイ・リーのVoxposer、GoogleのRT1とRT2、GoogleのRTX、ByteDanceのRobot Flamingo、スタンフォードのACT、カーネギーメロンの3D_diffuser_actなど、さまざまな具現化されたインテリジェント製品は、さまざまなタスクとシナリオで強力な機能を発揮し、革命的な変化をもたらす可能性を秘めています。

では、具現化された知能とは何でしょうか？そして、それは何に使われるのでしょうか？

この記事ではその手順を説明します。

この記事は2部に分かれています。第2部は明日更新され、ヒューマンコンピュータインタラクションとその発展に焦点を当てます。

この記事は、中国情報通信研究院と北京人型ロボット創新有限公司による「具現化知能開発報告書」を部分的に参照しています。

具現化された知能の基本概念

具現化知能、あるいは「具現化＋知能」とは、機械学習アルゴリズムを物理的な実体に適応させ、物理世界とのインタラクションを可能にする人工知能パラダイムです。ChatGPTに代表される「ソフトウェアエージェント」（または「オフボディエージェント」）は、大規模なモデルを用いて、Webページやモバイルアプリを通じてユーザーとインタラクションを行います。音声、テキスト、画像、動画など、様々なモダリティでユーザーからのコマンドを受け付け、環境を認識し、計画・記憶し、ツールを起動して複雑なタスクを実行できます。この基盤の上に、具現化エージェントは大規模なモデルを物理的な実体に埋め込み、機械に搭載されたセンサーを介して人間とコミュニケーションを取り、エージェントと物理環境とのインタラクションを重視します。

簡単に言えば、人工知能、つまりこの知的な「頭脳」に「身体」を与えることを意味します。この「身体」とは、携帯電話や自動運転車などです。

一方、ヒューマノイドロボットは、様々な中核技術と最先端技術を統合した担い手であり、身体化された知能の代表的な製品です。

具現化された知性の 3 つの要素: 自己、知性、環境。

具現化された知能の3つの重要な要素は、「オントロジー」（ハードウェアのキャリアを指す）、「インテリジェンス」（大規模モデル、音声、画像、制御、ナビゲーション、その他のアルゴリズムを指す）、「環境」（オントロジーが相互作用する物理世界を指す）です。オントロジー、インテリジェンス、環境の高度な結合こそが、高度な知能の基盤となります。

ハードウェアの形態はそれぞれ異なり、環境への適応も異なります。例えば、車輪型ロボットは平坦な屋内地面に適しており、四足歩行ロボット（ロボット犬）は不整地に適しています。具現化された知能エージェントと環境との相互作用において、知能アルゴリズムはエージェントのセンサーを通して環境を認識し、エージェントを制御して行動やタスクを実行させることで、環境に影響を与えることができます。また、知能アルゴリズムと環境との相互作用において、「インタラクティブ学習」と擬人化思考を通じて環境を学習し、適応することで、知能の成長を実現します。

具体化された知性の 4 つのモジュール: 知覚、意思決定、行動、フィードバック。

具現化されたインテリジェントエージェントのアクションは、「知覚-決定-アクション-フィードバック」の 4 つのステップに分けられ、これらは 4 つのモジュールによって完了し、閉ループを形成します。

知覚モジュール

知覚モジュールは、様々なセンサーを通して情報を収集・処理し、環境を感知・理解する役割を担います。ロボットによく使われるセンサーには、以下のものがあります。

1. 可視光カメラ：カラー画像の収集を担当します。

2. 赤外線カメラ：熱画像撮影、温度測定、暗視、X線撮影を担います。赤外線カメラは、物体から放出される熱放射を検知し、完全な暗闇の中でも画像を生成できます。このため、赤外線カメラは暗視や熱画像撮影に適しています。物体表面の温度測定も可能で、機器の過熱検知、エネルギー監査、医療画像撮影などの分野で広く利用されています。一部の赤外線カメラは煙や霧などの障害物を透過できるため、緊急救助やセキュリティ監視にも適しています。

3. 深度カメラ：画像内の各点とカメラ間の距離を測定し、シーンの 3 次元座標情報を取得します。

4. LiDAR（光検出・測距）：対象物までの距離と速度を測定する技術です。レーザーパルスを照射し、反射光を受信することで対象物までの距離を計算し、高精度な3D点群データを生成します。このデータは自動運転やロボットナビゲーションに広く利用されています。

5. 超音波センサー：障害物回避を担います。超音波パルスを発信し、その反射波を受信することでロボットと障害物との距離を測定し、障害物の有無を判断します。

6. 圧力センサー：ロボットの手や足にかかる圧力を測定し、歩行や握力の制御、障害物回避に使用します。

7. マイク: 音声を録音します。

さらに、アプリケーションシナリオに応じて、特定のセンサーを使用して特定の機能を実現できます。たとえば、電子鼻はガスを検出でき、防爆および環境モニタリングのシナリオで使用されます。湿度センサーは、農業ロボットや室内環境制御に使用できます。環境理解：センサーを通じて環境情報を取得した後、ロボットはアルゴリズムを通じて環境を理解する必要があります。比較的安定して制御可能な環境では、アルゴリズムは強力な一般化機能を必要としないため、シーン固有のモデルのみが必要です。たとえば、YOLOは物体検出に使用でき、SLAMはナビゲーションと位置特定に使用できます。ただし、可変的で未知のシナリオでは、アルゴリズムは強力な一般化機能を必要とするため、音、画像、ビデオ、位置特定などのさまざまな環境情報を融合して判断するために、マルチモーダルな大規模モデルを使用する必要があります。これについては、後の章で詳しく説明します。

意思決定モジュール（大規模モデル）

意思決定モジュールは、身体化知能システム全体の中核です。知覚モジュールから環境情報を受け取り、タスク計画と推論分析を実行して、行動モジュールに行動を導く役割を担います。初期の技術開発においては、意思決定モジュールは主に手動でプログラムされたルール判断とタスク固有のアルゴリズム設計に依存していました。しかし、これらのカスタマイズされたアルゴリズムは、動的に変化する環境や未知の状況への対応に苦労していました。近接ポリシー最適化（PPO）とQ学習アルゴリズムに基づく強化学習手法は、身体化知能における自律航行、障害物回避、複数物体収集などのタスクにおいて、より優れた意思決定の柔軟性を実証してきました。しかし、これらの手法は、複雑な環境への適応性、意思決定の精度、効率性の点で依然として限界があります。

大規模モデルの出現により、具現化エージェントの知能は飛躍的に向上し、環境認識、音声インタラクション、タスク意思決定能力が大幅に向上しました。「ソフトウェアエージェント」のAIGC（AI生成コンテンツ）では、大規模モデルが関数を用いてテキスト、画像、その他のコンテンツを生成しますが、具現化エージェントの大規模モデルはAIGA（AI生成アクション）であり、ロボットアームやカメラなどの身体部位を用いてアクションを生成します。マルチモーダル視覚言語モデル（VLM）を基盤として、具現化知能のための大規模モデルの開発方向は、視覚言語アクションモデル（VLA）と視覚言語ナビゲーションモデル（VLN）へと向かっています。

VLA：入力は音声、画像、またはビデオストリーム、出力は音声と動作です。インターネット、現実世界、動作情報を統一されたフレームワークに統合することで、自然言語指示を実行可能な動作指示に直接変換できます。
VLN：入力は音声、画像、またはビデオストリームで、出力は音声と動作軌跡です。VLNは、音声による説明、視覚的な観察、動作軌跡など、ナビゲーションの複数の段階にわたるタスク要件に対応する統合コマンド入力フレームワークを提供し、大規模なモデルでも動作方向や対象物体の位置などの操作情報を直接生成できます。

近年、VoxPoser、RT-2、Palmeなどの初期のVLAモデルや、NaviLLMなどのVLNモデルは、有望な機能を示しています。将来的には、マルチモーダル大規模モデルと世界モデルを組み合わせることで、知覚予測、つまり環境の動的な変化をシミュレートすることができます。3D-VLAは、3次元世界モデルのモダリティをさらに統合し、動的な環境変化とそれが行動結果に与える影響を予測することを可能にします。マルチモーダル処理技術の発展に伴い、身体性知能システムは言語、視覚、聴覚、触覚などの複数の感覚情報を統合できるようになり、指示をより自動的に理解し、タスクの一般化能力を高めることができます。おそらく、身体性知能大規模モデルの開発の最終段階では、知覚、判断、実行機能を備えたエンドツーエンドの大規模モデルが登場するでしょう。人間の脳と小脳が融合したように、以前は別々だったモジュールの機能を統一されたフレームワークに統合し、言語応答、細かい運動能力、自律ナビゲーション、ツールの使用、人間との協力的協力などについて直接推論できるため、低遅延と強力な一般化を実現します。

アクションモジュール

アクションモジュールは、具現化知能システムにおける「実行ユニット」であり、意思決定モジュールからの指示を受信し、特定のアクションを実行する役割を担います。アクションモジュールの主なタスクには、ナビゲーションおよびポジショニングアルゴリズムを用いた移動の実現、そして制御アルゴリズムを用いたロボットアームなどの身体コンポーネントの操作による物体操作が含まれます。例えば、ナビゲーションタスクでは、エージェントが目標地点を見つけるために移動する必要がありますが、物体操作およびインタラクションでは、環境内の物体を掴む、移動する、放すといった動作が伴います。きめ細かな動作制御の実現は、アクションモジュールにおける重要な課題です。アクションモジュールが意思決定モジュールからの指示に応答し、アクションを生成する方法は、以下の3つの方法で実装できます。

1. 意思決定モジュール（大規模モデル）は、事前にプログラムされたアクションアルゴリズムを呼び出します。

ナビゲーションおよび位置決めアルゴリズムにより、事前に作成されたマップやポイント上での移動が可能になります。
ロボットアームやその他のボディコンポーネントは、事前にプログラムされた制御アルゴリズムを通じて特定のアクションを実行します。

このアプローチの利点は、行動の制御性の高さにあります。しかし、現実の物理世界との相互作用においては、行動生成の許容誤差は低く、モデルから推論された行動の誤りが大きな損失につながる可能性があります。このアプローチの欠点は、膨大なアルゴリズム開発が必要となること、一般化能力が低いこと、そして行動を新しい環境に移行するのが難しいことです。

2. 意思決定モジュール（大規模モデル）はアクションアルゴリズムと連携して動作します。視覚言語モデル（VL）を用いてアクションモジュールからリアルタイムビデオストリームを読み取り、ナビゲーションおよび制御アルゴリズムを誘導してアクションを生成します。例えば、

ナビゲーションタスクを実行する際、Rviz によって表示される地図ビデオストリームとカメラによってキャプチャされたリアルタイムビデオストリームが VL に入力され、ユーザーの音声コマンドと組み合わせて、ナビゲーションシステムの移動がガイドされます。
オブジェクト操作タスクを実行する場合、ロボットアームのカメラからのリアルタイムビデオストリームが VL (ビデオライブラリ) に入力され、ユーザー言語コマンドと組み合わせて、制御アルゴリズムがロボットアームを操作して正確な把握などのタスクを完了します。

このアプローチにより、ロボットは環境とのインタラクションを通じて継続的に新しい環境情報を入力することができ、意思決定と行動を最適化し、行動の汎化性を高めることができます。しかし、このアプローチはデータスループットと計算能力の面で課題を抱えています。

3. 意思決定モジュール（大規模モデル）とアクションモジュールの統合：前述の通り、今後の開発方向は、VLA（Vision Language Action Model）やVLN（Vision Language Navigation Model）といったエンドツーエンドの身体知能大規模モデルを用いて、アクションを直接推論することです。このモデルは、インターネットの知識、物理世界の概念、そして動作情報を統一されたフレームワークに統合し、自然言語記述に基づいて実行可能なアクション指示を直接生成し、アクチュエータに入力することを可能にします。このアプローチは、意思決定、行動、さらには知覚までを段階的に統合し、アクションモジュールの機能と柔軟性をさらに向上させ、身体知能システムが様々な応用シナリオにおいてより大きな役割を果たすことを可能にします。

上記の 3 つのアプローチは、上から下まで、テクノロジーの進歩に伴い、意思決定、アクション、さらには認識までを徐々に統合し、アクションモジュールの機能と柔軟性を継続的に向上させ、具現化されたインテリジェンスシステムがさまざまなアプリケーションシナリオでより大きな役割を果たすことを可能にします。

フィードバックモジュール

フィードバックモジュールは、多層的なインタラクションを通じて環境からのフィードバックを継続的に受け取り、調整と最適化を行います。具体的には、前述の知覚、意思決定、行動の各モジュールにフィードバックを提供することで、適応性と知性を向上させます。

1. フィードバックセンシングモジュール：フィードバックモジュールは、継続的なフィードバックを提供することで、センシングモジュールのリアルタイム環境データに対する感度を高めます。これには、画像、音、圧力、触覚などのマルチモーダルデータが含まれますが、これらに限定されません。これにより、センシングモジュールは環境の変化をより正確に捉え、対応できるようになります。

フィードバックモジュールは、知覚モジュールが以前に取得した環境情報を「経験」または「記憶」として扱い、「リマインダー」として知覚モジュールに再入力します。例えば、人間とコンピュータの対話シナリオにおいて、知覚モジュールが新しいユーザー（まだユーザー習慣プロファイルを確立していないユーザー）や、記憶に既に存在するユーザー（操作手順に精通しているユーザー）を認識した場合、フィードバックモジュールはこの認識情報を知覚モジュールに返します。このプロセスは、見知らぬ人や知り合いに遭遇した際の人間の自然な反応をシミュレートし、知覚モジュールがユーザーの異なるアイデンティティや過去のインタラクションデータに基づいて認識と対応戦略を調整することで、よりパーソナライズされた適応型のサービスを提供します。

2. フィードバック決定モジュール：フィードバックモジュールは、タスクの完了とユーザーからの指示に関する継続的なフィードバックを提供します。決定モジュールはこのフィードバックを利用して自身を最適化し、アルゴリズムパラメータを調整します。この閉ループフィードバックメカニズムを通じて、決定モジュールは継続的に学習・適応し、適応性と知能レベルを向上させます。

例えば、自動運転の意思決定、計画、制御技術において、フィードバックモジュールの役割は、自動運転車のルート意図と現在位置と組み合わせた、認識された周囲の物体の予測軌道に基づいて、車両に対して最も合理的な意思決定と制御を行うことです。

3. フィードバックアクションモジュール：フィードバックモジュールは、知覚モジュールを介して環境変化情報を取得し、この情報を意思決定モジュールにフィードバックします。意思決定モジュールは、フィードバック情報に基づいて柔軟に動作を調整し、アクチュエータが変化する環境下で動作軌道、力出力、動作シーケンスを調整できるようにします。例えば、ロボットの超音波障害物回避機能は、前方に突然現れた障害物や歩行者に遭遇した場合、衝突を回避するために即座に停止することができます。また、自由経路を計画する場合、ナビゲーションシステムは即座に経路を再計画し、突然の障害物や人混みを迂回することができます。

次のパートは明日更新され、人間とコンピュータの相互作用とその発展に焦点を当てます。

いいね！（3件のいいね！）↓

618ZXW

具現化知能の包括的かつ最新の概要！（パート1）

意思決定モジュール（大規模モデル）

アクションモジュール

フィードバックモジュール

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ