618ZXW

北京大学、初の汎用コマンドナビゲーション大型モデルシステムを提案 | CoRL 24

ソファに横になって、何も考えずに指示を出すだけで、ロボットが代わりに仕事をしてくれるのを想像してみてください。素晴らしいと思いませんか?

今、SF映画のワンシーンが現実になりつつあります。北京大学の助教授兼博士課程の指導者である董浩氏率いるチームが最近、世界初の汎用指示ナビゲーション大規模モデルシステム「InstructNav」を提案しました。

物体を探す、指定された場所へ移動する、抽象的な人間のニーズを満たすなど、InstructNav はコマンドを与えるだけで目標を達成できるようにサポートします。

動画リンク: https://mp.weixin.qq.com/s/T1...

この研究はCoRL (ロボット学習会議)2024に採択されており、論文はArxivで閲覧可能です。コードも近日中にオープンソース化される予定です。

大規模モデルは、具体化されたコマンドナビゲーション計画をどのように統合できるでしょうか?

ナビゲーションタスクの種類によって、求められる能力は大きく異なります。従来の物体ナビゲーションタスクでは、部屋の構造や物体間の関係性を理解することが求められ、視覚言語ナビゲーションタスクでは指示に厳密に従うことが重視されます。一方、新たな需要主導型ナビゲーションタスクでは、抽象的な人間のニーズに基づいた意味的推論が求められます。

これまでの研究は、特定の種類の指示に対して特定の種類のナビゲーション手法を設計することに焦点を当ててきました。しかし、現実世界のアプリケーションでは、人間はロボットに異なる種類の指示を出す場合があり、場合によっては複数の種類の指示が混在することもあります。既存の身体性ナビゲーションモデルでは、このような実用的なニーズを満たすことができません。したがって、汎用的な指示ナビゲーションを実現することは、ロボットを現実世界で応用する上で非常に価値があります。

この目標を達成するために、著者らはまず、さまざまな種類のナビゲーション指示を「ナビゲーション アクション 1 - ランドマーク 1 -> ナビゲーション アクション 2 - ランドマーク 2 …」という標準形式に統合する、 Dynamic Chain-of-Navigation と呼ばれる新しいナビゲーション プランニング パラダイムを提案しました。

InstructNav は、タスク計画と常識推論における大規模言語モデルの優れた機能を活用して、元の指示に基づいてナビゲーション パスを計画します。

ナビゲーション中、InstructNav はシーン内で最後に観測されたオブジェクトに基づいてナビゲーション リンクを継続的に更新し、ロボットが環境を効果的に探索できるようにガイドします。

たとえば、「ソファを見つけてください」という指示があった場合、ソファはテレビの隣にある可能性が高いため、ダイナミック ナビゲーション リンクはテレビの近くの領域に更新されます。

大規模モデル推論を価値マップにマッピングする

大規模モデルによって計画された動的ナビゲーション リンクと、ロボットを制御する基礎となるアクションとの間には、依然として大きな違いがあります。

動的ナビゲーション リンクに従ってロボットの動作をガイドするために、著者らは大規模モデルの計画結果を、次のような複数のソースの値マップにマッピングすることを提案しています。

  1. アクション値マップ: 実行されるアクションに対応する領域に、より高いナビゲーション値を割り当てます。
  2. セマンティック値マップ: ランドマークに対応するエリアに、より高いナビゲーション値を割り当てます。
  3. 直感価値マップ: マルチモーダルな大規模モデルを使用して、パノラマビューでの移動に最適な領域を決定し、より高いナビゲーション価値を割り当てます。
  4. 軌道値マップ: 既存の軌道から遠い領域に、より高いナビゲーション値を割り当てます。

意思決定の価値マップは、複数のソースからの価値マップを合計することによって取得できます。

決定値マップ上の最高値ポイントを次のパス ポイントとして選択し、ポイントツーポイント パス プランニング アルゴリズムを使用することで、ロボットの基本的な動きを制御できます。

複数のゼロショットナビゲーションタスクにおけるオスマン帝国の新たな状況

著者らは、古典的なオブジェクトナビゲーションタスク、視覚言語ナビゲーションタスク、および最新の要件ナビゲーションタスクに関する標準化された評価を実施しました。

下の表からわかるように、InstructNav は連続環境でゼロショット視覚言語ナビゲーションを初めて実現し、ゼロショットオブジェクトターゲットナビゲーションと要求駆動型ナビゲーションタスクにおいて既存のすべての方法を上回り、最高の成功率を達成しました。

記事リンク: https://arxiv.org/pdf/2406.04882 プロジェクトリンク: https://sites.google.com/view... コードリンク: https://github.com/LYX0501/In...