|
ソファに横になって、何も考えずに指示を出すだけで、ロボットが代わりに仕事をしてくれるのを想像してみてください。素晴らしいと思いませんか? 今、SF映画のワンシーンが現実になりつつあります。北京大学の助教授兼博士課程の指導者である董浩氏率いるチームが最近、世界初の汎用指示ナビゲーション大規模モデルシステム「InstructNav」を提案しました。 物体を探す、指定された場所へ移動する、抽象的な人間のニーズを満たすなど、InstructNav はコマンドを与えるだけで目標を達成できるようにサポートします。 動画リンク: https://mp.weixin.qq.com/s/T1... この研究はCoRL (ロボット学習会議)2024に採択されており、論文はArxivで閲覧可能です。コードも近日中にオープンソース化される予定です。 大規模モデルは、具体化されたコマンドナビゲーション計画をどのように統合できるでしょうか?ナビゲーションタスクの種類によって、求められる能力は大きく異なります。従来の物体ナビゲーションタスクでは、部屋の構造や物体間の関係性を理解することが求められ、視覚言語ナビゲーションタスクでは指示に厳密に従うことが重視されます。一方、新たな需要主導型ナビゲーションタスクでは、抽象的な人間のニーズに基づいた意味的推論が求められます。 これまでの研究は、特定の種類の指示に対して特定の種類のナビゲーション手法を設計することに焦点を当ててきました。しかし、現実世界のアプリケーションでは、人間はロボットに異なる種類の指示を出す場合があり、場合によっては複数の種類の指示が混在することもあります。既存の身体性ナビゲーションモデルでは、このような実用的なニーズを満たすことができません。したがって、汎用的な指示ナビゲーションを実現することは、ロボットを現実世界で応用する上で非常に価値があります。 この目標を達成するために、著者らはまず、さまざまな種類のナビゲーション指示を「ナビゲーション アクション 1 - ランドマーク 1 -> ナビゲーション アクション 2 - ランドマーク 2 …」という標準形式に統合する、 Dynamic Chain-of-Navigation と呼ばれる新しいナビゲーション プランニング パラダイムを提案しました。 InstructNav は、タスク計画と常識推論における大規模言語モデルの優れた機能を活用して、元の指示に基づいてナビゲーション パスを計画します。 ナビゲーション中、InstructNav はシーン内で最後に観測されたオブジェクトに基づいてナビゲーション リンクを継続的に更新し、ロボットが環境を効果的に探索できるようにガイドします。 たとえば、「ソファを見つけてください」という指示があった場合、ソファはテレビの隣にある可能性が高いため、ダイナミック ナビゲーション リンクはテレビの近くの領域に更新されます。 大規模モデル推論を価値マップにマッピングする大規模モデルによって計画された動的ナビゲーション リンクと、ロボットを制御する基礎となるアクションとの間には、依然として大きな違いがあります。 動的ナビゲーション リンクに従ってロボットの動作をガイドするために、著者らは大規模モデルの計画結果を、次のような複数のソースの値マップにマッピングすることを提案しています。
意思決定の価値マップは、複数のソースからの価値マップを合計することによって取得できます。 決定値マップ上の最高値ポイントを次のパス ポイントとして選択し、ポイントツーポイント パス プランニング アルゴリズムを使用することで、ロボットの基本的な動きを制御できます。 複数のゼロショットナビゲーションタスクにおけるオスマン帝国の新たな状況著者らは、古典的なオブジェクトナビゲーションタスク、視覚言語ナビゲーションタスク、および最新の要件ナビゲーションタスクに関する標準化された評価を実施しました。 下の表からわかるように、InstructNav は連続環境でゼロショット視覚言語ナビゲーションを初めて実現し、ゼロショットオブジェクトターゲットナビゲーションと要求駆動型ナビゲーションタスクにおいて既存のすべての方法を上回り、最高の成功率を達成しました。 記事リンク: https://arxiv.org/pdf/2406.04882 プロジェクトリンク: https://sites.google.com/view... コードリンク: https://github.com/LYX0501/In... |
北京大学、初の汎用コマンドナビゲーション大型モデルシステムを提案 | CoRL 24
関連するおすすめ記事
-
オンラインチュートリアル | 青島出身の焦恩俊の魂が『黒神神話』の孫悟空に転生?MuseV + MuseTalk で高品質なデジタル ヒューマンを制作。
-
Wu Xinhong 氏へのインタビュー: Meitu AI の主な目標は、ユーザーが収益を上げることを支援することです。適用期間はわずか 2 年です。
-
たった今、AIのゴッドファーザーにノーベル物理学賞が授与されました!
-
北京大学の卒業生による35ページの技術レポートは、1,000のインテリジェントエージェントを使った「Minecraft」の作成の秘密を明らかにしている。
-
ポップアップウィンドウがクロード氏を完全に困惑させ、コンピューターを全く使用できなくなった | スタンフォード大学と香港大学の新たな研究
-
自動車業界最大の AI「ダークホース」である Geely 社が独自に開発した大規模音声モデルは、最先端 (SOTA) システムを 10% 上回り、トップに立っています。