618ZXW

ロボットは人間を簡単に模倣し、さまざまなタスクやインテリジェントエージェントに汎用化できます。マイクロソフトの新たな研究によると、ロボットは人間とロボットの間で統一された動作表現を学習していることがわかりました。

高品質なロボットデータが不足する心配なく、ロボットアームが人間の動きを模倣できるようにする新しい方法が登場しました。

Microsoft は、現実世界と人間の相互作用に関するデータをモデルに「供給」するImage-Goal Representation (IGOR) を提案しました。

IGOR は、人間とロボットが学習するための統一されたアクション表現空間を直接提供しタスクとエージェント間での知識の転送を可能にし、下流のタスクのパフォーマンスを向上させます。

具現化インテリジェンスの分野で基本モデルをトレーニングする場合、ロボットデータを直接収集するにはコストがかかる一方で、高品質のラベル付きロボットデータがモデルの品質を保証する鍵となることを知っておくことが重要です。

インターネットのビデオデータは、人間が現実世界のさまざまなオブジェクトとどのように相互作用するかなど、人間の活動を豊富に明らかにするものであることを考慮して、Microsoft の研究チームは IGOR を提案しました。

人間とロボットの両方に対して統一された動作表現を正確にどのように学習できるのでしょうか?

IGORフレームワークの解釈

IGOR フレームワークは以下に示されており、3 つの基本モデルが含まれています。

潜在的アクションモデル、ポリシーモデル、世界モデル

具体的には、IGOR は、初期状態とターゲット状態の間の視覚的な変化を低次元ベクトルに圧縮し、初期状態とアクションベクトルからターゲット状態への再構築損失を最小限に抑えることでトレーニングする潜在的アクションモデル (LAM) を最初に提案しました。

このように、同様の視覚的変化を伴う画像状態は同様のアクション ベクトルを持ち、ピクセル空間ではなく意味空間での変化を表します。

LAM は、インターネット規模のビデオ データを潜在的なアクション注釈付きのデータに変換できるため、具現化されたインテリジェンス ベース モデルが使用できるデータの量が大幅に拡大されます。

この統合された潜在的なアクション空間により、チームはロボットと人間が実行するほぼすべてのタスクに対してポリシー モデルとワールド モデルをトレーニングできます。

LAMとワールドモデルを組み合わせることで、IGORは1つのビデオ内のオブジェクトの動きを他のビデオに「転送」することに成功しました。さらに、これらのアクションはタスク間およびエージェント間で転送されます。

つまり、人間がロボットに指示を与えると、ロボットも正しい動作を実行できるということです。下の図に示すように、LAMによって得られる潜在動作表現は、クロスタスク(異なる物体を手で動かす)とクロスエージェント(ロボットアームの動きを手の動きで誘導する)を同時に実現できます。

△潜在アクションにより、タスク間の移行とエージェントの移行が可能になります。

モデル アーキテクチャの具体的な詳細は次のとおりです。

潜在行動モデル

LAM の目標は、インターネット規模のビデオ データから教師なし方式で潜在的なアクションを学習してラベル付けすること、つまり、一連のビデオ フレームが与えられた場合に、隣接するフレームの各ペアの潜在的なアクション表現を抽出することです。

したがって、LAM モデルは、逆動的モデル (IDM) と順動的モデル (FDM) で構成されます。

IDM は、一連のビデオ フレームから潜在的なアクション表現を抽出しFDM は学習した表現と現在のビデオ フレームを使用して次のビデオ フレームを再構築する役割を担います

潜在的なアクションの表現を低次元に制限することにより、LAM モデルは 2 つのフレーム間の意味の違いを学習します。

このアプローチは、学習された潜在的なアクションが一般化可能であることを本質的に保証する点に注目すべきです。

下の図に示すように、未知のデータセットにおいて、LAMによって学習された類似の潜在動作は、クランプを開く、ロボットアームを左に動かす、クランプを閉じるといった類似のセマンティクスを反映しています。これらの潜在動作は異なるタスク間で共有されるため、下流モデルの汎化が向上します。

△ 未知のデータセットにおける潜在行動モデルのパフォーマンス

財団世界モデル

ワールド モデルの役割は、過去のビデオ フレームに基づいて各潜在的なアクションを実行した後、過去のビデオ フレームと将来の複数のフレームの潜在的なアクション表現に基づいて将来のビデオ フレームを生成することです。

この目的のために、研究者は、事前トレーニング済みのビデオ生成モデルを微調整し、テキストを潜在的なアクション表現と FDM の再構築された出力に置き換えることを選択しました。

研究者は、具体化された知能データセットを微調整した後、ワールドモデルが同じ履歴フレームを与えられた場合に、さまざまな潜在的なアクション表現に対応する将来のビデオフレームを正常に生成できることを観察しました。

下の図に示すように、この方法では、潜在的なアクションとワールド モデルを通じて、さまざまなオブジェクトの独立した動きを制御できます。

△異なる潜在行動表現に対する世界モデルの生成結果

財団政策モデル

ポリシー モデルの目標は、ビデオ フレームとテキストの指示に基づいて、特定の下流タスクの各ステップでエージェントが実行する必要があるアクションを予測することです。

IGOR では、トレーニングは 2 つのフェーズに分かれています。

最初の段階では、ポリシー モデルは、入力ビデオ フレームとテキスト指示に基づいて LAM によって抽出された対応する潜在的な動きの表現を予測し、それによってビデオ フレームから一般的な潜在的な動きの表現へのマッピングを確立します。

第 2 段階では、モデルはテキスト指示、ビデオ フレーム、および第 1 段階でモデルによって予測された潜在的なモーション表現に基づいて、下流のタスクの特定のモーション ラベルを予測します。

既存のモデルと比較して、第 1 段階で予測される潜在的なアクション表現には、タスクを完了するために達成する必要のある短期目標が含まれており、これによりモデルの入力情報が充実し、最終的な戦略のタスク成功率が向上します (下の図を参照)。

△下流ロボットタスクにおけるポリシーモデルのパフォーマンス

研究者らは、同じシナリオにおいて異なるテキスト指示を与えることで、ポリシーモデルの有効性を検証しました。このモデルは、異なる指示に基づいて対応する潜在的な行動表現を生成し、ワールドモデルを通じて対応する指示の実行をシミュレートすることができます。

△異なるテキスト指示に対するポリシーモデルと世界モデルの生成結果

要約すると、IGORは、大量の人間およびロボットのビデオを事前学習し、それらを様々なタスクやエージェントに一般化することで、行動表現を学習する新しいアプローチを提案しています。膨大な量のビデオから行動表現を学習することで、IGORはロボットが人間の行動を容易に模倣することを可能にし、より一般化されたエージェントを実現します。

プロジェクトホームページ: https://aka.ms/project-igor 論文: https://aka.ms/project-igor-p...