618ZXW

NVIDIAチームが機械学習の新しい手法を発表!わずか5つのデモで1000個の新しいデモを生成。これはフェイフェイ・リー氏の弟子たちによる共同作業の成果です。

ロボットが複雑なスキルを習得するには、人間が 5 回実演するだけで十分です。

NVIDIA Labs は、ロボットのトレーニングデータが不足している問題に対する新しい解決策としてDexMimicGen を提案しました。

5 回のデモの後、DexMimicGen は 1000 個の新しいデモを直接模倣できるようになります。

さらに、非常に使い勝手が良いです。これらの新しいデモで訓練されたロボットは、シミュレーション環境で最大97%の成功率を達成でき、これは実際の人間のデータを使用するよりも優れています。

このプロジェクトに携わる NVIDIA の科学者 Jim Fan 氏は、機械を使って機械をトレーニングするというこの方法が、ロボット工学分野における最大の問題点 (データ収集) を解決すると考えています。

同時に、ジム・ファンも次のように予測した。

ロボット データの未来は生成的であり、ロボットの学習プロセス全体の未来も生成的なものになります。

DexMimicGen の共同第一著者 3 名全員が Fei-Fei Li の「大弟子」であり、具体的にはテキサス大学オースティン校 (UT Austin) の助教授 Yuke Zhu の教え子であることは特筆に値します。

3人とも中国人で、現在はNVIDIA Researchでインターンシップを行っています。

5回のデモン​​ストレーションで1000件のデータエントリを生成

前述のように、DexMimicGen はわずか 5 回の人間のデモに基づいて 1,000 個の新しいデモを生成できます。

実験を通じて、著者らは 3 つのロボット形式をカバーする 9 つのシナリオを設定し、60 回のデモン​​ストレーションを実施し、21,000 を超えるデモが生成されました。

シミュレーション環境では、DexMimicGen によって生成されたデータを使用してトレーニングされた戦略は、引き出しの整理で 76% の成功率を達成しましたが、人間のデータのみを使用した場合の成功率はわずか 0.7% でした。

ビルディングブロック組み立てタスクでは、成功率も 3.3% から 80.7% に増加しました。

最も成功率が高かったタスクは瓶の仕分けで、97.3% に達しましたが、手動データのみを使用した場合の成功率はわずか 0.7% でした。

全体的に、シミュレーション環境では、生成されたデータにより、著者らが設計した 9 種類のタスクすべてにおいてロボットの成功率が大幅に向上しました。

ベースライン メソッドと比較すると、DexMimicGen を使用して生成されたデータもより効率的です。

実環境に移行した後、著者らはアルミ缶の選別タスクをテストしました。その結果、わずか40個のデモを生成しただけで成功率が90%に達したのに対し、データを生成しない場合は成功率が0%でした。

さらに、DexMimicGen はタスク間の一般化能力を示し、トレーニングされたポリシーがさまざまなタスクで適切に機能することを可能にします。

DexMimicGen は初期状態分布の変化に対しても強力な堅牢性を示し、より広範囲の初期状態分布 D1 および D2 でテストした場合でも一定の成功率を維持します。

シミュレーション手法を現実世界へ応用

DexMimicGen はMimicGenの改良版であり、これも NVIDIA と UT Austin の共同チームによって開発されました。

Zhu Yuke 氏と Fan Linxi 氏はともに、CoRL 2023 で発表された MimicGen の研究に参加しました。

MimicGenの核となるアイデアは、人間のデモンストレーションデータを対象オブジェクトを中心としたセグメントに分割しオブジェクトの相対的な位置と姿勢を変更することで新しい環境での人間のデモンストレーションの軌跡を再現し、自動データ生成を実現することです。

DexMimicGen は、双腕ロボットの器用な操縦タスク向けに MimicGen システムをいくつかの側面で改良、拡張したものです。

  • 双腕器用操作タスクのニーズを満たすために、並列、協調、順次の3 つのサブタスク タイプが導入されています。
  • 3 種類のサブタスクでは、2 本の腕の独立した動き、正確な調整、特定の連続操作を可能にするために、非同期実行、同期実行、連続制約などのメカニズムが設計されました。
  • 「現実-シミュレーション-現実」のフレームワークを実現し、デジタルツインを構築することでDexMimicGenを実際のロボットシステムへの応用に拡張しました。

ワークフローの面では、DexMimicGen はまず人間のサンプルを収集してセグメント化します。

研究者たちは、XRヘッドセットを装着したロボットを遠隔操作して目標タスクを完了させ、少量のデモンストレーションデータを生成した。著者らは、各タスクについて5~10件の人間のデモンストレーションサンプルを収集した。

これらの人間のデモンストレーション サンプルは、並列、調整、および順次という 3 つのサブタスク定義に従ってフラグメントに分割されます。

  • 並列サブタスクにより、両方のアームが独立して実行できます。
  • 協調サブタスクでは、重要な瞬間に両腕を同期して動かす必要があります。
  • 順次サブタスクでは、特定のサブタスクは他のサブタスクが完了した後にのみ実行できることが規定されています。

要約すると、デモンストレーション データがセグメント化された後、ロボットの各アームは独自のセグメント セットを受け取ります。

データ生成の開始時に、DexMimicGen はシミュレートされた環境内のオブジェクトの位置や向きなどのデータをランダム化し、参照として人間のモデルをランダムに選択します。

現在のサブタスクでは、DexMimicGen は、現在の環境内の主要なオブジェクトの位置と方向を使用して、デモンストレーション フラグメントの変換を計算します。

次に、この変換を使用して、参照セグメント内のロボットの動作軌跡が処理され、変換された軌跡が新しい環境内のオブジェクトの位置に一致するようになります。

変換を生成した後、DexMimicGen は各腕のモーション キューを維持し、指の関節の動きをデモ データから直接再生します。

プロセス全体を通して、システムはタスクが正常に完了したかどうかを継続的に確認します。タスクが1回の実行で正常に完了した場合、実行プロセスは有効なデモンストレーションデータとして記録されます。そうでない場合、データは破棄されます。

次のステップは、十分な量のデモンストレーション データが取得されるまで生成プロセスを繰り返すことです。

データ収集後、著者らはDexMimicGenによって生成されたデモデータを用いて模倣学習ポリシーを学習した。ポリシーの入力はRGBカメラ画像であり、出力はロボットの動作である。

最後に、シミュレーションから現実への移行に関して、著者らはデジタル ツイン環境で DexMimicGen によって生成された大規模なデモ データを再び使用して、模倣学習戦略をトレーニングしました。

その後、著者らはデジタルツイン環境でトレーニングされた戦略を微調整して、一般化パフォーマンスと堅牢性を向上させ、それを現実世界のロボットシステムに転送しました。

著者について

DexMimicGen の共著者は 3 人おり、全員がテキサス大学オースティン校の中国人学生です。

さらに、3人は浙江大学卒業生で李菲菲の教え子である朱宇克助教授(朱宇克)の教え子です。彼らは以下のとおりです。

  • 博士課程の学生である江振宇さんは、清華大学で学士号を取得し、2020年にテキサス大学オースティン校に入学しました。彼女は来年卒業する予定です。
  • 修士課程の謝雨齐(ユーチー・シェ)さんは、上海交通大学とミシガン大学の共同プログラムを通じて学士号を取得しました。来年卒業予定です。
  • 博士課程の学生であるケビン・リンさんは、カリフォルニア大学バークレー校とスタンフォード大学でそれぞれ学士号と修士号を取得し、今年、博士課程の研究を進めるために朱宇克氏の研究グループに加わった。

Zhu Yuke 氏も NVIDIA の研究科学者であり、チームの他の 2 人のリーダーも NVIDIA に所属しています。

彼らはアジェイ・マンドルカーとジム・ファンで、二人ともフェイフェイ・リーの教え子です。マンドルカーはDexMimicGenプロジェクトチーム全体の中で唯一の中国人以外のメンバーです。

さらに、徐振佳氏と万衛康氏の2人の中国人研究者もこのプロジェクトに貢献しました。チーム内の分担は以下の通りです。

中国語翻訳は機械翻訳であり、参考のみを目的としています。

プロジェクトホームページ: https://dexmimicgen.github.io/ 論文アドレス: https://arxiv.org/abs/2410.24185 参考リンク: [1]https://x.com/SteveTod1998/st... [2]https://x.com/DrJimFan/status...