618ZXW

3500人民元、人間の動きを1:1で再現したヒューマノイドロボット | 上海AIラボの新たなオープンソース成果

「本物の人間がイェーガーを操縦した」という『パシフィック・リム』の象徴的なシーンが、今や現実のものとなった。

さっそく、ビデオをご覧ください。

これは実は上海 AI ラボが発表した最新のヒューマノイド ロボット「コックピット」、 HOMIE (Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit) です。

ロボットアーム外骨格動作感知手袋3軸フットペダルを使用することで、二足歩行ヒューマノイドロボットの全身を遠隔から正確に制御することができます。

これはまた、ヒューマノイドロボットが高価なモーションキャプチャ機器を必要とせずに人間の動きを 1:1 で再現できることも意味します。

研究チームによると、HOMIE の主なセールスポイントは「高速、正確、経済的」だという。

  • 高速: 従来の最速 VR コントローラー取得ソリューションと比較して、 200%高速化し、タスク完了時間を50%短縮します。
  • 精度: 従来のヒューマノイドロボットの遠隔操作が抱える 2 つの大きな問題 (全身協調制御の難しさ(動作と操作の同時制御が必要)、高精度のコマンドの取得の難しさ(高価なモーションキャプチャ機器やビジョンアルゴリズムに依存)) を解決し、ハンドリング、コラボレーション、ドアの開閉などの複雑な動作操作タスクを完了できます。
  • 節約: ハードウェア セット全体のコストは約3,500 人民元で、HOMIEもオープン ソースです
このシステムは、強化学習駆動型のモーションコントロールフレームワークと低コストの同型外骨格ハードウェアで構成されており、初めて一人のオペレータによる二足歩行ヒューマノイドロボットの全身の精密な遠隔操作を実現しました

強化学習によるモーション制御フレームワーク

まずは箱を開けて、先ほどの「3点セット」を詳しく見てみましょう。

3つのコアコンポーネント

従来のヒューマノイドロボットの遠隔操作では、常に 2 つの大きな課題に直面していました。

  • 全身の協調は困難です。動きと操作を同時に制御する必要があります。
  • 高精度のコマンド取得は困難であり、高価なモーション キャプチャ 機器や視覚アルゴリズムに依存します。

HOMIE の画期的な点は、「人間と機械の同型性」というコンセプトを極限まで追求し、コックピットを 3 つのコア コンポーネントで構成した点にあります。

1.均質ロボットアーム外骨格:7自由度ロボットアームはロボットの関節と1対1で対応します。操作者はまるで自分の腕を操作するかのようにロボットアームを動かすだけで、誤差0.09度未満、最大260Hzの周波数でロボットの動きを正確にマッピングできます。

2.モーションセンサーグローブ:15自由度センサーが微妙な指の動きを捉え、ホール効果磁気センシング技術により低コストかつ高精度(200元/個)を実現し、さまざまな器用な手モデルに適応できます。

3. 3軸フットペダル:ロボットの移動速度、ステアリング、しゃがむ高さをペダルで制御し、直感的な「アクセルスタイル」の操作をサポートします。

一つずつ見ていくと…

同型外骨格ロボットアームは、Unitree G1 および Fourier GR-1 ロボットフォームに基づいており、ロボットと完全に互換性のある 7 自由度のジョイントでカスタマイズされています。

Dynamixel サーボ モーター (精度 0.09°) を使用し、URDF モデルを使用して座標系を調整して、オペレーターの動きとロボットの動きの 1:1 マッピングを保証します。

通常、オペレーターの背中と手のひらに固定され、ロボットの作業スペースの大部分をカバーし、人間の動きを制限しません。

1本200元のモーションセンサー付きグローブには、指ごとに3セットのホールセンサーが装備されており、指先の曲げや指関節のたわみなど、15の自由度の動きを捉えることができます。

一方、磁石は関節が回転すると磁場の強さを変え、マイクロコントローラがこれを関節角度にリアルタイムで変換し、さまざまな器用な手へのプラグアンドプレイの適応をサポートします。

足元の3 軸フットペダルは、高精度ポテンショメータによって変換された圧力信号を使用して、直線速度、ステアリングの角速度、スクワットの高さを制御します。

ちなみに、モード切り替えボタンは、車のアクセルと同様の操作ロジックで、前進/後進と左折/右折の素早い切り替えをサポートします。

上記の設計により、オペレーターはロボットを「装着」することができ、従来の VR コントローラーの遅延とエラーが完全に排除されます。

実験結果によると、HOMIEのコマンド取得速度は最速のVRソリューションよりも200%速くタスク完了時間は50%短縮されました。特に、操作者が物体を掴むために手を伸ばした際、ロボットはほぼ同期して反応します。

さらに、その背後にあるチームは特に次のことを思い出させました。

外骨格は同型コンセプトに基づいて設計されているため、さまざまなロボットの腕の設計に応じて腕の部分のみを微調整する必要があります。ただし、現在のヒューマノイド ロボットの腕の設計は基本的に 7-DOF パラダイムであるため、この調整はそれほど重要ではありません。

グローブとペダルは、市販されているすべてのヒューマノイドロボットと互換性があります。

次に、HOMIE の背後で使用されている強化学習に焦点を当てましょう。

強化学習フレームワークに3つの革新的な技術を導入

既存の強化学習手法では、ヒューマノイドロボットが指定された姿勢まで安定して素早くしゃがむことを実現することはできません。さらに、既存の手法は、ロボットの動作を上半身の姿勢に適応させる実験において、大量のデータと動作の事前確率に依存しています。

前者はロボットの動作スペースを大幅に制限し、後者はロボットのトレーニングコストを増加させます。

ロボットの動作スペースを最大限に活用し、あらゆるロボットが上半身のどのような姿勢でもバランスを保つことを素早く学習できるようにするために、HOMIE は強化学習フレームワークに 3 つの革新的なテクノロジーを導入しています。

1. 上半身の姿勢トレーニング

従来の手法では、上肢の関節角度を直接ランダムにサンプリングするため、トレーニングの初期段階でロボットのバランスが崩れやすく、トレーニングが遅くなったり、不可能になったりすることがよくあります。しかし、HOMIEは漸進的な学習アプローチを導入し、トレーニング中にロボットの上肢動作のサンプリング難易度をよりスムーズに高めることができます。

  • 初期段階では、上半身の可動範囲を制限します(可動率ra=0)。この時、上半身の姿勢はデフォルト姿勢を維持しやすくなり、安定した歩行を訓練しやすくなります。
  • 速度追跡報酬が達成されると、ra は徐々に 1 まで増加し、最終的なサンプリング分布は純粋にランダムな分布 (0,1) になります。
  • 特別な確率分布を使用して、移行をスムーズにし、アクションの突然の変化によって生じる不均衡を回避します。

2. 高レベルの追跡報酬関数

ロボットの動作空間(地面から物体を拾ったり、高所に置いたりするなど)を拡張するために、HOMIE は高さを追跡するための一般的な報酬関数に基づいた新しい補助機能を導入します。

この機能は、膝関節角度を目標高さに動的に連動させることで、ロボットがしゃがみ姿勢を自律的に調整できるようにガイドします。

トレーニング中、コマンドのサンプリングごとに、環境の1/3がしゃがむ動作の学習に、2/3が立ち上がって歩く動作の学習に割り当てられます。同じ環境が常に2つのモード間で切り替えられ、最終的には歩行としゃがむ動作を同時に安定して学習できるようになります。

3. 対称性強化技術

ヒューマノイドロボットの左右対称性を最大限に活用し、非対称な動きによる不均衡を回避するために、HOMIE はデータ取得およびトレーニング中にミラー反転を導入します。

  • 観測された状態 (関節角度、速度など) は xz 平面に沿ってミラーリングされ、対称的なサンプルが生成されます。
  • ポリシー ネットワークの最適化中に、対称アクションと値の平均二乗誤差損失が追加で計算され、ネットワークに対称動作を学習させます。

シミュレーションから現実まで包括的な検証に合格しました。

研究者は、HOMIE 強化学習フレームワークで提案された 3 つの新しい方法について蒸留実験を実施し、いくつかの主要な指標で結果をテストし、最終的に次のことを発見しました。

1)上半身の姿勢のトレーニングは、ロボットがさまざまな連続的に変化する上半身の姿勢でバランスを保ち、安定して歩くことをより早く学習するのに役立ちます。HOMIE のトレーニング方法は、ランダム確率を直接使用するトレーニングよりも確かに優れています。

2)高さ追跡報酬関数を導入することで、高さ追跡報酬関数のみを使用する場合と比較して、ロボットはスクワット動作をより安定してより速く学習できるようになります。高さ追跡報酬関数の割合を単純に増加させると、ロボットの学習はより困難になります。

3)対称性強化技術の使用により、トレーニングされた戦略の対称性が高まるだけでなく、ロボットのトレーニング速度が直接的に大幅に向上し、データ効率が向上します。

上記の結論はすべて、HOMIE トレーニング フレームワークがロボットが動作タスクの実行を学習するのに効果的に役立ち、人間が動作操作のより優れた基本的な制御戦略を獲得できるようにすることを示しています。

さらに、HOMIEはUnitree G1に適用できるだけでなく、研究者は同じフレームワークを使用してFourier GR-1ロボットのトレーニングも行いました。

結果は、 G1とGR-1は構造とサイズが大きく異なっていたにもかかわらず、HOMIEの強化学習フレームワークにより、GR-1は安定した歩行としゃがみを素早く学習できることを示しました。

一方、研究者らはHOMIEのハードウェアシステムに対して体系的なテストを実施し、サーボとホールセンサーの使用により、この低コストのハードウェアシステムは応答周波数と姿勢取得精度が非常に高いことを発見した。

一方、同型設計により、システムは追加のポーズ推定と解決を必要とせず、GPU や SoC を必要とせずに他の方法をはるかに上回るポーズ取得頻度を実現できます。

さらに、研究チームはHOMIEを使用して、さまざまな環境でさまざまなモバイル操作タスクを完了しました。

これらのタスクには、低い棚から高い棚への商品の取り出し、HOMIEを使って2人のロボット間での物の受け渡し、商品の移動、人の押し出し、電子レンジのスイッチオン、商品のピックアップ、花束の保持などが含まれます。これらのタスクは、HOMIE遠隔操作ヒューマノイドロボットの汎用性を如実に示しています。

タスク自体によるロボットの全体的な調整に対する高い要求は、HOMIE フレームワークを使用してトレーニングされた戦略の安定性も証明しています。

デスクトップのリモート コントロール タスクに HOMIE ハードウェア システムを使用することの優位性を証明するために、研究者は HOMIE と VR ソリューション (OpenTelevision) の両方を使用して 4 つの異なるデスクトップ タスクも完了しました。

最終的に、HOMIE は完了速度において大きな利点があり、特に正確な放射状の動きを必要とするタスクでは VR ソリューションの2 倍以上の速度で完了することがわかりました。

一方、研究者らは、HOMIE で収集したデータを使用して模倣学習アルゴリズムを訓練する可能性を探る予備的な試みも行いました。

しゃがんでリンゴを拾う、立ってリンゴを拾うという 2 つのタスクでそれぞれ 50 個のデータ ポイントを収集し、Seer モデルをトレーニングした結果を実際のロボットに展開したところ、 70% を超える成功率が達成されました。

要約すると、HOMIE の価値は、その技術的な進歩だけでなく、オープンソースで低コストという特徴にもあります (ハードウェア セット全体のコストはわずか約 3,500 人民元)。

現在主流のVR方式はOpenTelevisionで、AppleのVision Proをベースに動作します。中国では最もベーシックな256GのVision Proの価格は約3万元で、Vision Proの約12%に相当します。

これにより、ヒューマノイドロボットはモーションキャプチャへの依存から解放され、スマートフォンのような「直感的なコックピット」を通じて倉庫などの複雑なシナリオに入ることができるようになります。

チームは次のように述べています。

おそらく近い将来、すべてのロボットが独自の「ニューラル接続コックピット」を持つようになるでしょう。HOMIE はその道のりの最初のマイルストーンです。

すでにオープンソースなので、実践的なスキルに長けた人は、ぜひ試してみたいと考えています。

論文リンク: https://arxiv.org/abs/2502.13013 プロジェクトのホームページ: https://homietele.github.io/ コードリクエスト: https://forms.gle/NSLiABo3bPW...