|
ロボットの自律学習の道のりにおいて、触覚は機械に物理世界の細部を知覚する能力を与える不可欠な要素です。しかしながら、従来の触覚知覚システムの学習は、多くの場合、膨大なデータ収集に依存しており、これはコストがかかり非効率的です。データ駆動型手法の限界がますます明らかになるにつれ、効率的なデータ表現を通じて触覚学習の性能を向上させる方法が、ロボット工学研究の現在の焦点の一つとなっています。 近年、自己教師学習、スパース表現、クロスモーダル知覚に基づく革新的な技術が急速に登場し、触覚表現の簡素化と最適化のための新しいアイデアを提供しています。 ergoCub ロボットは人間との人間工学的な相互作用を目的として設計されています。 この分野におけるブレークスルーは、ロボットが限られたデータで複雑なタスクに迅速に適応することを可能にするだけでなく、人間や環境とのインタラクション能力を大幅に向上させることにもつながります。この革命的な変革において、データ効率の高い触覚表現技術は、ロボットの知覚と学習に新たな扉を開いています。 12月18日、Embodied Touch Communityが主催し、HyperAIが共催した「最先端分野の新興専門家」の第4回オンライン共有セッションで、パデュー大学博士課程3年生のXu Zhengtong氏が「ロボット学習のための効率的な触覚データ表現」と題したプレゼンテーションで、自身の研究成果であるLeTac-MPCとUniT、およびその技術ロードマップを共有しました。 HyperAI は、Zhengtong Xu 博士の詳細なプレゼンテーションを、元の意味を変えることなく編集し、要約しました。 微分可能最適化はロボット学習における強力なツールです。最適化はロボット工学分野において極めて重要かつ効率的なツールであり、軌道計画やヒューマンコンピュータインタラクションといった分野で目覚ましい成果を上げています。最適化について議論する前に、まず微分可能最適化の概念を導入する必要があります。この概念を説明するために、まず最適化問題の一般的な形式から見ていきましょう。 最適化の核となる考え方は、特定のアプリケーションシナリオに対するコスト関数を構築することです。これらのコスト関数は通常、大量の事前知識を含み、一連の制約を受ける場合があります。そのため、最適化問題を構築する際には、コスト関数にこれらの制約を追加することが必要になることがよくあります。 次に、最適化の基本的な形式である二次計画法 (QP) に焦点を当てます。これは最適化の分野で最も単純な形式の 1 つであり、実際には幅広い用途があります。 これを踏まえて、「微分可能性」という概念を導入します。微分可能性とは、ニューラルネットワークにおいて、層の出力をその内部パラメータに対する偏微分として計算できることを意味します。微分可能な二次計画法(QP)を導入する意義は、ニューラルネットワークに最適化層を追加する場合、その層が微分可能であることを保証する必要があることです。この方法によってのみ、最適化層のパラメータは自然に更新され、ネットワークの学習と推論中に勾配情報を通して流れることができます。したがって、二次計画問題を微分可能にすることができれば、ニューラルネットワークに統合し、ネットワークの一部とすることができます。 さらに、ロボット学習における最適化問題は、目的関数の設計や制約条件など、シナリオ固有の事前知識に依存することが多い。微分可能な最適化問題を構築することで、こうした事前知識を最大限に活用し、モデル設計に効果的に統合することができる。しかし、場合によっては、モデルベースのアプローチでは問題を記述できない(つまり、モデルベースの表現を構築できない)場合がある。そのような場合、データ駆動型アプローチを試みることにより、モデルがこれらの部分のパターンを自ら学習できるようにする。これはまさに微分可能な最適化問題の核心的な考え方である。 要約すると、二次計画問題は微分可能であるため、ニューラルネットワークの一部として導入することができます。このアプローチは、ネットワーク設計のための新しいツールを提供するだけでなく、ロボット学習におけるモデル設計にさらなる柔軟性と可能性をもたらします。 LeTac-MPC: 触覚信号に基づく反応把持とモデル制御手法の研究私たちは「反応把持」という概念を提案します。人間が物体を掴むプロセスを観察することで、人間は一般的に指を通して物体の特性と状態を知覚し、そのフィードバックに基づいて指の動きを調整することを発見しました。例えば:
反応型把持ロボットの実装人間の把持動作に着想を得て、モデルベースのアプローチを用いてこの動作をシミュレートする方法を探求します。GelSightなどの視覚ベースの触覚センサーを用いることで、生画像から主要な特徴を抽出し、簡単な処理で奥行き画像や差分画像を生成し、閾値処理を用いて接触面積を算出できます。接触面積は加えられた力の大きさを反映し、力が大きければ接触面積も大きくなり、逆もまた同様です。 さらに、オプティカルフロー技術を用いてマーカーの動きを追跡することで、横方向の力に関連する重要な量である変位を取得できます。これらの信号を組み合わせることで、比例微分(PD)制御器に基づく制御手法を構築し、触覚反応型把持を実現できます。 PDコントローラからMPCコントローラへPD制御器に加えて、モデル予測制御器(MPC)に基づく把持制御法も設計しました。MPCの制御目的はPD制御器と類似していますが、線形仮定とグリッパモデルに基づいている点が特徴的です。例えば、まず線形仮定と1自由度グリッパ動作モデルを導入し、次にこれらを1つのモデルに統合することで、最終的にMPCに基づく制御則を構築します。 MPCコントローラの用途と限界MPCコントローラモデルは、複数のシナリオで優れたパフォーマンスを発揮します。ここでは2つの応用例を紹介します。1つ目の応用例は、バナナを引っ張る際に、グリッパーがバナナの動的フィードバックに基づいて力を調整し、安定したグリップを確保します。外力が除去されると(例えば、人がバナナを放すなど)、コントローラは徐々に定常状態に収束します。 2 番目のアプリケーションは、IROS に関する当グループの別のメンバーが提案した結果であり、多自由度グリッパーを使用して複雑な操作タスクを実現し、当方が提案した MPC コントローラーを採用しています。 しかし、モデルベースコントローラには一定の限界があり、ほとんどの日常的な物体への一般化は困難です。これは主に、モデリングプロセス中に単純化された仮定が用いられることに起因しており、現実世界の物体の一部ではしばしばこの仮定が当てはまらないことがあります。下の図に示すように、柔らかい物体や複雑な形状の物体の場合、単純な閾値設定では接触領域を正確に抽出することが困難です。一方、アボカドやクッキーなどの硬い物体では、触覚イメージがより強くなるため、接触領域を正確に抽出することができます。 LeTac-MPCコントローラの3つの主な利点この問題に対処するために、最適化問題の解決可能性を保証する数学的手法(コレスキー分解など)を採用し、それによってコントローラのトレーニングプロセスを安定化し、最終的にLeTac-MPCを提案します。 下の画像は、最も直感的な学習結果を示しています。硬さの異なる4つの物体のみを含むデータセットで学習を行いました。学習データが限られているにもかかわらず、学習済みのコントローラは、サイズ、形状、材質、質感の異なる日常的な物体に汎化できます。この少量学習に基づく汎化能力は、このコントローラの大きな利点です。 第二に、私たちが訓練したコントローラは干渉に耐性があり、グリップ方法と力をリアルタイムで調整できるため、グリップした物体が外部干渉によって落下することはありません。 3つ目に、学習済みのコントローラは非常に高い応答性を備えています。下の図に示すように、激しい動きや慣性変化(破片が入った箱など)を伴うシナリオでも、コントローラは物体の動的変化に迅速に対応できます。 UniT: ロボット学習のための統一された触覚表現上記の研究では、コントローラーの汎化能力を実現しました。では、単一の単純な物体を用いて統一された触覚表現を学習できるでしょうか? 下図に示すように、単一の単純な物体とは、ボールやレンチ(六角レンチなど)といった幾何学的に単純な物体を指します。これらの物体の触覚イメージは比較的単純であるため、本手法も比較的簡潔です。 具体的には、まったく新しいネットワーク構造を設計する代わりに、VQGAN が一般化機能を備えた触覚表現を効果的に学習できることを発見しました。 学習フェーズでは、VQGANモデルを用いて触覚表現を学習します。推論フェーズでは、単純な畳み込み層を通してVQGANの潜在空間をデコードし、下流のタスク(知覚やポリシー学習など)に接続します。 論文の宛先: https://arxiv.org/abs/2408.06481 復元実験特性評価の有効性を検証するために、六角レンチと小型ボールの再構築実験を実施しました。 まず、Allen Key実験があります。下図に示すように、学習データはAllen Keyのみであるにもかかわらず、潜在空間を用いて欠損オブジェクトの元画像を再構成できます。これは、潜在空間に元画像の有用な情報のほとんどが含まれていることを示しています。MAEと比較すると、MAEは元画像を正確に再構成することが困難であることがわかります。これは、MAEがデコード処理中に情報損失の影響を受ける可能性があることを示唆しています。 2つ目の実験はSmall Ball実験です。下図に示すように、トレーニングデータはSmall Ballのみであり、再構成効果はAllen Keyほど優れていませんが、モデルは複雑な物体の元の信号をある程度再構成できます。 さらに、潜在空間は触覚の幾何学的情報(形状や接触構成など)を捉えるだけでなく、マーカーの動きに関する情報も暗黙的に含んでいます。例えば、元の画像と再構成された画像でマーカーを追跡したところ、マーカー追跡の性能は非常に似ていることがわかりました。 下流タスクとベンチマーク6D ポーズ推定、3D ポーズ推定、分類ベンチマークなど、いくつかのベンチマークで UniT メソッドの特性評価機能をテストしました。 6D姿勢推定では、生の触覚画像(USBプラグの触覚画像など)を入力し、その位置と回転を予測します。結果は、UniTモデルがMAE、BYOL、ResNet、T3と比較して、他の手法よりも精度が高いことを示しています。 3D姿勢推定では、物体の回転姿勢のみを予測します。下の図に示すように、UniTは他の手法よりも優れたパフォーマンスを発揮します。 次に、分類ベンチマークも実施しました。データセットはCMUのYCBSight-Simから取得しました。データセットは比較的小規模ですが、UniTは分類タスクにおいて優れた性能を示しました。特に、単一の物体の触覚表現を学習した後、他の未知の物体の分類タスクにも自然に一般化できます。例えば、マスターシェフの缶詰のみで学習した表現は、6つの異なる物体の分類にうまく適用され、優れた結果が得られました。単一の物体で学習した表現の中には、多数の物体で学習した表現よりも優れた性能を示したものもありました。 戦略学習実験さらに、触覚表現を方策学習実験に適用し、複雑なタスクにおけるパフォーマンスを検証しました。この実験では、Allen Keyデータを用いて学習を行い、以下の3つのタスクを評価しました。
3つの異なる手法をベンチマークしました。Vision-Only(視覚信号のみに依存)、Visual-Tactile from Scratch(視覚と触覚の共同トレーニング)、Visual-Tactile with UniT(UniTから抽出した触覚表現をポリシー学習に使用)です。下図に示すように、UniT表現を用いたポリシー学習手法が、すべてのタスクにおいて最高のパフォーマンスを示しました。 HyperAIは今後、Embodied Hapticsコミュニティを支援し、国内外の専門家や学者を招き、最先端の研究成果や知見を共有するオンライン共有イベントを継続的に開催していきます。どうぞご期待ください! |