618ZXW

ロボットが片目でも透明な物体を拾えるようになりました | ICRA 2025

ロボットが透明な物体を正確につかめるようにするという問題がついに解決されました。

さらに、これは 1 つの画像のみに依存する単眼方式です

効果は以下のとおりです。

これは、Sweet Potato Robotics中国科学院自動化研究所などの機関が共同で提案した新しい研究プロジェクトです。

MODEST は、透明なオブジェクトの単眼深度推定とセマンティックセグメンテーションのためのマルチタスク フレームワークです。

MODEST アルゴリズム フレームワークは、一般的な把持モデルのプレモジュールとして機能し、プラグアンドプレイ機能、柔軟性、効率性を提供し、追加のセンサーに依存しません。

さらに、単一の RGB 画像のみを使用して透明なオブジェクトをキャプチャすることができ、そのパフォーマンスは他の双眼および多眼方式よりも優れています。

スマートファクトリー、実験室自動化、スマートホームなどのシナリオで幅広く使用でき、設備コストを削減し、ロボットの透明物体の操作能力を大幅に向上させます。

なお、この研究は、ロボット工学分野における世界トップクラスの会議であるICRA 2025 (IEEE 国際ロボティクス・オートメーション会議) に選出されたことも特筆に値します。

どうやってそれをやったんですか?

現在の透明物体の把持の核心は、深度情報の取得にあります。現在、深度センサーも多視点再構成法も、透明物体の正確かつ完全な深度情報を取得することはできません。

透明物体の複雑な屈折と反射の特性は、ロボットの認識にとって大きな課題となります。多くのRGB画像では、透明物体は明確なテクスチャを欠き、背景に溶け込んでしまうことがよくあります。

さらに、市販の深度カメラでは、これらの物体の深度情報を正確に捉えるのが難しく、深度マップが欠落したり、ノイズが過剰になったりして、さまざまな分野でのロボットの広範な応用が制限されます。

透明な物体を認識するという問題を解決するために、従来の方法では主に特殊なセンシングデバイスやマルチビュー画像に依存していましたが、これにより時間と経済的コストが増加し、アプリケーションシナリオによって制限されることが多くありました。

MODEST 単眼フレームは、透明物体を処理する際の従来のセンサーの限界を打ち破り、設備コストと使用の複雑さを軽減し、透明物体を認識するためのより効率的で経済的かつ便利なソリューションを提供します。

△単眼透明物体認識フレームワークと他の手法との比較

MODESTは主に透明物体の深度推定に焦点を当てています。セマンティックアプローチと幾何学的アプローチを組み合わせたマルチタスクフレームワークを用いて物体の正確な深度情報を取得し、それを点群ベースの把持ネットワークと組み合わせることで透明物体の把持を実現します。

これは、一般的なクロール ネットワークの前に透明なオブジェクトの拡張モジュールを追加することと同じです。

MODESTモデルの全体的なアーキテクチャを図に示します。入力は単眼RGB画像で、出力は透明物体のセグメンテーション結果とシーン深度予測です。

ネットワークは主に、エンコード、再構成、意味幾何学的融合、反復デコードの 4 つのモジュールで構成されています

入力画像は、まず ViT ベースのエンコード モジュールによって処理され、次にセグメンテーションと深度ブランチに対応するマルチスケール特徴に再構成されます。

2 つの機能セットは融合モジュールで混合および強化され、最終的に複数の反復を通じて機能が段階的に更新され、最終的な予測結果が得られます。

△意味的・幾何学的融合と反復戦略に基づく透明物体のための単眼マルチタスクフレームワーク

透明なオブジェクトの場合、セマンティック セグメンテーション タスクは深度推定のためのセマンティック情報とコンテキスト情報を提供できますが、深度推定はセグメンテーションのための境界や表面などの幾何学的情報を提供できます。

2 つのタスク間の補完情報を最大限に活用するために、MODEST アルゴリズム フレームワークには、注意ベースのセマンティック幾何学的融合モジュールが組み込まれており、両方のタスクのパフォーマンスを同時に向上させることを目指しています。

△意味幾何学融合モジュール構造

人間は透明な物体など目立たない物体を観察する際、まず物体の全体的な輪郭に注目し、次に局所的な詳細に注目する傾向があります。人間の目に着想を得たMODESTフレームワークは、粗い特徴から細かい特徴への更新戦略を提案し、予測精度をさらに向上させます。

実験結果

MODEST の新しいアルゴリズム フレームワークの検出パフォーマンスをテストするために、チームは透明オブジェクトの分野で広く影響力のある 2 つの公開シミュレーション データセット、Syn-TODD実際のデータセット ClearPose を選択しました。

透明物体に対する最先端の両眼視法である SimNet、MVTran、InvPT、TaskPrompter との比較実験が行われました。

どちらの大規模データセットにも、10 万枚を超える適切に注釈が付けられた画像が含まれており、深刻な閉塞などの極端なシナリオも含まれています。

1. 公開データセットにおける定性的および定量的比較実験

△ Syn-TODDシミュレーションデータセットにおける定性的な比較結果

△ 実データセットClearPoseにおける定性的な比較結果

2 つのデータセットの定性的な比較から、SimNet、MVTrans、およびその他の方法では、透明なオブジェクトによる背景の不正確な屈折と RGB 画像のテクスチャの欠如のために満足のいく予測を達成できず、その結果、広範囲の深度マップとセグメンテーション マスクが欠落していることが示されています。

しかし、効果的な統合と反復を通じて、チームのアプローチは、人間の目でさえ分析や判断が難しいシナリオでも、完全かつ明確な予測結果を生み出すことができます。

△ Syn-TODDシミュレーションデータセットにおける定量的な比較結果

△ 実データセットClearPoseでの定量的な比較結果

表の定量的な比較では、MODEST アルゴリズム フレームワークがすべてのメトリックにおいて他のすべての方法を大幅に上回っていることが示されています。

注目すべきは、入力として単一の RGB 画像のみを使用しているにもかかわらず、深度推定とセマンティック セグメンテーションの点で、MODEST が他のステレオ方式やマルチビュー方式よりも大幅に優れていることです。

さらに、Syn-TODD データセットでは、2 番目にランクされた方法と比較して、MODEST アルゴリズム フレームワークは RMSE と REL メトリックの両方で 45% 以上の改善を達成し、セマンティック セグメンテーション精度も 90% を超えています。

2. 実際のプラットフォームクローリング実験

研究チームはこのアルゴリズムを実際のロボット プラットフォームに移行し、透明な物体をつかむ実験も行いました。

このプラットフォームは、主にURロボットアームと深度カメラで構成されています。MODEST法を用いた透明物体の正確な認識に基づき、GraspNetを用いて把持姿勢を生成します。

複数の透明オブジェクトに対する実験結果は、MODEST メソッドが実際のプラットフォーム上で優れた堅牢性一般化を示すことを示しています。

もう一つ

注目すべきは、MODEST に加えて、Digua Robotics が開発したDOSOD オープン語彙オブジェクト検出アルゴリズムも ICRA 2025 に選ばれたことです。

MODEST は、動的なセマンティック理解フレームワークを通じて複雑なシーン認識の精度を向上させ、DOSOD は幾何学的モデリングとセマンティック分析技術を組み合わせて透明なオブジェクトに対する操作の精度を最適化します。

両方の技術的成果は、大規模な商業シナリオで効果的に検証されています。

興味のある読者は、以下のリンクをクリックして詳細をご覧ください。

MODEST記事アドレス: https://arxiv.org/pdf/2502.14616

MODEST コード アドレス: https://github.com/D-Robotics...

DOSOD記事リンク: https://arxiv.org/abs/2412.14680

DOSOD コード アドレス: https://github.com/D-Robotics...