智源ロボティクス、ロボットの4D世界モデルを公開

志遠ロボティクスの提出

身体化知能の分野では、ロボットがタスクガイダンスとリアルタイム観察に基づいて将来の行動を計画できるようにする方法が、大きな注目を集めている中核的な課題です。

この問題の複雑さは、主に次の 2 つの大きな課題から生じています。

モーダルアライメント: 言語、視覚、行動などのマルチモーダル空間間の正確なアライメント戦略を確立する必要があります。
データ不足: アクションラベルが付いた大規模なマルチモーダルデータセットが不足しています。

最近、大量のラベルなしビデオデータをトレーニングに使用して、ビデオ生成とモーションプランニングを組み合わせる研究がいくつか行われ、ある程度の進歩が遂げられています。

しかし、これらの方法のほとんどは、具体化されたタスクの特別なニーズを十分に考慮せずに、既存の一般的なビデオ生成モデルを具体化されたシナリオに単純に適用するだけです。

この問題を解決するために、 AI を活用した具現化アルゴリズムチームは、自己回帰拡散モデルを中核に使用して将来の具現化空間を生成することで動作計画を導く EnerVerse アーキテクチャを立ち上げました。

チームは、長期タスクのコンテキストロジックを維持するためのスパースメモリメカニズムを設計し、4D 空間を柔軟に表現するためのフリーアンカービュー(FAV) を提案しました。

実験により、EnerVerse は優れた 4D 生成機能を備えており、動作計画タスクにおいて最先端のパフォーマンスを実現していることが示されました。

技術ソリューション分析

1. 次のチャンク拡散生成

EnerVerseは、チャンクワイズ自己回帰生成パラダイムを採用し、拡散モデルを通じて将来の具体化空間をモデル化します。その主要技術は以下のとおりです。

拡散モデルアーキテクチャ: 時空間注意を組み合わせた Unet 構造に基づいて、各空間チャンクは畳み込みと双方向注意を通じてモデル化され、タスクの時間的一貫性は、一方向の可視因果論理を通じてチャンク間で維持されます。
スパースメモリメカニズム：大規模線形モデル（LLM）の文脈記憶を参照し、著者らは、高密度で連続的な視覚記憶がモデルの汎化能力の低下につながることを発見しました。そのため、EnerVerseは、学習フェーズでは過去のフレームに高い割合でランダムマスクを適用し、推論フェーズではより長い時間間隔でメモリキューを更新します。これにより、計算オーバーヘッドが削減されるだけでなく、長いシーケンスを生成する際の論理的合理性も大幅に向上します。
タスク終了ロジック: 具体化されたタスクの特殊な要件に適応するために、EnerVerse は特別な終了フレーム(EOS フレーム)を通じてトレーニング中のタスク終了のタイミングを監視し、しきい値を判断することで推論フェーズ中の生成プロセスを正確に終了します。

2. 柔軟な4D生成：フリーアンカービュー（FAV）

自動運転の分野では、BEV （鳥瞰図）シーン認識が効果的なソリューションであることが証明されています。

しかし、具体化された操作では、複雑な遮蔽関係により、完璧な全体的な視点を構築することが困難になります。

この問題を解決するために、EnerVerse は柔軟な Free Anchored View (FAV)アプローチを提案しました。その主な機能は次のとおりです。

柔軟な視点設定：FAVは、シーンに応じてアンカービューを柔軟に設定できるため、狭い空間における固定された複数のアンカービューの制限を回避できます。例えば、キッチンなどのシーンでは、FAVは動的なオクルージョン環境に容易に適応できます。
クロスビュー空間の一貫性:レイキャスティングの原理に基づいて、EnerVerse はレイ方向マップをビュー制御条件として使用し、拡散モデルの 2D 空間注意をクロスビュー 3D 空間注意に拡張して、生成されたマルチビュービデオが幾何学的に一貫していることを保証します。
Sim2Real Adaptation ：シミュレーション環境では仮想カメラを用いてFaVのグラウンドトゥルース値を容易に生成できますが、現実世界のシナリオでは直接取得することはできません。EnerVerseは、シミュレーションデータに基づいて微調整された4D生成モデル（EnerVerse-D）と4Dガウススプラッティングを反復的に交互に適用することでデータフライホイールを構築し、現実世界のシナリオにおけるFaV生成のための疑似グラウンドトゥルース値を提供します。

3. 効率的なモーションプランニング：ポリシーヘッド

ロボットの動作計画における将来の空間生成の役割を検証するために、EnerVerse は生成ネットワークの下流に複数のトランスフォーマーで構成された拡散ポリシーヘッドを追加しました。

主な設計上の特徴は次のとおりです。

効率的なアクション予測：ジェネレーターネットワークは、空間生成プロセスが完了するまで待たずに、拡散解除プロセスの最初のステップで将来のアクションシーケンスを出力するため、アクション予測のリアルタイムパフォーマンスが保証されます。
スパースメモリのサポート: アクション予測推論では、スパースメモリキューに実際のまたは再構築された FAV 観測が格納され、長期タスクに対するモデルの計画能力が向上します。

実験結果

1. ビデオ生成パフォーマンス

著者らは、オープンソースデータセット RT-1 上で DynamiCrafter ベースの拡散モデルを微調整し、さらに FreeNoise モジュールを統合して長いシーケンスの推論をサポートし、EnerVerse との公平な比較を実施しました。

短距離タスクのビデオ生成では、EnerVerse は微調整された DynamiCrafter (FN)モデルよりも優れています。
長時間のビデオ生成において、EnerVerse はコンテンツを継続的に生成する論理的に健全な能力を発揮しますが、これは DynamiCrafter (FN)モデルでは実現できません。

2. 動作計画能力

LIBEROベンチマークテストでは、EnerVerseはロボットの動作計画タスクで大きな優位性を達成しました。

1 ビュー(1 つの FAV) モデルは、4 つの LIBERO タスク全体で現在の最良の方法を上回る平均成功率を達成しました。
3 ビュー(FAV) 設定により、タスクの成功率がさらに向上し、あらゆるタイプのタスクで既存の方法を上回ります。

さらに、LIBERO シミュレーションシナリオと AgiBot World の現実世界のシナリオで EnerVerse によって生成されたマルチビュービデオの品質は完全に検証されています。

3. アブレーションとトレーニング戦略の分析

スパースメモリのメカニズム: アブレーション実験により、スパースメモリは長いプログラムシーケンス生成の合理性と長距離アクション予測の精度に非常に重要であることが示されました。

2 段階のトレーニング戦略: 実験では、最初に将来の空間生成のトレーニングを行い、次に特定のシナリオでの行動予測のトレーニングを行う 2 段階の戦略により、行動計画のパフォーマンスが大幅に向上することが示されています。

4. 注意の視覚化

レポートの最後で、著者らはポリシーヘッドのクロスアテンションモジュールの最初の数層のアテンションマップを視覚化し、EnerVerse のスパースメモリ空間、生成された未来空間、予測されたアクション空間間の対応関係を観察しました。

興味深いことに、予測されたアクション空間と生成された視覚空間の間には、複数の注意マップで強い時間的一貫性が見られ、これは、EnerVerse が重点を置く 2 種類のタスク間の相関関係を直感的に反映しています。

ホームページアドレス:
https://sites.google.com/view...

論文の宛先:
https://arxiv.org/abs/2501.01895

618ZXW