志遠ロボティクスの提出身体化知能の分野では、ロボットがタスクガイダンスとリアルタイム観察に基づいて将来の行動を計画できるようにする方法が、大きな注目を集めている中核的な課題です。 この問題の複雑さは、主に次の 2 つの大きな課題から生じています。
最近、大量のラベルなしビデオデータをトレーニングに使用して、ビデオ生成とモーションプランニングを組み合わせる研究がいくつか行われ、ある程度の進歩が遂げられています。 しかし、これらの方法のほとんどは、具体化されたタスクの特別なニーズを十分に考慮せずに、既存の一般的なビデオ生成モデルを具体化されたシナリオに単純に適用するだけです。 この問題を解決するために、 AI を活用した具現化アルゴリズム チームは、自己回帰拡散モデルを中核に使用して将来の具現化空間を生成することで動作計画を導く EnerVerse アーキテクチャを立ち上げました。 チームは、長期タスクのコンテキスト ロジックを維持するためのスパース メモリ メカニズムを設計し、4D 空間を柔軟に表現するためのフリー アンカー ビュー(FAV) を提案しました。 実験により、EnerVerse は優れた 4D 生成機能を備えており、動作計画タスクにおいて最先端のパフォーマンスを実現していることが示されました。 技術ソリューション分析1. 次のチャンク拡散生成EnerVerseは、チャンクワイズ自己回帰生成パラダイムを採用し、拡散モデルを通じて将来の具体化空間をモデル化します。その主要技術は以下のとおりです。
2. 柔軟な4D生成:フリーアンカービュー(FAV)自動運転の分野では、BEV (鳥瞰図)シーン認識が効果的なソリューションであることが証明されています。 しかし、具体化された操作では、複雑な遮蔽関係により、完璧な全体的な視点を構築することが困難になります。 この問題を解決するために、EnerVerse は柔軟な Free Anchored View (FAV)アプローチを提案しました。その主な機能は次のとおりです。
3. 効率的なモーションプランニング:ポリシーヘッドロボットの動作計画における将来の空間生成の役割を検証するために、EnerVerse は生成ネットワークの下流に複数のトランスフォーマーで構成された拡散ポリシー ヘッドを追加しました。 主な設計上の特徴は次のとおりです。
実験結果1. ビデオ生成パフォーマンス著者らは、オープンソースデータセット RT-1 上で DynamiCrafter ベースの拡散モデルを微調整し、さらに FreeNoise モジュールを統合して長いシーケンスの推論をサポートし、EnerVerse との公平な比較を実施しました。
2. 動作計画能力LIBEROベンチマークテストでは、EnerVerseはロボットの動作計画タスクで大きな優位性を達成しました。
さらに、LIBERO シミュレーション シナリオと AgiBot World の現実世界のシナリオで EnerVerse によって生成されたマルチビュー ビデオの品質は完全に検証されています。 3. アブレーションとトレーニング戦略の分析
4. 注意の視覚化レポートの最後で、著者らはポリシー ヘッドのクロス アテンション モジュールの最初の数層のアテンション マップを視覚化し、EnerVerse のスパース メモリ空間、生成された未来空間、予測されたアクション空間間の対応関係を観察しました。 興味深いことに、予測されたアクション空間と生成された視覚空間の間には、複数の注意マップで強い時間的一貫性が見られ、これは、EnerVerse が重点を置く 2 種類のタスク間の相関関係を直感的に反映しています。 ホームページアドレス: 論文の宛先: |
智源ロボティクス、ロボットの4D世界モデルを公開
関連するおすすめ記事
-
2024年の主要なAIイベントを振り返る:隠れたチャンスと業界の課題
-
[TVMチュートリアル] x86 CPU向け畳み込みネットワークの自動チューニング
-
AlphaFold3の国産初版がリリース!優れた高分子予測精度、すぐに使えるオンラインプラットフォーム、そして圧倒的な推論コストを誇ります。
-
DeepSeek が National Supercomputing Platform で利用可能になりました。3 大通信事業者すべてに接続され、Pingtouge チップと互換性があります。
-
CCFプログラマーカンファレンスの全スケジュールが公開されました。ぜひご登録の上、ダリでご参加ください!
-
クロード4が近日発売か!DeepSeekに追い込まれ、ついに切り札まで出てきました。