618ZXW

Ideal Open Bookの最新ランキング:トップAIカンファレンスCVPRに選ばれた4つの論文

AIは自動車メーカー間の新たな競争の場になりつつある。

CVPR 2025の結果が発表され、Smart Car Referenceの最新情報によると、 Li Autoは4つの論文が採択されたとのことだ。

CVPR(コンピュータビジョンとパターン認識)はコンピュータビジョンの分野でトップクラスの学術会議であり、今年の競争は例年よりもさらに激しくなっています。

合計 13,008 件の論文が審査プロセスに入り、最終的に 2,878 件のみが受理されたと理解されています。

合格率はわずか22.1%で、2024年と比較してさらに1.5ポイント減少しました

このような状況下では、DeepSeek が慎重に検討した結果、次のような評価を下したのも不思議ではありません。

採択された 4 つの論文は、主に自動運転シミュレーションにおける革新に焦点を当てています。

  • StreetCrafter : オンボードセンサーを使用してデータを収集し、高忠実度のストリートビュー画像を生成します。
  • DriveDreamer4D : 世界モデルを使用して新しいビデオ クリップを合成し、現実世界のデータセットを補完します。
  • ReconDreamer : シーン生成中の大きな動きによって発生する「アーティファクト」の問題を修正しました。
  • DrivingSphere : マルチエージェントシナリオの構築と自動運転アルゴリズムのトレーニング

ストリートクラフター

まず1つ目は、Li Auto、浙江大学、コーネル大学の共同研究である StreetCrafter です。このプロジェクトでは、車両に搭載されたセンサーで収集されたデータを使用して、忠実度の高いストリートビューを生成する方法を提案しました。

具体的には、StreetCrafter は LiDAR ポイント クラウド データとキャリブレーション イメージを入力した後、まず隣接するフレームの LiDAR ポイント クラウドをグローバル ポイント クラウドに集約し、次にカメラのポーズを考慮してそれをカラー イメージとしてレンダリングします。

これらのレンダリングされたカラー画像は、モデルが新しいビデオ フレームを生成する際の制約として機能し、生成されたビデオ フレームの幾何学的な一貫性を確保し、カメラのポーズを正確に制御します。

一方、 LiDAR ポイント クラウドによって提供される正確な幾何学情報のおかげで、入力モデルのカメラ ポーズが調整されたときに、モデルは新しい入力ポーズと一致する新しいビューを生成できます。

カメラの向きが元のトレーニング軌道から外れた場合でも、高品質のビューを生成できるため、以前の作業での大きな問題点が解決されます。

StreetCrafter によって生成されたシーンはカスタマイズもサポートしており、画像内のオブジェクトを変換、置換、削除できることも注目すべき点です。

この研究は Waymo Open Dataset と PandaSet で実験的に比較され、従来の方法を上回る成果を上げました。

ドライブドリーマー4D

さらに、DriveDreamer4D は、世界モデルからの事前知識を統合して、車両の運転軌跡の新しいビデオ データを生成し、実際の運転データセットを補完します

NeRF や 3D ガウス散乱 (3DGS) などの方法と比較して、DriveDreamer4D は、車線変更、加速、減速などのより多様で複雑なシーンを処理できるため、4D シーンの生成品質と時空間の一貫性が向上します。

コアとなる作業は、新しい軌道生成モジュール NTGMデータトレーニング戦略 CDTS の2 つの部分で構成されています。

その中で、NTGM (Novel Trajectory Generation Module) は、新しい運転軌道を生成するための2 つの入力方法を提供します。

1 つのタイプはテキストから軌道を生成するもので、車線変更、加速、減速中に生成される軌道も含めて、テキストに基づいて軌道を自動的に生成します。

1 つのタイプはカスタム設計で、特定のニーズに応じて運転ルートを手動でカスタマイズします。

NTGM は、走行軌跡を出力した後、調整、CARLA などのシミュレーション環境への軌跡の入力、車両の動きのシミュレーションと衝突リスクの検出、予測モデルを使用して他の車両との相互作用が安全かどうかの評価も担当します。

最後に、ワールドモデルによって駆動され、検証済みの安全軌道がブレーキ、ステアリング、アクセルなどの制御信号に変換されます。車両の位置や照明などの環境情報と組み合わせることで、運転映像が生成されます。

CDTS (Cousin Data Training Strategy) は NTGM の作業を補完します。

NTGM によって生成された軌跡とビデオは合成データセットに「パッケージ化」され、その後、CDTS は正規化損失を導入して、合成データセットが実際のデータと知覚的に一致するようにします。

存在するエラーは NTGM にフィードバックされ、軌道生成戦略の反復的な繰り返しを促します。

DriveDreamer4D は、データセットの比較テストやユーザー調査など、さまざまな評価ベンチマークを使用します。

PVG、S^3Gaussian、Deformable-GS と比較すると、DriveDreamer4D は時空間の一貫性とリアリズムが向上しています。

さらに、著者らは、車線変更や加減速などのシナリオを含む、異なる方法で生成された運転ビデオをユーザーに比較するよう依頼しました。ビデオは並べて比較され、ランダムに割り当てられ、ユーザーが最良の結果を選択できるようにしました。評価は以下のようにまとめられます。

DriveDreamer4D は通常のシーンを処理できますが、6 メートルの幅で複数の車線にまたがる車線変更や同様の大きな動きなど、より複雑な変更には苦労し、再構築中に問題が発生する可能性があります。

そこで、時事通信、北京大学、中国科学院オートメーション研究所、アイデアルなどの組織が共同で、 「大規模操作」のシナリオに適した方法を立ち上げました。

偵察ドリーマー

ダイナミックな運転シーンを再現する際に、大規模な動きによってシーンの歪み、ぼやけ、ディテールの損失といった「アーティファクト」と呼ばれる問題が発生する可能性があります。具体的には、遠くの木々の歪みや、前景の車両の部分的な遮蔽として現れることがあります。

この種の問題に対処するために、ReconDreamer は依然として世界モデルの知識を活用し、オンライン修復 (DriveRestore) とプログレッシブ データ更新戦略 (PDUS) という 2 つの主な方法を採用して、複雑なアクションに関連するレンダリング品質の問題を解決します。

最初のステップは、修復データセットを構築することです。

まず、オープン データセットの特定のセグメントを使用して生の軌跡データセットを作成し、動的シーン再構築モデルをトレーニングします。

モデルは元の軌道にのみ適応するため、新しく生成された軌道をレンダリングするときに、軌道の幅が比較的小さい場合(たとえば 1.5 メートル)でも、「アーティファクト」のある「欠陥のあるビデオ」が表示されます。

次に、レンダリングされたこれらの「欠陥ビデオ」は、対応する通常のビデオ クリップとフレームごとに比較され、問題のある「劣化フレーム」が識別され、次のような修復データセットが形成されます: {(通常フレーム 1、劣化フレーム 1)、(通常フレーム 2、劣化フレーム 2)、(通常フレーム i、劣化フレーム i)...}。

2 番目のステップは、修復データセットを使用して DriveRestorer をトレーニングすることです

修復データセットと構造条件(3Dボックスシーケンスや高精度マップなど)は、DriveRestorerに入力され、学習されます。目標は、モデルに「アーティファクト」を修復する方法を学習させることであり、修復プロセスは拡散モデルにおけるノイズ除去に似ています。

プロセス中に感度除去戦略が導入され、背景や空などの深刻な問題のある領域の「アーティファクト」に重点が置かれ、これらの領域の「アーティファクト」をより効果的に修復し、レンダリング品質が向上しました。

DriveStorer のパラメータは、通常のフレームと劣化したフレーム間の損失を最小限に抑えることで最適化されます。

DriveStore が微調整を完了した後、モデルはビデオを修復する方法を学習し始めました。

3 番目のステップでは、事前に取得した「欠陥ビデオ」と構造条件をモデルに入力し、修復された高品質のビデオを出力します。

修復されたビデオは元のデータセットに追加され、データセットが拡張されます。

次に、データセット内で、最初のラウンドで 1.5 メートル、次に 3 メートル、さらに 6 メートルというように、より広いスパンの軌道を生成し、上記の手順を繰り返してデータを段階的に更新し、モデルが収束するまで、より複雑な操縦シナリオにモデルが適応できるようにします。

これは、プログレッシブ データ更新戦略が導入されたためです。これにより、大規模な操作を処理する際に、DriveRestorer は以前の DriveDreamer4D よりも優れたパフォーマンスを発揮します。

ドライビングスフィア

最後に、自動運転システムの検証という課題があります。

生成的な閉ループ シミュレーション フレームワークである DrivingSphere は、主に 2 種類のエージェントを持つマルチエージェント環境を構築します。

  • リードエージェント:テスト中の自動運転システム
  • 環境内のインテリジェントエージェント:さまざまな交通参加者

このフレームワークは、主に2 つのモジュールと 1 つのメカニズムを使用して、インテリジェント エージェント向けに高忠実度の 4D 世界を構築し、自律運転アルゴリズムを評価します。

このシステムは、動的環境を構築するDEC (Dynamic Environment Composition) モジュールと、視覚シーンを合成するVSS (Visual Scene Synthesis) モジュールの 2 つの主要モジュールで構成されています。

まず、DEC は BEV イメージとテキストの説明を OccDreamer モデルに入力します。

OccDreamerは、占有ネットワークに基づく拡散モデルです。拡散モデルを用いて、ノイズを反復的に除去し、忠実度の高い静的シーンを段階的に生成することで、都市シーンのシームレスな拡張をサポートします。

次に、DEC は、意味的類似性に基づいて、またはランダムに「アクター バンク」から車両と歩行者を動的交通参加者または環境エージェントとして選択し、メイン エージェントと対話します。

環境エージェントには固有の ID と時空間位置があり、制御信号に応じて動的に更新され、異なる時間枠での位置の変化を反映します。

最後に、DEC は静的な背景、動的な参加者、およびそれらの位置を完全な 4D の世界に統合し、従来の方法と比較して、より豊かな詳細とよりリアルなシーンを実現します。

DECの任務はこれで実質的に完了です。その後はVSSが引き継ぎ、生成された4Dの世界を複数の視点から高忠実度のビデオに変換し、自動運転の認識に役立てます。

中核技術は、 VideoDreamerビデオ拡散モデルです。

まず、VideoDreamerはデュアルパス条件付きコーディング戦略を採用しています。グローバルブランチでは、事前学習済みの4Dエンコーダーを用いて4D世界から幾何学情報と時空間関係を抽出し、グローバル特徴を取得します。これにより、静的シーンの全体構造の正確さと、動的要素の位置と相互作用関係の正確さが確保されます。

次に、ローカル マッピング ブランチがあります。これは、特定の視点からセマンティック マップを生成し、ピクセル レベルで位置合わせを実現し、オクルージョン関係と深度の変化をキャプチャする役割を担います。

この戦略は時空間の一貫性の問題に対処し、視覚的な一貫性を保証します。VSSには、IDベースのアクターエンコーディングメカニズムも備わっています。

前述の通り、各環境エージェントには固有のID番号が付与されています。このメカニズムでは、フーリエ符号化を用いて参加者のID、意味的記述、位置情報を符号化し、参加者の外見とIDをシーン内の位置に結び付けます。

このようにして、VSS はさまざまな視点や時間枠にわたって参加者の外観の一貫性を確保し、時空間的な視覚的一貫性を実現します。

生成されたビデオの滑らかさと精度をさらに向上させるために、このモジュールには ST-DiT (空間時間拡散トランスフォーマー) も統合されています。

Open Soraから派生した ST-DiT は、時空間自己注意、ビュー認識空間自己注意、クロスアテンション、自己回帰生成戦略、制御ネットワーク分岐などの技術を採用し、アーティファクトのないフレーム シーケンスを確実に生成します。

これら 2 つのモジュールの背後には、閉ループ フィードバック メカニズムがあります。

前述のように、DEC モジュール内のエージェントの制御信号は、このパターン ビジョン入力信号のセットによって生成され、環境エージェントの状態を変更するために使用されます。

エージェントの信号は環境を動的に変更し、環境の変化はエージェントへの視覚的な入力フィードバックを生成するため、エージェントは動的なインタラクティブ環境でテストおよび検証を行うことができます。

DrivingSphere と nuScenes データセットの比較結果は次のとおりです。

ある自動車会社が、トップクラスのAIカンファレンスで4本の論文を採択されました。Li Autoが2024年にインテリジェント運転の飛躍的な進歩を遂げられる理由が、これで全て明らかになりました。

しかし、自動運転は AI による理想的な変革の氷山の一角に過ぎません。

理想的なAIトラックの隠されたレイアウト

理想は AI に全面的に傾くことだと誰もが感じています。

組織体制の面では、李翔氏は完成車の生産、販売、供給に関する意思決定権を委譲し、重点をAIに移し替えました。

AIアプリケーション層では、インテリジェント運転モデル​​が急速にアップグレードされ、VLAモデルの発売準備が整っており、1,000万個のClipsバージョンがリリースされています。

李翔は自信を持ってFSDに臨む。

全国どこからでもIdealとの比較を歓迎します。

Ideal が 1 年を通じて参加した AI 論文を詳しく見てみると、より繊細で包括的な戦略が明らかになります。

自動運転に関しては、 Drive VLMなど、すでに理論上の成果があり、インテリジェント運転の新しいパラダイムをリードしています。

他にも、テキストから 3D 画像を生成する機能や、AI 仮想キャラクターのワンクリックによる衣装変更機能など、さまざまな作業領域があります。

AI には学際的な応用もあります。

これらの成果は、基本モデル、実用化、他業界での能力拡張など、主に2024年後半に集中しています。

これは、Li Autoが自動車メーカーからAI企業へと変革していることを意味します。

インテリジェント運転が普遍化した今年、自動車へのAIの導入が急速に進み、自動車メーカーは目に見える販売競争からAI技術におけるより繊細な競争へとシフトしつつあります。

論文と対応するプロジェクトのアドレス:

ドライブドリーマー4D

https://arxiv.org/abs/2410.13...

https://drivedreamer4d.github.io

偵察ドリーマー

https://arxiv.org/abs/2411.19548

https://recondreamer.github.io

ドライビングスフィア

https://arxiv.org/abs/2411.11252

https://yanty123.github.io/Dr...

ストリートクラフター

https://arxiv.org/abs/2412.13188

https://zju3dv.github.io/street_crafter/

理想的なオープンソースプロジェクトのアドレス:

https://github.com/LiAutoADht...