|
任意の写真を見せるだけで、さまざまな角度からパノラマを鑑賞できる?! 早速、結果を見てみましょう。 「be like」の単一ビュー入力は次のとおりです。 難易度が上がり、デュアルパースペクティブビューに切り替わり、非常にスムーズに見えました。 上記は、北京大学、香港中文大学、テンセントなどの研究者によって提案されたViewCrafterによるものです。ViewCrafterは、単一または散在する入力画像から、カメラ制御による高精度な新しい視点の動画を生成することができます。 また、シーンレベルのテキストベース 3D 、イメージベース 3D 、スパースパースペクティブ再構築などのアプリケーションもサポートします。 論文とコードは現在オープンソースになっており、ユーザーはオンラインの Huggingface デモを利用できます。 ViewCrafter: 視点を生成する新しい方法NeRFや3D-GSなどの新しい視点を生成する従来の方法には、重要な課題があります。 高密度のマルチビュートレーニングデータを利用する これにより、入力視点がまばら (入力画像の数が限られており、完全な視点や詳細なシーン情報を提供できない) または 1 つの入力視点しかない状況では、その適用が制限されます。 一方、従来の方法ではトレーニング リソースに対する要件が高く、一般化能力に欠けているため、トレーニング リソースが限られているシナリオでは適用が制限されます。 したがって、ViewCrafter は最終的に次のことを達成したいと考えています。 散在した視点画像または単一の入力画像から、任意のサイズのシーンの新しい視点を生成します。 これには、モデルが 3D の物理世界を包括的に理解していることが必要です。 具体的にどのように実装されているかを見てみましょう。 要約すると、ViewCrafter は、ポイント クラウドの事前分布に基づいた制御可能な視点のビデオ生成システムです。 まず、高速マルチビュー/シングルビューステレオ技術の開発により、単一または疎な画像からポイントクラウド表現を迅速に再構築できるようになりました。 ポイント クラウド表現は、3D シーンに関する大まかな情報を提供し、フリービュー レンダリングのための正確なカメラ位置制御をサポートします。 しかし、ポイント クラウドの表現力が弱く、また、極端にまばらな入力画像では限られた 3D キューしか提供できないという事実から、再構築されたポイント クラウドには大きな遮蔽領域と欠落領域が含まれ、幾何学的な変形やポイント クラウド ノイズが発生する可能性もあります。 これらの問題により、新しい視点の統合におけるその応用が制限されます。 一方、大規模なビデオ データセットでトレーニングされたビデオ拡散モデルは、3D の物理世界を深く理解し、単一の画像やテキスト プロンプトから物理法則や現実世界のルールに準拠したビデオ コンテンツの生成をサポートします。 しかし、既存のビデオ拡散モデルには明示的な 3D シーン情報がないため、ビデオ生成中に正確なカメラビュー制御を実現することは困難です。 これらの利点と欠点に対処するために、チームは、正確で制御可能なカメラ機能を使用して、あらゆるシーンで忠実度の高い新しい視点のビデオ生成を実現するために、ビデオ拡散モデルの生成機能とポイント クラウド表現によって提供される明示的な 3D 事前分布を組み合わせることを提案しました。 具体的には、単一またはまばらな視点の入力画像が与えられた場合、チームはまず高速マルチビュー ステレオ法を使用してポイント クラウド表現を構築し、自由視点レンダリングのための正確なカメラ移動を可能にします。 その後、ポイント クラウド レンダリング結果内の大きな欠落領域、幾何学的な歪み、ポイント クラウド アーティファクトに対処するために、チームは、ポイント クラウド レンダリング結果を制御信号として使用するビデオ拡散モデルを拡張レンダラーとしてトレーニングしました。 このレンダラーは、大まかなポイント クラウド レンダリング結果に基づいて、高い忠実度と 3D 一貫性を備えた新しいパースペクティブをさらに生成できます。 ポイント クラウドによって提供される明示的な 3D 情報とビデオ拡散モデルの強力な生成機能を組み合わせることで、新しい方法では、ビデオ生成中に正確な6-DOFカメラ姿勢制御を実現し、忠実度が高く一貫性の高い新しい視点のビデオを生成できます。 △カメラ軌道計画アルゴリズムさらに、既存のビデオ拡散モデルでは、長いビデオの推論に大きな計算オーバーヘッドが発生するため、長いビデオを生成するのが困難です。 この問題に対処するために、本研究では反復的な新しい視点生成戦略を採用し、新しい視点と再構築されたポイントクラウドによってカバーされる領域を徐々に拡大するためのコンテンツ適応型カメラ軌道計画アルゴリズムを提案しています。 具体的には、最初の入力画像から構築されたポイント クラウドから始めて、チームはまずカメラ軌道計画アルゴリズムを使用して現在のポイント クラウドからカメラ軌道を予測し、遮蔽と実際の領域を効果的に明らかにします。 次に、チームは予測された軌道に基づいてポイント クラウドをレンダリングし、ViewCrafter を使用して、レンダリングされたポイント クラウドに基づいて高品質の新しいパースペクティブを生成しました。 次に、生成された新しい視点を使用してポイント クラウドが更新され、グローバル ポイント クラウド表現が拡張されます。 これらのステップを繰り返し実行することで、広い視野と拡張されたポイント クラウドをカバーする高忠実度の新しいビューを取得でき、ガウス再構成などの下流のタスクをサポートできます。 実際のアプリケーションでは、ViewCrafter と提案された反復的な新しいパースペクティブ生成アルゴリズムに基づいて、単一の画像/スパース パースペクティブまたはテキスト記述から 3D ガウス再構成を実行し、リアルタイム レンダリングと没入型 3D エクスペリエンスをサポートできます。 比較実験チームは新しい方法を複数の観点から比較しました。 チームは新たな視点から、Tanks-and-Temples、CO3D、RealEstate10K という 3 つの現実世界のデータセットに対して最先端の方法による定量的および定性的な比較を実施しました。 実験結果では、カメラのポーズ制御の精度と新しい視点を生成する際の視覚品質の点で、ViewCrafter が比較方法よりも優れていることが実証されています。 シーン再構成に関しては、チームはTanks-and-Templesデータセットのスパースビュー再構成の分野における最先端の方法と定量的および定性的な比較を実施しました。 結果によると、ViewCrafter は、3D ガウス再構成によってレンダリングされた新しい視点の視覚品質の点でも比較方法よりも優れていることが示されました。 テキストレンダリングの3D結果を以下に示します。左側にはテキストプロンプトとテキストレンダリング効果が表示され、右側には最終的な3D効果が表示されています。 もちろん、研究チームはアブレーション実験も行いました。 たとえば、ポイント クラウド プライアは、信号の有効性を制御するビデオ拡散モデルとして使用できます。 具体的には、いくつかの同時研究では、Plück 座標をビデオ生成モデルの制御信号として使用し、カメラ制御による新しい視点の生成を実現しています。 一方、ポイントクラウド制御信号の優位性を検証するために、チームはPlück座標を制御信号として使用して新しい視点生成モデルをトレーニングし、制御信号を除くモデル構造がViewCrafterと一致していることを確認するために制御変数実験を実施しました。 新しい視点生成タスクにおける 2 つのモデルの比較結果を以下に示します。 実験結果では、新しい視点の生成品質とカメラ制御の精度の両方において、チームが使用したポイントクラウドベースの制御信号がPlück座標ベースの制御信号よりも優れていることが実証されています。 さらに、チームは粗い点群に対するモデルの堅牢性を検証しました。 図に示すように、制御信号として使用される点群に重大な幾何学的変形がある場合でも、モデルは幾何学的エラーの修正と穴の修復を効果的に実行できます。 これは、ポイント クラウド制御信号に対する新しい方法の堅牢性を示しています。 要約すると、チームは、静的なシーンに新しい視点を生成する ViewCrafter の強力な機能を検証しました。 次に、研究チームは、単眼ビデオの深度推定手法を組み合わせて、単眼ダイナミックビデオの新しい視点の生成と 4D 再構築を実現することを検討する予定です。 詳細は原論文をご参照ください。 |
一枚の画像でパノラマビューを実現!北京大学、香港中文大学、テンセントなどがViewCrafterをリリース|オープンソース化
関連するおすすめ記事
-
DeepSeek-R1はシリコンバレーを揺るがし続けている。ゲームチャートでトップ3にランクインし、創設者のLiang Wenfeng氏のインタビューは綿密に精査された。
-
約5億元を追加調達!清華大学発のAIスタートアップ新波が、最も収益性の高い「コンピューティングパワーオペレーター」に。
-
初!4つの主要大学が共同で、LLaMA2を総合的に凌駕する性能を持つ医薬品開発向け大規模言語モデル「Y-Mol」をリリースしました。
-
AI 3D生成が新たな高みに到達!清華大学チームが3Dスケーリング法則を開発。
-
ライトプロデューサーキャンプ2025 選考規定
-
NVIDIA のイーサネット アクセラレーション xAI 搭載スーパーコンピュータが世界最大の AI スーパーコンピュータを構築