618ZXW

復旦大学のビデオ拡散モデルのレビュー: 300 以上の論文を網羅し、最近の研究動向とブレークスルーを探り、GitHub で 2,000 以上のスターを獲得しています。

300 以上の論文を網羅したビデオ拡散モデルの新しいレビューがここにあります。

最近、復旦大学、上海インテリジェントビジョンコンピューティング協同イノベーションセンター、マイクロソフトなどの学術機関が共同で、「ビデオ拡散モデルの調査」と題するレビュー論文を、世界トップクラスの学術誌であるACM Computing Surveys (CSUR) に発表しました。

本書は、ビデオ生成、編集、理解などの最先端分野における普及モデルの進歩を体系的にレビューするだけでなく、最近の研究動向やブレークスルーを詳しく調べ、近年のこの分野における重要な成果を網羅しています。

この研究はすでに GitHub で 2,000 以上のスターを獲得しています。

このレビュー論文の第一著者は復旦大学の博士課程学生であるXing Zhenであり、責任著者は復旦大学のWu Zuxuan准教授Jiang Yugang教授です。

拡散モデルに基づくビデオ生成

この論文では、普及モデルに基づく現在主流のビデオ生成モデルを、テキストベースのビデオ生成、その他の条件に基づくビデオ生成、無条件ビデオ生成の 3 つの主なタイプに分類します。

(1)テキストベースのビデオ生成:

自然言語入力によるビデオ生成は、今日のビデオ生成分野で最も重要なタスクの 1 つです。

本論文では、まず普及モデルが導入される前のこの分野の研究成果をレビューし、次にトレーニングに基づくものとトレーニングなしのものの 2 つの普及モデル手法を紹介します。

トレーニングベースの方法では、通常、大規模なデータセットを利用してモデルのパフォーマンスを最適化し、高品質のビデオ生成を実現します。一方、トレーニング不要の方法で主に利用されるのは、テキストから画像への変換 (T2I) モデルや大規模言語モデル (LLM) などの技術を利用してビデオ生成を実現する方法です。

(2)その他の条件に基づくビデオ生成:

このタスクは、特定のサブフィールドにおけるビデオ生成に焦点を当てています。本論文では、これらの条件を、ポーズ誘導、モーション誘導、サウンド誘導、画像誘導、深度誘導の4種類に分類しています。

これらの作業は、プレーンテキストよりも正確な制御条件を提供するだけでなく、さまざまなモダリティからの情報をビデオ生成プロセスに統合し、ビデオ生成の技術的手段とアプリケーションシナリオを大幅に充実させます。

(3)無条件ビデオ生成:

この分野の研究は主にビデオ表現方法の設計と拡散モデルネットワークアーキテクチャの設計を中心に展開されており、さらにU-Netベースの生成、Transformerベースの生成、Mambaベースの生成に分類できます。

拡散モデルに基づくビデオ編集

普及モデルに基づくビデオ編集方法についても、本稿では、現在主流のモデルを、テキストベースのビデオ編集、その他の条件に基づくビデオ編集、特定のサブフィールドでのビデオ編集の 3 つのカテゴリに分類しています。

(1)テキストベースのビデオ編集:

テキストビデオ データの規模が限られているため、ほとんどのテキストベースのビデオ編集タスクでは、ビデオ フレーム間の一貫性や意味の不一致などの問題に対処するために、事前トレーニング済みの T2I モデルを使用する傾向があります。

本論文では、著者らはこのようなタスクをトレーニングベース、トレーニングフリー、およびワンショット調整手法にさらに細分化し、それぞれを要約しています。

(2)その他の条件に基づくビデオ編集:

大規模モデルの時代の到来に伴い、最も直接的な自然言語情報に基づく動画編集に加え、指示、音声、アクション、マルチモーダルなどの条件に基づく動画編集がますます注目を集めています。著者は関連する作業を分類・整理しました。

(3)特定の分野におけるビデオ編集:

特定の分野では、ビデオ編集タスクに独自のカスタマイズされた要件が求められることがよくあります。例えば、ビデオのカラー化やポートレートビデオの編集には、特定のシナリオに特化したソリューションが必要です。

著者は関連する研究結果を体系的にレビューし、これらの分野における主な方法と実践経験をまとめました。

拡散モデルに基づくビデオ理解

拡散モデルは、従来のビデオ生成および編集タスクで広く使用されているだけでなく、ビデオ理解タスクでも大きな可能性を示しています。

著者らは最先端の論文を追跡することで、ビデオの時間的セグメンテーション、ビデオの異常検出、ビデオのオブジェクトのセグメンテーション、テキストビデオの検索、アクション認識など、いくつかの既存のアプリケーションシナリオをまとめました。

要約と展望

このレビューでは、AIGC 時代のビデオ タスクの拡散モデルに関する最新の研究を包括的かつ詳細にまとめています。

本論文の著者らは、研究テーマと技術的特徴に基づいて、100 を超える最先端の研究を分類して要約し、これらのモデルをいくつかの古典的なベンチマークと比較します。

しかし、拡散モデルは、ビデオタスクの分野では依然としていくつかの新しい研究方向と課題に直面しています。

(1)大規模なテキスト・ビデオデータセットの不足:

T2I モデルの成功は、数十億の画像とテキストのペアを含む LAION-5B などの何億もの高品質なテキスト画像データセットが利用可能であることに大きく依存しており、これによりモデルの一般化能力が大幅に向上しました。

それに比べ、現在のデータセットは規模と品質の両面において、T2Vタスクには全く不十分です。例えば、一般的に使用されているWebVidデータセットは、低解像度の動画(360pのみ)であるだけでなく、透かしが含まれていることも少なくありません。

したがって、今後の研究では、大規模で透かしのない高解像度の公開データセットの構築に重点を置きながら、データセットの注釈品質と多様性を向上させ、ビデオ生成モデルのトレーニングをより適切にサポートする必要があります。

(2)物理的世界の現実:

既存のビデオ生成モデルは多くのシナリオで目覚ましい成果を上げていますが、複雑なシーンの物理世界を記述する際には依然として大きな制限があります。

たとえば、Sora モデルでは、物理的な相互作用を伴うビデオを生成するときに、物理法則に完全に準拠したビデオを生成することはできません。

著者は、これらの問題の根本は、現在のモデルが物理的なシーンをまだ比較的表面的にしか理解しておらず、物体の剛性、重力、摩擦などの物理的特性の正確なモデリングが欠けている点にあると指摘しています。

したがって、将来の研究では、物理法則を生成モデルに組み込むことで、生成されたビデオの物理的特性の妥当性を向上させ、それによって生成されたビデオをよりリアルにする方法を探求できる可能性があります。

(3)長編動画生成:

現在の動画生成モデルが直面している大きな課題は、動画の長さの制限です。ほとんどのモデルは10秒以下の動画コンテンツしか生成できません。

これは主に、長時間の動画生成は計算リソースへの要求が高まるだけでなく、時空間的なコヒーレンスを効果的にモデル化する必要があるためです。既存の自己回帰モデルでは、時間的な誤差の蓄積という問題が特に顕著です。

さらに、既存の段階的な生成方法(粗から細への多段階生成など)では、ある程度生成結果を改善できますが、多くの場合、より複雑なトレーニングと推論のプロセスにつながり、生成速度が低下します。

したがって、今後の研究では、長時間のビデオを生成するためのより効率的で安定した方法の開発に焦点を当て、長期間にわたってビデオが物理的な妥当性と品質の安定性の両方を維持できるようにする必要があります。

(4)効率的な訓練と推論:

T2V モデルのトレーニングおよび推論プロセスには膨大な量のビデオ データが関係し、トレーニングおよび推論段階で必要な計算能力は指数関数的に増加するため、コストが非常に高くなります。

したがって、今後の研究では、より効率的な時空間モデリング手法を採用したり、知識蒸留などの技術を使用してモデルのサイズを圧縮したり、トレーニングと推論中の計算の複雑さを軽減したりして、ビデオ生成の全体的なコストを削減するなど、モデルアーキテクチャの改善に重点を置く必要があります。

(5)信頼できるベンチマークと評価指標:

ビデオ分野における既存の評価指標は、主に生成されたビデオと元のビデオの分布の違いを測定することに重点を置いていますが、生成されたビデオの全体的な品質を包括的に評価することはできません。

一方、重要な評価方法としてのユーザーテストは、時間と労力がかかるだけでなく、非常に主観的なものでもあります。

したがって、今後の研究では、生成されたビデオの視覚的な品質だけでなく、物理的なリアリティと時空間の一貫性も測定できる、より客観的で包括的な自動評価メトリックの開発に焦点を当てる必要があります。

(6)高度に制御可能なビデオ編集:

現在、ほとんどのビデオ生成モデルは、ビデオ編集において主にテキスト記述に依存しています。しかし、テキスト記述は抽象的であることが多く、正確な制御が不足しています。

たとえば、既存の方法では、特定のオブジェクトの移動軌跡を生成したり、複数のオブジェクト間の相互作用を制御したりするような動的な編集タスクを処理する場合、依然として大きな制限があります。

さらに、複雑なシーン内の複数のオブジェクトを編集する場合、生成モデルは複数のオブジェクトの空間的および時間的一貫性を維持するのが困難になります。

したがって、今後の研究では、ビデオ編集の制御性の向上に焦点を当てるべきです。例えば、ビデオセグメンテーションやオブジェクト検出などの技術を組み合わせることで、モデルはビデオの局所領域においてより洗練された編集操作を実行でき、複数オブジェクトが存在するシーンにおける動的編集機能を向上させることができ、より柔軟で正確な生成と編集が可能になります。

論文リンク: https://arxiv.org/abs/2310.10647 論文ホームページ: https://github.com/ChenHsing/...