|
人間と同じように、マルチモーダルな手がかりを使用して AI が興味のあるオブジェクトを見つけられるようにする新しい方法があります。 中国人民大学のGeWu-Lab、北京郵電大学、上海AI Labなどの研究機関の研究者は、AIが現実の物理世界を見て、聞いて、よりよく理解できるようにするRef-AVS (音声・映像シーン内のオブジェクトの参照と分割)を提案しました。 関連論文がトップカンファレンスECCV 2024に採択されました。 たとえば、下の画像では、機械はどのようにして実際に楽器を演奏している人を正確に見つけるのでしょうか? 単独で取り組むのは確かにうまくいきませんが、既存の研究はまさにそれを行っています。(それぞれ視覚、テキスト、音声の手がかりの観点から問題にアプローチしています。)
新しい方法 Ref-AVS は、複数のモダリティ (テキスト、オーディオ、ビジョン)間の関係を統合し、よりリアルな動的オーディオビジュアル シナリオに適応します。 今では、歌いながらギターを弾ける人を見つけるのは簡単です。 さらに、同じ映像を何度も再利用できるので、音が出ているギターを探すのも簡単です。 一方、研究者らはRef-AVS Benchと呼ばれるデータセットを構築し、マルチモーダルな手がかりを効率的に処理するためのエンドツーエンドのフレームワークを設計しました。 詳細は以下の通りです。 Ref-AVS ベンチ データセットが構築されました。要約すると、Ref-AVS Bench データセットには、40,020 個のビデオ フレーム、6,888 個のオブジェクト、および 20,261 個の参照式が含まれています。 各データ ポイントには、ビデオ フレームに対応するオーディオが含まれており、各フレームにピクセル レベルの注釈が提供されます。 参照されるオブジェクトの多様性を確保するため、チームは背景を含む 52 のカテゴリを選択しました。これには、音を発するオブジェクトの 48 カテゴリと、静的で音を発しないオブジェクトの 3 カテゴリが含まれます。 ビデオ収集プロセス中、すべてのビデオは YouTube から取得され、10 秒が抽出されました。 手動収集プロセス全体を通じて、チームは以下の内容を含む動画を意図的に避けました。 a) 同じ意味を持つインスタンスが多数含まれる動画 一方、現実世界の分布との一貫性を高めるために、チームはデータセット内のシーンの多様性に貢献するビデオを選択しました。 たとえば、複数のオブジェクト(楽器、人、車両など)間のやり取りを含む動画などです。 さらに、表現の多様性は、Ref-AVS データセットの構築における中核要素の 1 つです。 表現は、テキスト本来の意味情報に加え、聴覚、視覚、時間という 3 つの次元の情報から構成されます。 聴覚的次元には音量やリズムなどの特徴が含まれ、視覚的次元には物体の外観や空間特性などの属性が含まれます。 研究チームはまた、時間の手がかりを使って、「最初に音を出した(物体)」や「後から現れた(物体)」といった時系列の手がかりを伴う参照を生成した。 聴覚、視覚、時間情報を統合することにより、マルチモーダルシナリオを正確に反映できるだけでなく、正確な引用に対するユーザーの特定のニーズを満たすことができる豊富な表現セットが設計されました。 さらに、表現の正確さも重要な懸念事項です。 この研究では、高品質な表現を生成するために次の 3 つのルールに従います。 1)一意性: 式は一意のオブジェクトを参照する必要があり、同時に複数のオブジェクトを参照することはできません。 チームは、10 秒のビデオ セグメントを 1 秒のセグメント 10 個に均等に分割し、Grounding SAM を使用してキーフレームをセグメント化してラベル付けした後、注釈者にこれらのキーフレームを手動で確認して修正するよう依頼しました。 このプロセスにより、チームは単一のキーフレーム内で複数のターゲット オブジェクトのマスクとラベルを生成できます。 キーフレーム マスクが決定されると、この研究では追跡アルゴリズムを適用して対象オブジェクトを追跡し、10 秒以内に対象オブジェクトの最終的なグラウンド トゥルース マスクを取得します。 データのセグメンテーションと統計に関しては、テスト セット内のビデオとそれに対応する注釈は、訓練を受けた注釈者によって綿密にレビューされ、修正されます。 Ref-AVS タスクにおけるモデルのパフォーマンスを総合的に評価するために、テスト セットはさらに3 つの異なるサブセットに分割されました。 具体的には、次の 3 つのテスト サブセットが含まれます。
具体的にはどのように実装されたのでしょうか?データセットを準備した後、チームはマルチモーダルキューを使用して表現参照能力 (EEMC) を強化し、より優れた視聴覚参照セグメンテーションを実現しました。 具体的には、Temporal Bi-Modal Transformer モジュールで、チームは時間情報を含むオーディオビジュアル モーダル情報 (FV、FA) とテキスト情報 (FT) をそれぞれ融合します。 モデルが時間情報をより適切に認識できるようにするために、この研究では直感的なキャッシュメモリメカニズム(CV、CA)を提案していることに注意してください。 時間的変動におけるマルチモーダル情報の変化の大きさを捉えるために、キャッシュメモリには開始から現在のタイムステップまでの時間平均モーダル特徴を保存する必要があります。マルチモーダル特徴(QV、QA)は以下のように計算されます。 ここで、 は時系列内の特定の時間ステップを表し、 は時系列機能の変化に対するモデルの感度を制御するために使用される調整可能なハイパーパラメータです。 現時点でのオーディオまたはビジュアルの特徴が過去の特徴の平均と比較してあまり変化しない場合、出力の特徴はほとんど変化しません。 ただし、変更が大きい場合、キャッシュされたメモリは現在の機能の違いを増幅し、重要な機能を含む出力を生成することができます。 その後、連結されたマルチモーダル特徴は、マルチモーダル融合のためのマルチモーダル統合トランスフォーマーモジュールに送られ、マスクデコーダーへの入力としてマルチモーダル情報を含む最終的な特徴 (QM) が生成されます。 マスク デコーダーは、MaskFormer、Mask2Former、SAM などの Transformer アーキテクチャのセグメンテーション ベース モデルです。 チームはセグメンテーションのベースモデルとしてMask2Former を選択し、事前トレーニング済みのマスククエリをベースモデルとして使用し、マルチモーダル表現式機能をベースモデルとして使用しました。 マルチモーダル参照表現特徴は、クロスアテンショントランスフォーマー (CATF) を介してマスククエリに転送され、それによってセグメンテーションベースモデルがマルチモーダル特徴に基づいてセグメンテーションを実行できるようになります。 実験結果定量的実験では、研究チームは提案されたベースライン手法を他の手法と比較し、公平性を確保するために、他の手法では欠落していたモーダル情報を補足しました。 Seen サブセットのテスト結果は、新しい方法 Ref-AVSが他の方法よりも優れていることを示しています。 Ref-AVS は、Unseen サブセットと Null サブセットの両方で一般化可能性を示し、ポインター表現に正確に従うことができます。 定性的な実験では、チームはRef-AVS Benchテストセットでセグメンテーションマスクを視覚化し、それをAVSegFormerおよびReferFormerと比較しました。 結果は、ReferFormer も AVSegFormer も、Ref-VOS タスクの表現で記述されたオブジェクトを正確にセグメント化できないことを示しています。 具体的には、AVSegFormer が表現の理解に困難をきたす場合、直接音源を生成することがよくあります。 たとえば、左下隅のサンプルでは、AVSegFormer が少年ではなく掃除機を誤ってターゲットとして分割しています。 一方、Ref-VOS はオーディオビジュアルシーンを完全に理解できない可能性があり、右上のサンプルに示すように、幼い子供をピアニストと誤認する可能性があります。 対照的に、Ref-AVS メソッドは、マルチモーダル表現とシナリオを同時に処理して、ユーザーの指示を正確に理解し、対象オブジェクトをセグメント化する優れた機能を発揮します。 今後は、より高品質なマルチモーダル融合技術、リアルタイムモデルの適用、データセットの拡張と多様化を検討し、マルチモーダル参照セグメンテーションをビデオ分析、医療画像処理、自動運転、ロボットナビゲーションなどの課題に適用することができます。 詳細は原論文をご参照ください。 |