618ZXW

北京大学王軒研究所:マルチモーダル大規模モデルによる人間行動のより深い理解 | ECCV 2024

手がかりとなる単語だけを使用することで、マルチモーダルな大規模モデルは、シーン内の登場人物の関係をよりよく理解できるようになります。

北京大学は最近、手がかり語エンジニアリング技術を使用して大規模なマルチモーダルモデルを指導し、地域レベルのキャラクターの相互作用関係を理解できる条件付きマルチモーダルプロンプト(CMMP)方式を提案しました。

このプロセスで最も難しい部分は、モデルに、なじみのないタイプのキャラクターのやり取りを識別するように教えることです。

既存の研究のほとんどは閉鎖環境に焦点を当てていることを理解することが重要です。環境が現実世界の開放環境に近づくと、モデルは混乱してしまいます。

たとえば、下の図に示すように、以前の検出器では、見えるカテゴリと見えないカテゴリのバランスを取るのが難しく、調和平均が低くなり、見えないカテゴリのパフォーマンスが低下しました。

対照的に、CMMP メソッドは、このバランス問題を効果的に解決し、パフォーマンスを大幅に向上させ、未知のカテゴリに対して新たな最高のパフォーマンスを確立します。

CMMPメソッドがどのようにして見えないカテゴリーを解決するかについては、簡単に言うと次のようになります

視覚空間の手がかりは、特徴抽出中に使用され、目に見えない人物と物体の相互作用の概念を識別するのに役立ちます。また、条件付き手がかりの学習により、目に見えないカテゴリへの一般化能力が向上します。

要約すると、CMMP メソッドは、大規模なマルチモーダル モデルを微調整して、地域レベルの文字相互作用検出機能を一般化できるようにする新しいパラダイムを提供します。

上記の研究は北京大学王軒コンピューター技術研究所によるもので、関連論文はトップカンファレンスECCV 2024に採択されています。

ゼロサンプルの人間との接触検出のための新しいフレームワーク

チームは、CMMP を使用したゼロショット HOI (人間と物体の相互作用) 検出のための新しいフレームワークを提案しました。

具体的には、CMMP はゼロショットの人物インタラクション検出を 2 つのサブタスクに分割します

  • インタラクティブ性認識のための視覚特徴抽出
  • 一般化可能なインタラクティブ分類

次に、サブタスクごとに分離された視覚的およびテキストによる手がかりが提供され、サブタスク間の依存関係が排除され、エラーの伝播が軽減されます。

条件付き視覚手がかり(Pv)は、空間およびインタラクションを考慮した知識を画像エンコーダに注入するために使用され、インスタンスレベルの視覚事前分布(Cins)とインタラクションのグローバル空間パターン(Cgsp)によって制約されます。条件付き言語手がかり(PL)は、正則化損失を通じて人間が設計した手がかり(CL)によって制約されます。

インタラクティブ性認識のための視覚特徴抽出

チームが使用したマルチモーダル モデルの画像エンコーダーは、当初、多数の画像とテキストのペア (CLIP) に対する対照学習によって事前トレーニングされており、その能力は画像レベルでの一次セマンティクスの理解に限定されている可能性があります。

画像エンコーダが画像内のすべての人間の相互作用を区別できるようにするため、チームは、さまざまな粒度の事前知識を条件付き視覚キューに統合し、人間の相互作用関係検出タスク用にカスタマイズされた領域レベルの二次セマンティクスとして理解できるようにすることを提案しました。

具体的には、研究者はインスタンスレベルの情報を事前知識として条件付き視覚手がかりに組み込みました

入力画像が与えられると、事前にトレーニングされたオブジェクト検出器を使用して、境界ボックス、信頼スコア、検出されたインスタンスのセマンティックエンコーディングなど、すべてのインスタンスレベルの事前知識が最初に取得されます。

さらに、各インスタンスが潜在的な相互作用オブジェクトを認識するように促すために、チームは集中化された相互作用のグローバルな空間パターンのトレーニングとインスタンスレベルの視覚的な事前知識を組み合わせました。

具体的には、相互作用する人々のラベル付けされたペアごとに、研究者はまずその単項および二項の空間的特徴を計算しました。

次に、K 平均法クラスタリング アルゴリズムを使用してクラスターの中心を決定し、相互作用する人物のペアの代表的な空間パターンとして使用しました。

グローバル空間インタラクション モードは、見えるキャラクターと見えないキャラクターのインタラクション概念間のインタラクション性を理解するための橋渡しとして、カテゴリに依存しない代表的な空間構成を提供します。

最終的に、研究者たちは、軽量アダプターを介して、組み合わせた知識を画像エンコーダーに組み込みました。

一般化可能なインタラクティブ分類

人間の相互作用を検出するためのタスク固有の表現を学習しながら CLIP の一般化可能な知識を維持するために、チームはテキスト ブランチに一貫性制約を備えた言語認識プロンプト学習を採用しました。

この制約により、学習された既知のカテゴリと未知のカテゴリのプロトタイプ間に適切な分離境界が存在し、それらが互いに過度に逸脱しないことが保証されます。

具体的には、研究者たちはまず、各行動カテゴリーについて、手作業で設計された手がかりを用いてフォーマットを設定しました。次に、学習可能な文脈的単語を、既知カテゴリーと未知カテゴリーの意味を橋渡しするものとして用いました。

カテゴリの最終的な表現は、学習可能なコンテキスト単語と上記の文の単語ベクトルを連結し、それをテキスト エンコーダーに渡すことによって得られます。

マルチモーダルモデルのテキストエンコーダー自体が学習した特徴空間をさらに活用し、未知のカテゴリへの一般化能力を向上させるために、研究者らは、学習可能な言語手がかりの特徴空間を導くために手動で設計された手がかりを使用することを提案した。

この制約により、見えるカテゴリと見えないカテゴリのプロトタイプ間に適切な分離境界が存在し、それらが互いに過度に逸脱しないことが保証されます。

チームは、正規化された対照学習損失を適用して、特徴表現と手動で設計された言語プロンプトに基づく特徴表現との間の矛盾を減らしました。

トレーニングCMMP

チームは、インタラクティブな特徴マップと、事前トレーニング済みのオブジェクト検出器によって抽出された人物とオブジェクトの境界ボックスに基づいて、最初に ROI プーリングを適用してさまざまな領域から特徴を抽出しました。

次に、異なる領域から抽出された特徴が融合され、相互作用分類器を使用して最終的な相互作用カテゴリが予測されます。

モデル全体では、対話型分類トレーニング中に焦点損失が使用され、言語正規化損失も適用されます。

実験結果

結果検証フェーズでは、チームは文字インタラクション検出に広く用いられるHICO-DETデータセットを使用しました。600個の文字インタラクションカテゴリーは、 80個のオブジェクトカテゴリーと117個の動詞カテゴリーで構成されています。

モデルのゼロショット性能を検証するために、研究者らは HICO-DET で5 つのゼロショット設定を評価しました。

既存の方法との公平な比較を確実にするために、この研究ではデフォルトでViT-B/16をバックボーンネットワークとして使用します

下の表に示すように、実験結果では、CMMP がすべてのゼロサンプル設定で未知のクラスに対して最高のパフォーマンスを達成することが示されており、条件付きマルチモーダルキューイングを導入することの有効性が証明されています。

表の各タイプの最後の行に示されているように、新しい方法では、ViT-L/14 バックボーンを活用して CMMP を拡張し、CLIP4HOI の FLOP に一致させることで、すべてのパーティションで最高のパフォーマンスを実現します。

これは、視覚的特徴から空間関係を抽出し、インタラクション分類のプロトタイプを学習する際のチームのモデルの優れた能力を示しています。

さらに、従来の方法では、既知カテゴリと未知カテゴリの間でパフォーマンスに大きな差が見られ、一般化能力が欠如していることが示されました。

この研究で提示されたモデルは、この問題を大幅に軽減することができ、これまで見たことのないインタラクションのカテゴリーに一般化できる大きな可能性を秘めており、制約されたマルチモーダルな手がかりの有効性を確認しています。

詳細は原文論文をご参照ください。