618ZXW

画像検索の新しい方法!北京大学が画期的な画像検索手法を提案 | ECCV 2024

画像検索の新しい方法!北京大学が画期的な画像検索手法を提案 | ECCV 2024

2024-08-22 16:26 · 量子ビット

大量の写真から正確に画像を見つけるための新しい技術を開発しました!論文がECCV 2024に採択されました。

北京大学の Yuan Li 教授の研究グループは、南洋理工大学の研究室および清華大学オートメーション研究所と共同で、新しい汎用検索タスク「スタイル多様化検索」を提案しました。

つまり、このタイプの検索タスクでは、さまざまなクエリ条件に直面してもモデルが画像を正確に見つけられる必要があります。

従来の画像検索は主にテキスト クエリに依存していますが、テキスト クエリではクエリ方法が限られているだけでなく、他の検索スキームを使用する場合のパフォーマンスも一般的に低下します。

この論文で提案された新しい画像検索方法は、多様なクエリスタイル(スケッチ、アートワーク、低解像度画像、テキストなど)に基づいて対応する画像を検索することができ、さらには複合クエリ(スケッチ + テキスト、アートワーク + テキストなど)も含まれます。

一方、このモデルは他の検索ベースラインと比較して最先端(SOTA)のパフォーマンスを達成しました。(一番外側の青)

この論文は現在 arXiv で公開されており、関連するコードとデータセットもオープンソース化されています。

新しい画像検索方法

現在、画像検索における主な問題点は次のとおりです。

多様なユーザークエリベクトルを理解できる検索モデルを実現する

簡単に言えば、ユーザーがどのような方法を使用して検索したとしても、システムは常にユーザーが望む画像を見つけるということです。

これを達成するために、チームは2 つのことを行いました。

  • さまざまな種類のクエリ画像を含む独自の検索データセットを構築します。
  • 我々は、従来の検索モデルが一般的な検索機能を迅速に獲得できるようにするプラグアンドプレイ フレームワークを提案します。

データセットの構築

さまざまなクエリ スタイルによる画像テキスト検索タスクのために、チームはきめ細かな検索データセットである DSR (Diverse-Style Retrieval Dataset) を生成し、構築しました。

詳しく説明すると、データセットには10,000 枚の自然画像と、それに対応する 4 つの検索スタイル (テキスト、スケッチ、低解像度、漫画アート) が含まれています。

スケッチアイコンは FSCOCO データセットから提供され、漫画アート画像と低解像度画像は AnimateDiff によって生成されました。

一方、チームは、大規模で粗粒度のマルチスタイルの検索データセットとして、 ImageNet-Xも使用しました。

ImageNet-Xには、様々なスタイルのアノテーションが付与された100万枚の自然画像が含まれています。DSRと比較すると、ImageNet-Xデータセットの画像はよりシンプルで、検索も容易です。

FreestyleRetフレームワークが提案されました。

要約すると、FreestyleRet フレームワークは、画像スタイルを抽出して挿入することで、現在の画像検索モデルがさまざまなタイプの検索ベクトルと互換性がないという問題を効果的に解決します。

FreestyleRet フレームワークを構築する際、チームは主に2 つの問題を考慮しました。

  • さまざまなスタイルのクエリベクトルの意味情報を効果的に理解する方法。
  • 既存の画像およびテキスト検索モデルを効果的に活用して、優れたスケーラビリティを実現する方法。

これら 2 つの主要な問題に対処するために、チームは FreestyleRet フレームワークを形成する3 つのモジュールを設計しました。

(1)グラム行列に基づくスタイル抽出モジュールは、未知のクエリベクトルのスタイル表現を明示的に抽出するために使用される。
(2)スタイル空間構築モジュールは、スタイル表現をクラスタリングして取得したスタイル空間を構築し、クラスタ中心をスタイルの一貫した表現として使用する。
(3)スタイルに着想を得たプロンプト微調整モジュール:検索モデルのTransformer層でスタイル初期化補間を行うことで、既存の検索モデルのマルチスタイルクエリ機能を拡張します。

スタイル抽出とスタイル空間構築

グラム行列は、画像スタイル抽出に効果的な手法であることが証明されています。本論文では、グラム行列に基づくスタイル抽出モジュールを用いて、様々な種類のクエリベクトルからスタイルを抽出しています。

研究チームは、クエリベクトルをエンコードするために凍結VGG軽量ネットワークを使用し、スタイル抽出の基本特徴として浅い畳み込み表現を選択しました。具体的な式は次のとおりです。

クエリ ベクトルに対応するスタイル表現のセットを取得した後、チームはクエリ ベクトル セットの全体的なスタイル空間を構築しました

具体的には、K-Meansクラスタリングアルゴリズムを用いて、4つの異なるスタイルのクエリベクトルセットに対応するクラスター中心を反復的に計算します。次に、各スタイル表現が属するスタイル中心を計算し、新しいスタイル表現セットに応じてクラスター中心の位置を再調整します。

次の式に示すように、クラスターの中心の位置が変化しなくなったら反復が完了します。

スタイル空間では、チームは、さまざまなクエリ ベクトル スタイルに対応するさまざまなクラスター センターを、スタイル空間の基底ベクトルとして使用します。

推論の過程において、未知のスタイルのクエリベクトルに直面すると、スタイル空間はクエリベクトルの基底ベクトルへの射影を計算します。基底ベクトルへの射影と基底ベクトルの重み付き和をとることで、スタイル空間は未知のスタイルを定量化します。

非常に効率的なスタイルインジェクションツールチップの微調整モジュール

画像やテキストの検索分野では、Transformer構造に基づくALBEF、CLIP、BLIPなどの基本検索モデルが広く使用されており、多くの下流の研究でこれらの基本検索モデルのエンコーダーモジュールが採用されています。

FreestyleRet フレームワークがこれらの基本的な検索モデルに簡単かつ効率的に適応できるようにするために、チームはスタイル表現初期化トークンを使用して、基本的なエンコーダーの Transformer 構造にヒントと微調整を提供しました。

具体的には、量子化されたスタイル表現で初期化された学習可能なトークンがエンコーダー層の各層に挿入され、エンコーダーにスタイルを注入するプロセスを実装します。

実験的パフォーマンスデモンストレーション

研究チームは、定量的な実験の観点から、DSR データセットと ImageNet-X データセット上の FreestyleRet アーキテクチャに基づく BLIP モデルと CLIP モデルの Recall@1 と Recall@5 のパフォーマンスを分析しました。

実験では、FreestyleRet フレームワークは、さまざまなスタイルのクエリベクトルに直面したときに、既存の検索モデルの一般化能力を2 ~ 4% 大幅に強化できることが示されています。

研究チームはさらに、異なるスタイルの複数のクエリベクトルを同時に入力した場合のFreestyleRetフレームワークのパフォーマンスを検証しました。共通の入力クエリベクトルを使用することで、モデルの検索精度をさらに向上させることができます。

特徴分布を視覚化することで、研究チームは、FreestyleRet構造を使用した基本検索モデルがクエリベクトル内のスタイル情報と意味情報を効果的に分離し、意味の観点から高次元の空間クラスタリングを実現できることを発見しました。

研究チームはまた、モデルの一般化能力を検証するために、実際の検索推論プロセスの例を視覚化しました。

要約すると、このモデルは 5 つの異なるタイプの検索ベクトルで良好な結果を達成し、複数の検索ベクトルを使用した検索を含むサブタスクでも良好なスケーラビリティを示しました。

詳細は原論文をご参照ください。