データ量はわずか70分の1なのに、マルチモーダル検索性能は抜群！人工知能技術（AIT）が、合成データが重要な役割を果たすBGE-VLをリリース。

BGEシリーズのモデルは、リリース以来、コミュニティから広く称賛されています。最近、北京人工知能研究院（BAAI）は複数の大学と共同でマルチモーダルベクトルモデルBGE-VLを開発し、既存のエコシステムをさらに拡大しました。

BGE-VLは、画像・テキスト検索や複合画像検索などの主要なマルチモーダル検索タスクにおいて最先端の結果を達成しました。BGE-VLは、大規模な合成データセットMegaPairsを用いて学習されました。

この設計には、次の 2 つの主な利点があります。

優れたスケーラビリティ：MegaPairsは、マルチモーダル表現モデル、大規模マルチモーダルモデル、大規模言語モデルを組み合わせることで、膨大なテキストおよび画像コーパスからマルチモーダルトリプルを効率的にマイニングします。そのアルゴリズムは、非常に低コストで、多様かつ高品質なマルチモーダルトリプルを継続的に生成できます。今回のリリースでは2,600万サンプルをカバーし、マルチモーダル検索モデルの学習に必要な大規模かつ高価値なデータサポートを提供します。
優れたデータ品質：従来のマルチモーダルデータと比較して、MegaPairsはわずか70分の1のデータ量で優れたトレーニング結果を実現します。Zhiyuanはこの合成データを用いてマルチモーダル検索モデルBGE-VLをトレーニングし、いくつかの主流のマルチモーダル検索ベンチマークのパフォーマンスを大幅に向上させました。

BGE-VL の技術レポートが公開されており、関連データ、モデル、コードリソースが徐々にコミュニティに公開される予定です。

メガペアの構築

ビッグデータ検索の時代において、情報検索は人々のますます多様化するニーズに応える必要があります。このニーズは、ユーザーのマルチモーダルなクエリ入力だけでなく、マルチモーダルな情報に対する需要にも反映されています。例えば、ユーザーは車の外観の写真を撮り、その車に関する具体的な情報を取得したいと考えるかもしれません。この場合、マルチモーダル検索システムは、ユーザーの画像とテキストのコマンドを包括的に理解し、複数の情報モダリティから最も関連性の高いコンテンツを検索する必要があります。

しかし、既存のマルチモーダル検索モデルは、通常、単一形式のクロスモーダルペアリングデータ（画像とテキストのペアなど）で学習されているため、複雑な複合モーダル入力には適していません。近年、テキスト検索や大規模言語モデルなどの分野において、指示の微調整技術がマルチタスク能力の向上に有効であることが実証されています。しかしながら、従来のマルチモーダル検索指示データセットは主に手作業によるアノテーションに依存しており、大規模で多様なデータの取得が制限されていました。

この限界に対処するため、Zhiyuan TechnologyのBGEチームは革新的なMegaPairsデータ合成法を提案しました。この手法は、既存の大規模画像データセットから多様な関連画像ペアをマイニングし、オープンソースのマルチモーダル大規模モデルと大規模言語モデルを用いて自動指示生成を行うことで、高品質でスケーラブルかつ汎用性の高いマルチモーダル検索指示微調整データセットを構築します。チームはこの高品質なMegaPairsデータに基づき、BGE-VLシリーズのマルチモーダルベクトルモデルを学習・オープンソース化し、最先端のマルチモーダル検索機能を実現しました。

MegaPairs は、既存の大規模なグラフおよびテキストコーパスから大規模で高品質なマルチモーダル検索指示データセットをマイニングして構築することを提案しています。

具体的には、メガペアの構築には主に次の 2 つの重要なステップが含まれます。

（１）複数の類似性モデルを使用して画像データセットから多様な画像ペアをマイニングする。

（２）オープンソースのマルチモーダル大規模モデルと大規模言語モデルを使用して、オープンドメイン検索指示を合成する。

以下の画像を例に挙げると、MegaPairsはまず大規模な画像データセットから画像とテキストのペアをクエリデータとしてサンプリングします。次に、様々な画像とテキストの類似性モデルを用いて、関連する画像ペア（例：同じ車種の外装と内装、同じ車種の異なる塗装パターン、同じブランドの車の将来のコンセプトイメージなど）を複数セット抽出します。次に、これらの抽出された画像ペアに対して、MegaPairsは2段階のアノテーション手法を採用します。まず、マルチモーダル大規模言語モデル（MLLM）を用いて2つの画像間の関連性を要約し、次に大規模言語モデル（LLM）を用いて最終的なオープンドメイン検索指示を作成します。

MegaPairsはオープンソースのデータセットとモデルに基づいて完全に自動的に構築およびラベル付けされている点に注目すべきです。複数の類似度モデルと2段階のラベル付け手法を導入することで、MegaPairsは人間の介入なしに、大規模で高品質かつ多様なマルチモーダル検索指示データセットをスケーラブルに生成できます。

△MegaPairsマルチモーダルトライアドデータ構築プロセス

上記のパイプラインに基づき、MegaPairsは2,600万以上の3データペア（クエリ画像、クエリ文、ターゲット画像）を合成しました。さらに、検索モデルの学習において「困難な負例」の重要性を考慮し、MegaPairsはマイニングされた画像ペアの各セットに対して、他の類似画像を困難な負例として選択しました。

BGE-VLモデル

知源学院のBGEチームは、MegaPairsを用いて合成された大規模マルチモーダル検索指示データセットに基づき、サイズの異なる3つのマルチモーダル検索モデルを学習しました。これらのモデルは、CLIPアーキテクチャに基づくBGE-VL-BaseとBGE-VL-Large、そして大規模マルチモーダルモデルアーキテクチャに基づくBGE-VL-MLLMです。チームは、MegaPairsトリプレットデータのみを用いて学習することで、モデルが複数のタスクにおいて従来の手法と比較して大幅に優れた性能を発揮することを発見しました。

マルチモーダル埋め込みタスクの全体的なパフォーマンス

研究チームはまず、Massive Multimodal Embedding Benchmark（MMEB）を用いてBGE-VLモデルの性能を検証しました。MMEBは、分類、視覚的質問応答、検索、視覚的グラウンディングの4つのカテゴリーにわたる36種類のマルチモーダル埋め込み評価タスクを網羅した包括的なベンチマークです。

△MMEB評価タスクの例画像

ゼロショット性能に関しては、BGE-VLは複数のタスクタイプとMMEBの総合スコアにおいて最先端の性能を達成しました。さらに興味深いのは、 MMEBのほとんどのタスクタイプ（分類、VQA、グラウンディングなど）のデータが含まれないMegaPairsが、優れたタスク汎化能力を示していることです。

研究チームはMMEBデータセットに基づき、MMEB分布内（IND）セット（36の評価タスクのうち20タスクを含む）においてBGE-VLの教師ありファインチューニングをさらに実施しました。実験結果によると、BGE-VLの平均性能指標は、MMEB上で直接ファインチューニングされたVLM2Vec（LLaVA-1.6）モデルと比較して9.1パーセントポイント向上しました。同時に、分布外（OOD）データセットにおける平均性能も、VLM2Vecの2つのバージョンと比較してそれぞれ11.6%と7.1%向上しました。これらの結果は、MegaPairsデータセットの高品質と汎化能力の高さを実証しています。

複合画像検索性能

従来の画像検索では、テキストベースまたは画像ベースの検索方法が一般的に採用されていました。近年、複合画像検索という新たな画像検索パラダイムが登場し、画像と検索コマンドを同時に入力することで、より正確な画像検索結果を得ることができます。Googleはこの方法を「次世代画像検索パラダイム」と呼んでいます。

複合画像検索の主流ベンチマークであるCIRCOにおいて、BGE-VLは様々なモデルサイズにおいて既存のベンチマークを大幅に上回る性能を示しました。GoogleのMagicLensシリーズやNVIDIAのMM-Embedといった同等のベースラインを大きく上回ります。特に、BGE-VL-MLLMは、従来の最先端モデルと比較して8.1パーセントポイントの改善を達成しました。さらに、パラメータ数が50分の1未満のBGE-VL-Baseモデルは、MM-EmbedやE5-Vといった大規模マルチモーダル検索システムよりも優れた性能を示しました。これらの実験結果は、MegaPairsデータセットの有効性を強く示しています。

チームは、MegaPairsのスケーラビリティとデータ品質についても詳細な調査を実施しました。図に示すように、MegaPairsデータの規模が拡大するにつれて、BGE-VLモデルは一貫したパフォーマンス向上傾向を示しており、MegaPairsデータ構築手法の優れたスケーラビリティを実証しています。

一方、3,700万件のクローズドソースデータでトレーニングされた最先端モデルであるGoogle MagicLensと比較すると、MegaPairsは1/70のデータサイズ（0.5M）で大幅なパフォーマンス上の利点を実現しており、MegaPairsデータの効率性と高品質を実証しています。

△MegaPairsスケーラビリティ分析：様々なサイズのMegaPairsデータを用いて様々なベンチマークでトレーニングしたBGE-VLベースモデルのパフォーマンス傾向。破線は、CLIPベースデータセットと37M MagicLensデータセットでトレーニングしたMagicLens-Bモデルのパフォーマンスを表しています。

BGE-VL検索可視化結果

今後も、Zhiyuan は MegaPairs とより豊富なマルチモーダル検索シナリオの統合を継続的に検討し、より多用途で普遍的なマルチモーダル検索ツールの作成に取り組んでいきます。

さらなる方法と実験の詳細については、論文を参照してください。

論文リンク: https://arxiv.org/abs/2412.14475 プロジェクトホームページ: https://github.com/VectorSpac... モデルリンク: https://huggingface.co/BAAI/B...

618ZXW