SearchGPT のオープンソースバージョンがリリースされました。3090 の画像 2 枚だけで問題を再現でき、Perplexity の有料バージョンを上回っています。

OpenAI は数日前に SearchGPT をリリースしましたが、今ではオープンソースバージョンも登場しています。

香港中文大学MMLab、上海AIラボ、そしてテンセントのチームは、 Vision Search Assistantを容易に実装しました。モデル設計はシンプルで、 RTX3090 2基だけで再現可能です。

Vision Search Assistant (VSA) は Visual Language Model (VLM) に基づいており、Web 検索機能を巧みに統合することで、VLM 内の知識をリアルタイムで更新し、より柔軟でインテリジェントなものにしています。

現在、VSAは一般的な画像でテストされており、良好な可視化と定量化の結果が得られています。しかし、画像の種類によって特性が異なるため、表や医療画像など、より具体的なVSAアプリケーションを構築することも可能です。

さらに興味深いのは、VSAの可能性が画像処理だけにとどまらないことです。ビデオ、3Dモデル、サウンドなど、探索できる領域ははるかに広く、マルチモーダル研究を新たな高みへと押し上げることが期待されています。

VLMで未知の画像や新しい概念を処理

大規模言語モデル (LLM) の出現により、人間はこれらのモデルの強力なゼロショット質問応答機能を活用して、未知の知識を獲得できるようになりました。

これを基に、検索強化生成（RAG）などの技術により、知識集約型のオープンドメイン質問応答タスクにおけるLLMの性能がさらに向上しました。しかし、VLMは、未知の画像や新しい概念に直面した場合、インターネットから得られる最新のマルチモーダル知識を効果的に活用できないことがよくあります。

既存のWebエージェントは、主にユーザークエリを取得し、返されたHTMLテキストコンテンツを要約することに頼っています。そのため、画像やその他の視覚コンテンツを含むタスクの処理には大きな限界があり、視覚情報は無視されるか、十分に処理されません。

この問題に対処するため、研究チームはVision Search Assistantを提案しました。VLMモデルに基づくVision Search Assistantは、人間がインターネット上で検索し問題を解決するのと同様に動作し、未知の画像や新しい概念に関する質問に答えることができます。具体的には、以下のようなことが挙げられます。

クエリを理解する
画像内のどのオブジェクトに焦点を当てるかを決定し、それらの間の相関関係を推測します。
オブジェクトごとにクエリテキストを生成する
検索エンジンによって返されるコンテンツは、クエリテキストと推定された関連性に基づいて分析されます。
取得した視覚情報とテキスト情報が回答を生成するのに十分かどうか、またはプロセスを反復して改善する必要があるかどうかを判断します。
検索結果に基づいて、ユーザーの質問に答えます。

視覚的なコンテンツの説明

視覚コンテンツ記述モジュールは、画像内のオブジェクトレベルの記述とオブジェクト間の相関関係を抽出するために使用され、そのプロセスを下の図に示します。

まず、オープンドメイン検出モデルを用いて画像上の関心領域を特定します。次に、検出された各領域について、画像表現のための視覚モデル（VLM）を用いてオブジェクトレベルのテキスト記述を取得します。

最後に、視覚コンテンツをより包括的に表現するために、VLM を使用してさまざまな視覚領域をさらに関連付け、さまざまなオブジェクトのより正確な説明を取得します。

具体的には、ユーザーの入力画像と質問が与えられると、オープンドメイン検出モデルを使用して関心領域を取得できます。

次に、事前トレーニング済みの VLM モデルを使用して、この領域の視覚コンテンツを記述します。

異なる地域の情報をリンクして説明の精度を向上させるために、地域の説明を他の地域の説明と連結して、VLM が地域の説明を修正できるようにすることができます。

この時点で、ユーザー入力に関連性の高い各視覚領域の正確な説明が得られました。

ウェブ知識検索：「検索チェーン」

Web知識検索の中核は、「検索チェーン」と呼ばれる反復アルゴリズムであり、関連する視覚的記述を含む包括的なWeb知識の獲得を目指しています。そのプロセスは下図に示されています。

Vision Search Assistantでは、LLM（限定学習モデル）を用いて回答に関連するサブ質問を生成します。このLLMは「プランニングエージェント」と呼ばれます。検索エンジンから返されたページは、同じLLMによって分析、選択、要約されます。このLLMは「サーチエージェント」と呼ばれます。このようにして、視覚コンテンツに関連するWeb知識を獲得することができます。

具体的には、各領域の視覚的コンテンツ記述に対して個別に検索が行われるため、ここでは領域を例に挙げ、上付き文字を省略します。このモジュールは、計画エージェントと検索エージェントの両方に同じLLMモデルを使用します。計画エージェントは検索チェーン全体を制御し、検索エージェントは検索エンジンと連携してウェブページ情報をフィルタリングおよび要約します。

最初の反復を例に挙げると、意思決定エージェントは問題を複数の検索サブ問題に分解し、検索エージェントに割り当てて処理させます。検索エージェントは各サブ問題を検索エンジンに渡し、ページセットを生成します。検索エンジンはページサマリーを読み取り、問題に最も関連性の高いページセット（インデックスは）を以下のように選択します。

選択されたページについては、検索インテリジェンスがそのコンテンツを詳細に読み取り、要約します。

最後に、すべてのサブ問題の要約が意思決定エージェントに送られ、最初の反復後に得られた Web 知識が要約されます。

上記の反復プロセスを一定回数繰り返した後、意思決定エージェントが現在の Web 知識が元の質問に答えるのに十分であると判断した時点、または意思決定エージェントが現在の Web 知識が元の質問に答えるのに十分であると判断した時点で、検索チェーンは停止します。

協働生成

最終的には、元の画像、視覚的な説明、そしてWebに関する知識に基づいて、VLM（ビジュアル学習モデル）を用いてユーザーの質問に答えます（下図参照）。具体的には、最終的な答えは次のようになります。

実験結果

オープンセット質問の回答の視覚的な比較

下の図は、新しいイベント (最初の 2 行) と新しい画像 (最後の 2 行) のオープンセットの質問応答の結果を比較しています。

Vision Search Assistant を Qwen2-VL-72B および InternVL2-76B と比較すると、Vision Search Assistant はより最新かつ正確で詳細な結果を生成することに優れていることがわかります。

例えば、最初のサンプルでは、Vision Search Assistant は 2024 年のテスラの状況を要約しましたが、Qwen2-VL は 2023 年の情報に限定されており、InternVL2 は同社に関するリアルタイムの情報を提供できないと明確に述べています。

オープンセット質問応答評価

オープンセットの質疑応答評価では、合計10人の専門家が比較評価を実施し、7月15日から9月25日までのニュース報道から収集された100組の画像とテキストのペアを対象に、あらゆる分野の新しい画像と出来事を網羅しました。

人間の専門家が、信頼性、関連性、サポートという 3 つの主要な側面に基づいて評価を実施しました。

下の図に示すように、Vision Search Assistant は、Perplexity.ai Pro や GPT-4-Web と比較して、3 次元すべてにおいて優れたパフォーマンスを発揮します。

事実に基づく正確性： Vision Search Assistantは68%のスコアを獲得し、Perplexity.ai Pro（14%）およびGPT-4-Web（18%）を上回りました。この大きなリードは、Vision Search Assistantがより正確で事実に基づいた回答を一貫して提供していることを示しています。
関連性： Vision Search Assistantは関連性で80%のスコアを獲得し、関連性の高い回答を提供する上で大きな優位性を示しました。一方、Perplexity.ai ProとGPT-4-Webはそれぞれ11%と9%のスコアにとどまり、Web検索のタイムリーさを維持する上で大きな差があることが示されました。
サポート： Vision Search Assistantは、回答に対する十分な証拠と推論の提供においても他のモデルを上回り、サポートスコアは63%でした。Perplexity.ai ProとGPT-4-Webはそれぞれ19%と24%のスコアで、これに遅れをとりました。これらの結果は、Vision Search Assistantがオープンセットタスクにおいて優れたパフォーマンスを発揮し、特に包括的で関連性が高く、十分に裏付けられた回答を提供することで、新しい画像やイベントを処理するための効果的な手法であることを示しています。

クローズドセットの質問と回答による評価

LLaVA W ベンチマークでクローズドセット評価が実行され、これには VLM の実際の会話、詳細、および推論能力をカバーする 60 の質問が含まれていました。

評価は GPT-4o(0806) モデルを使用して実施され、LLaVA-1.6-7B モデルがベースラインモデルとして使用され、標準モードと、シンプルな Google 画像検索コンポーネントを使用した「ナイーブ検索」モードの 2 つのモードで評価されました。

さらに、探索チェーンモジュールを搭載したLLaVA-1.6-7Bの拡張バージョンも評価されました。

下の表に示すように、Vision Search Assistantは全カテゴリーで最高のパフォーマンスを示しました。特に、会話カテゴリーでは73.3%のスコアを獲得し、LLaVAモデルと比較して+0.4%のわずかな向上となりました。詳細カテゴリーでは、Vision Search Assistantは79.3%のスコアを獲得し、最高パフォーマンスのLLaVAモデルを+2.8%上回り、際立ったパフォーマンスを示しました。

推論性能においては、VSA手法は最高性能のLLaVAモデルを10.8%上回りました。これは、Vision Search Assistantの視覚検索とテキスト検索の高度な統合によって推論能力が大幅に向上していることを示しています。

Vision Search Assistantの総合的なパフォーマンスは84.9%で、ベースラインモデルと比較して6.4%向上しました。これは、Vision Search Assistantが対話タスクと推論タスクの両方で優れたパフォーマンスを発揮し、実環境における質問応答能力において大きな優位性を示していることを示しています。

論文: https://arxiv.org/abs/2410.21220
ホームページ: https://cnzzx.github.io/VSA/
コード: https://github.com/cnzzx/VSA

618ZXW