|
OpenAI は数日前に SearchGPT をリリースしましたが、今ではオープンソース バージョンも登場しています。 香港中文大学MMLab、上海AIラボ、そしてテンセントのチームは、 Vision Search Assistantを容易に実装しました。モデル設計はシンプルで、 RTX3090 2基だけで再現可能です。 Vision Search Assistant (VSA) は Visual Language Model (VLM) に基づいており、Web 検索機能を巧みに統合することで、VLM 内の知識をリアルタイムで更新し、より柔軟でインテリジェントなものにしています。 現在、VSAは一般的な画像でテストされており、良好な可視化と定量化の結果が得られています。しかし、画像の種類によって特性が異なるため、表や医療画像など、より具体的なVSAアプリケーションを構築することも可能です。 さらに興味深いのは、VSAの可能性が画像処理だけにとどまらないことです。ビデオ、3Dモデル、サウンドなど、探索できる領域ははるかに広く、マルチモーダル研究を新たな高みへと押し上げることが期待されています。 VLMで未知の画像や新しい概念を処理大規模言語モデル (LLM) の出現により、人間はこれらのモデルの強力なゼロショット質問応答機能を活用して、未知の知識を獲得できるようになりました。 これを基に、検索強化生成(RAG)などの技術により、知識集約型のオープンドメイン質問応答タスクにおけるLLMの性能がさらに向上しました。しかし、VLMは、未知の画像や新しい概念に直面した場合、インターネットから得られる最新のマルチモーダル知識を効果的に活用できないことがよくあります。 既存のWebエージェントは、主にユーザークエリを取得し、返されたHTMLテキストコンテンツを要約することに頼っています。そのため、画像やその他の視覚コンテンツを含むタスクの処理には大きな限界があり、視覚情報は無視されるか、十分に処理されません。 この問題に対処するため、研究チームはVision Search Assistantを提案しました。VLMモデルに基づくVision Search Assistantは、人間がインターネット上で検索し問題を解決するのと同様に動作し、未知の画像や新しい概念に関する質問に答えることができます。具体的には、以下のようなことが挙げられます。
視覚的なコンテンツの説明視覚コンテンツ記述モジュールは、画像内のオブジェクトレベルの記述とオブジェクト間の相関関係を抽出するために使用され、そのプロセスを下の図に示します。 まず、オープンドメイン検出モデルを用いて画像上の関心領域を特定します。次に、検出された各領域について、画像表現のための視覚モデル(VLM)を用いてオブジェクトレベルのテキスト記述を取得します。 最後に、視覚コンテンツをより包括的に表現するために、VLM を使用してさまざまな視覚領域をさらに関連付け、さまざまなオブジェクトのより正確な説明を取得します。 具体的には、ユーザーの入力画像と質問が与えられると、オープンドメイン検出モデルを使用して関心領域を取得できます。 次に、事前トレーニング済みの VLM モデルを使用して、この領域の視覚コンテンツを記述します。 異なる地域の情報をリンクして説明の精度を向上させるために、地域の説明を他の地域の説明と連結して、VLM が地域の説明を修正できるようにすることができます。 この時点で、ユーザー入力に関連性の高い各視覚領域の正確な説明が得られました。 ウェブ知識検索:「検索チェーン」Web知識検索の中核は、「検索チェーン」と呼ばれる反復アルゴリズムであり、関連する視覚的記述を含む包括的なWeb知識の獲得を目指しています。そのプロセスは下図に示されています。 Vision Search Assistantでは、LLM(限定学習モデル)を用いて回答に関連するサブ質問を生成します。このLLMは「プランニングエージェント」と呼ばれます。検索エンジンから返されたページは、同じLLMによって分析、選択、要約されます。このLLMは「サーチエージェント」と呼ばれます。このようにして、視覚コンテンツに関連するWeb知識を獲得することができます。 具体的には、各領域の視覚的コンテンツ記述に対して個別に検索が行われるため、ここでは領域を例に挙げ、上付き文字を省略します。このモジュールは、計画エージェントと検索エージェントの両方に同じLLMモデルを使用します。計画エージェントは検索チェーン全体を制御し、検索エージェントは検索エンジンと連携してウェブページ情報をフィルタリングおよび要約します。 最初の反復を例に挙げると、意思決定エージェントは問題を複数の検索サブ問題に分解し、検索エージェントに割り当てて処理させます。検索エージェントは各サブ問題を検索エンジンに渡し、ページセットを生成します。検索エンジンはページサマリーを読み取り、問題に最も関連性の高いページセット(インデックスは )を以下のように選択します。 選択されたページについては、検索インテリジェンスがそのコンテンツを詳細に読み取り、要約します。 最後に、すべてのサブ問題の要約が意思決定エージェントに送られ、最初の反復後に得られた Web 知識が要約されます。 上記の反復プロセスを一定回数繰り返した後、意思決定エージェントが現在の Web 知識が元の質問に答えるのに十分であると判断した時点、または意思決定エージェントが現在の Web 知識が元の質問に答えるのに十分であると判断した時点で、検索チェーンは停止します。 協働生成最終的には、元の画像、視覚的な説明、そしてWebに関する知識に基づいて、VLM(ビジュアル学習モデル)を用いてユーザーの質問に答えます(下図参照)。具体的には、最終的な答えは次のようになります。 実験結果オープンセット質問の回答の視覚的な比較下の図は、新しいイベント (最初の 2 行) と新しい画像 (最後の 2 行) のオープン セットの質問応答の結果を比較しています。 Vision Search Assistant を Qwen2-VL-72B および InternVL2-76B と比較すると、Vision Search Assistant はより最新かつ正確で詳細な結果を生成することに優れていることがわかります。 例えば、最初のサンプルでは、Vision Search Assistant は 2024 年のテスラの状況を要約しましたが、Qwen2-VL は 2023 年の情報に限定されており、InternVL2 は同社に関するリアルタイムの情報を提供できないと明確に述べています。 オープンセット質問応答評価オープンセットの質疑応答評価では、合計10人の専門家が比較評価を実施し、7月15日から9月25日までのニュース報道から収集された100組の画像とテキストのペアを対象に、あらゆる分野の新しい画像と出来事を網羅しました。 人間の専門家が、信頼性、関連性、サポートという 3 つの主要な側面に基づいて評価を実施しました。 下の図に示すように、Vision Search Assistant は、Perplexity.ai Pro や GPT-4-Web と比較して、3 次元すべてにおいて優れたパフォーマンスを発揮します。
クローズドセットの質問と回答による評価LLaVA W ベンチマークでクローズドセット評価が実行され、これには VLM の実際の会話、詳細、および推論能力をカバーする 60 の質問が含まれていました。 評価は GPT-4o(0806) モデルを使用して実施され、LLaVA-1.6-7B モデルがベースライン モデルとして使用され、標準モードと、シンプルな Google 画像検索コンポーネントを使用した「ナイーブ検索」モードの 2 つのモードで評価されました。 さらに、探索チェーンモジュールを搭載したLLaVA-1.6-7Bの拡張バージョンも評価されました。 下の表に示すように、Vision Search Assistantは全カテゴリーで最高のパフォーマンスを示しました。特に、会話カテゴリーでは73.3%のスコアを獲得し、LLaVAモデルと比較して+0.4%のわずかな向上となりました。詳細カテゴリーでは、Vision Search Assistantは79.3%のスコアを獲得し、最高パフォーマンスのLLaVAモデルを+2.8%上回り、際立ったパフォーマンスを示しました。 推論性能においては、VSA手法は最高性能のLLaVAモデルを10.8%上回りました。これは、Vision Search Assistantの視覚検索とテキスト検索の高度な統合によって推論能力が大幅に向上していることを示しています。 Vision Search Assistantの総合的なパフォーマンスは84.9%で、ベースラインモデルと比較して6.4%向上しました。これは、Vision Search Assistantが対話タスクと推論タスクの両方で優れたパフォーマンスを発揮し、実環境における質問応答能力において大きな優位性を示していることを示しています。 論文: https://arxiv.org/abs/2410.21220 |
SearchGPT のオープンソース バージョンがリリースされました。3090 の画像 2 枚だけで問題を再現でき、Perplexity の有料バージョンを上回っています。
関連するおすすめ記事
-
研究員募集|上海AIラボ AI4Sクライマー行動計画
-
北京大学 AI 数学オリンピックの評価では、O1-Mini は O1-Preview よりも高いスコアを獲得しました。
-
DeepSeek の 2 番目のオープンソースリリース: MoE と EP 向けにカスタマイズされた通信ライブラリ。現在は NVIDIA グラフィック カードに関連付けられています。
-
カルパティ氏を驚かせた研究:人間の脳はプラスチックで汚染されている。
-
デビッド・ベイカー氏が科学顧問を務め、スタートアップ企業が世界最大のタンパク質間相互作用データベースを立ち上げ、8回の資金調達を確保。
-
Doubao が音楽ジェネレーターをリリース、ユーザーはワンクリックで歌詞と音楽を生成できる。