マルチモーダルモデルは、微調整なしでインターネット経由でアクセスできます。これは、クローズドソースソリューションよりも優れた新しいプラグアンドプレイフレームワークです。

5月に訓練された大規模モデルは、ゲーム「Black Myth: Wukong」の内容に関する質問に正確な回答を提供できなかった。

これは大規模なモデルで繰り返し発生する問題です。

Black Myth は 8 月にリリースされたばかりなので、トレーニングデータにはそれに関連する知識は含まれていません。

よく知られているように、大規模モデルのトレーニングと微調整には多くのコンピューティングリソースと時間が消費されるため、大規模モデルのパラメーターを頻繁に更新することは現実的ではありません。

しかし、現実世界の情報はリアルタイムで生成され、常に変化しています。そのため、大規模なモデルは学習後に新たに生成された情報に慣れることができず、正確で信頼性の高いフィードバックを提供できなくなります。

この問題を解決するために、上海人工知能研究所、北京理工大学、浙江大学、香港大学は共同で、あらゆる大規模マルチモーダルモデルをシームレスに統合できるプラグアンドプレイのSearchLVLMsフレームワークを提案しました。

このフレームワークは、推論フェーズ中にインターネット検索を使用して大規模モデルを強化し、大規模モデルが微調整なしでリアルタイムの情報に正確に応答できるようにします。

研究チームは、マルチモーダル大規模モデルがリアルタイム情報に関するフィードバックを提供することを支援する、初のオープンソース検索強化フレームワークである SearchLVLMs を提案しました。

フレームワークは、主にクエリ生成、検索エンジンの呼び出し、階層フィルタリングの 3 つの部分で構成されます。

視覚的な質問応答を例にとると、フレームワークは質問と画像に基づいてクエリキーワードを生成し、検索エンジンを呼び出して関連情報を検索し、検索結果を粗いものから細かいものまでフィルタリングして、質問への回答に役立つ情報を取得します。

この情報は、質問への回答を支援するために、推論フェーズ中にプロンプトの形式でモデルに提供されます。

一方、チームは、リアルタイムの情報に基づいて応答する視覚的な質疑応答データを自動的に生成できるデータ生成フレームワーク、UDK-VQAを提案しました。

このフレームワークに基づいて、データセットを動的に更新し、テストデータの適時性を確保できます。

現在、データセットには UDK-VQA-240401-30 と UDK-VQA-240816-20 の 2 つのバージョンがあり、それぞれ 2024 年 4 月 1 日から 2024 年 4 月 31 日までと 2024 年 8 月 16 日から 2024 年 9 月 5 日までの期間をカバーしています。

研究者らは、GPT-4o、Gemini 1.5 Pro、InternVL-1.5、LLaVA-1.6 など 15 を超えるオープンソースおよびクローズドソースモデルで実験を実施しました。

UDK-VQA データセットでは、SearchLVLM を搭載した最先端の LVLM は、インターネット検索拡張機能が組み込まれた GPT-4o モデルよりも応答精度が 35% 向上しました。

オープンソースフレームワーク SearchLVLMs

SearchLVLMs フレームワークは主に 3 つの部分で構成されます。

クエリ生成
検索エンジンの呼び出し
階層化フィルタリング

クエリ生成フェーズでは、質問と画像を完全に理解して、検索エンジンに適したテキストクエリに変換する必要があります。

質問については、手動で設計されたプロンプトを直接使用して LLM を呼び出すことで、クエリ用語を取得できます。

画像の場合、Bing Visual Search が呼び出され、画像を含む、または画像に関連する Web ページが取得され、これらの Web ページのタイトル/スナップショットの最長共通部分文字列が画像クエリ用語として抽出されます。

検索エンジンの呼び出しフェーズでは、ユーザーは質問の種類に基づいて、呼び出す検索エンジンの種類を選択できます。

たとえば、リアルタイムの情報が必要なニュース関連の質問の場合は、Bing ニュース検索を使用するように選択でき、一般的な知識に関する質問の場合は、Bing 一般検索を使用するように選択できます。

検索エンジンを呼び出すと、複数の Web ページのタイトル、概要、リンクが取得されます。

階層的フィルタリングの段階では、まず Web ページフィルタが呼び出され、取得した Web ページの初期スクリーニングが実行され、その後、これらの Web ページがタイトルと概要に基づいて並べ替えられます。

上位にランクされた Web ページについては、Web クローラーを使用して Web ページのテキストコンテンツを取得し、それを 3 つの文ごとにセグメントに分割し、コンテンツフィルターを使用してこれらのセグメントを並べ替えます。

上位にランクされたセグメントについては、CLIP 機能に基づいてクラスタ化され、各クラスタの中心に最も近いセグメントが選択されます。これにより、大規模モデル内の重複したコンテンツセグメントからの誤った予測が回避されます。

選択されたセグメントは直接結合され、より大きなモデルのヒントを提供します。

ウェブページフィルターとコンテンツフィルターは、質問への回答にどれだけ役立つかに基づいてウェブページ/フラグメントにスコアを付ける、独立してトレーニングされた 2 つの LLaVA-1.5 モデルです。

これら 2 つのフィルターをトレーニングし、大規模モデルのリアルタイム情報への応答能力をテストするために、研究チームはさらに、下図に示すように、データ生成フレームワークである UDK-VQA を提案しました。

データ生成を完了するための5つのステップ

UDK-VQA データ生成は主に次の 5 つのステップに従います。

これらは、クエリの収集、質問の生成、画像の割り当て、疑似注釈の生成、および人間による検証です。

最初のステップは、情報の検索と収集です。

クエリの収集には主に 2 つの側面があります。1 つは Google の毎日の検索トレンドから人気のある検索用語をクロールすることであり、もう 1 つは前者を補足するためにいくつかの人気のある検索用語を手動で収集することです。

2 番目のステップは質問を生成することです。

研究者たちはまず検索エンジンを使用して、収集した検索用語に基づいて関連ニュースを検索し、次にニュースコンテンツを複数のコンテンツフラグメントに分割しました。

次に、GPT はコンテンツフラグメントに基づいて質問と回答を行うように求められ、一連の <質問と回答> を取得します。

3 番目のステップである画像の割り当てでは、チームは質問からエンティティを抽出し、画像検索エンジンを使用してエンティティの画像を取得し、質問内のエンティティの単語をそれより高次の数量詞に置き換えて、画像とともに視覚的な質問回答サンプルを作成します。

4 番目のステップは、疑似ラベルを生成することです。

Web ページフィルターとコンテンツフィルターをトレーニングするには、Web ページ/フラグメントにスコアを付ける必要があります。

視覚的な質問回答サンプルとウェブページ/フラグメントについては、研究者は次の 2 つの原則に基づいて採点しました。

① このWebページ/フラグメントに基づいてサンプルが生成された場合、スコアは1.0になります。

② このウェブページ/フラグメントに基づいてサンプルが生成されていない場合は、5つのオープンソースモデルを使用してこのウェブページ/フラグメントのサンプルに回答し、モデルの回答の精度に応じてスコアを付けます。

この疑似ラベル付け方法に基づいて、研究者はトレーニング用に約 80w のサンプルを構築しました。

最後のステップは人間による検証です。

テストセットを構築する際、研究者はステップ 3 で取得した視覚的な質問と回答のサンプルを手動でスクリーニングし、テストサンプルの正確性を確認しました。

トレーニングデータとテストデータで同様のリアルタイム情報を参照する必要を回避するために、トレーニングセットとテストセットを構築する際には、さまざまな時間間隔での Google の毎日の検索傾向を使用して、人気の検索用語をクロールしました。

下の図(a)、(b)、(c)はそれぞれトレーニングサンプル、テストサンプル、テストサンプルの分布を示しています。

データ生成フレームワーク UDK-VQA に基づいて、回答を提供するためにリアルタイムの情報を必要とする視覚的な質問応答サンプルを簡単に構築できます。

研究チームは、テストサンプルの適時性を確保するためにテストセットを継続的に更新すると述べた。

現在、研究者らは、それぞれ 2024 年 5 月と 2024 年 9 月の情報を含む 2 つのバージョンのテストセットを構築しています。

実験結果と結論

SearchLVLMs フレームワークチームは、UDK-VQA 上で 15 個の既存の LVLM をテストしました。主な実験結果を以下の表に示します。

ここで、Raw はモデルのオリジナルバージョン (検索拡張機能なし) を示し、Long-Context (LC) は検索エンジンによって返された Web ページのクロールコンテンツが直接連結されてモデルにプロンプト表示されることを示し、IAG はモデルに組み込まれたインターネット検索拡張機能がモデルで使用されることを示します。

Gen.、Cham.、CLIP→FID（C→F）はそれぞれ[1]、[2]、[3]の方法を表す。

実験結果から次のことがわかります。

1.長いコンテキスト入力を受け取ると、検索エンジンによって返されるコンテンツの二次フィルタリングをある程度回避できます。

Gemini Pro 1.5 (LC) は、インターネット検索拡張機能が組み込まれているため、GPT-4V および GPT-4o よりも優れていますが、長いコンテキストによって追加の計算オーバーヘッドが発生し、モデルを誤解させる可能性のある不要な情報が導入されます。

SearchLVLM 階層フィルタリングモデルのパフォーマンスは、二次フィルタリングを実行することでさらに向上できます。

2.検索強化機能を備えたクローズドソースの商用モデルは、そのような機能を備えていないオープンソースのモデルよりも大幅に優れています。

GPT-4V と GPT-4o は、インターネット検索拡張モジュールが組み込まれているため、LLaVA-1.6 や InternVL-1.5 などのオープンソースモデルよりも精度が大幅に優れており、その差は約 20% ～ 30% です。

3. SearchLVLM フレームワークは、あらゆる大規模なマルチモーダルモデルを統合し、リアルタイム情報に依存する質問に答える能力を大幅に向上させることができます。

クローズドソースの商用モデル Gemini 1.5 Pro、GPT-4o、GPT-4V でも、オープンソースの最先端モデル LLaVA-1.6 および InternVL-1.5 でも、SearchLVLM は 50% を超えるパフォーマンス向上を実現します。

4. SearchLVLM によってもたらされるパフォーマンスの向上は、既存の方法よりもはるかに大きくなります。

本研究では、検索強化手法であるGen.、C→F、そして質問への回答を支援するために検索エンジンを呼び出すフレームワークCham.を比較しました。SearchLVLMは、リアルタイム情報検索タスクの処理において顕著な優位性を示しました。

5. SearchLVLM を使用してオープンソースモデルを統合すると、インターネット検索拡張機能が組み込まれたクローズドソースの商用モデルよりも大幅に優れたパフォーマンスが得られます。

InternVL-1.5+SearchLVLMs の精度は 92.9% で、GPT-4o (IAG) の 57.8% を大幅に上回りました。

この発見はオープンソースモデルの大きな可能性を示しており、SearchLVLM はパフォーマンス、カスタマイズ性、透明性の面で大きな利点を提供します。

参考文献[1] Yu et al. 取得ではなく生成:大規模言語モデルは強力なコンテキストジェネレーターである。arXiv 2023。
[2] Luら「カメレオン：大規模言語モデルを用いたプラグアンドプレイ構成推論」NeurIPS 2023
[3] Chen et al. 事前学習済みの視覚・言語モデルは視覚情報探索の質問に答えることができるか? EMNLP 2023.

論文リンク: https://arxiv.org/abs/2405.14554

プロジェクトのホームページ: https://nevermorelch.github.i...

618ZXW

マルチモーダルモデルは、微調整なしでインターネット経由でアクセスできます。これは、クローズドソースソリューションよりも優れた新しいプラグアンドプレイフレームワークです。

オープンソースフレームワーク SearchLVLMs

データ生成を完了するための5つのステップ

実験結果と結論

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ