パラメータアクセスは不要！CMUは大規模モデルを用いて視覚言語キューを自動最適化

視覚言語モデル（GPT-4o や DALL-E 3 など）には通常、数十億のパラメーターがあり、モデルの重みは公開されていないため、従来のホワイトボックス最適化手法（バックプロパゲーションなど）を実装することが困難です。

では、これを最適化するより簡単な方法はあるのでしょうか?

つい最近、カーネギーメロン大学（CMU）の研究チームがこの問題に対する革新的な「ブラックボックス最適化」戦略を提案しました。

大規模な言語モデルを使用して自然言語プロンプトを自動的に調整することにより、視覚言語モデルは、テキストから画像への処理や視覚認識などの複数の下流タスクでより優れたパフォーマンスを実現できます。

この方法は、モデルの内部パラメータに触れることなく、最適化の柔軟性と速度を大幅に向上させ、技術的な知識がなくてもユーザーがモデルのパフォーマンスを簡単に向上できるようにします。

この研究はCVPR 2024に採択されました。

どうやってそれをやったんですか？

ほとんどの視覚言語モデル (DALL-E 3、GPT-4o など) はモデルの重みや特徴の埋め込みを公開しないため、バックプロパゲーションに依存する従来の最適化手法は適用できなくなりました。

ただし、これらのモデルは通常、ユーザーに自然言語インターフェースを提供するため、プロンプトを最適化することでモデルのパフォーマンスを向上させることができます。

しかし、従来のプロンプトワードエンジニアリングは、エンジニアの経験と事前の知識に大きく依存しています。

たとえば、CLIP モデルの視覚認識パフォーマンスを向上させるために、OpenAI は 1 年かけて数十の効果的なプロンプト単語テンプレート (「[クラス] のよい写真」など) を収集しました。

同様に、DALL-E 3 や Stable Diffusion などのテキストベースのグラフモデルを使用する場合、ユーザーは満足のいく結果を生成するために多くのプロンプト語のスキルを習得する必要があります。

では、人間の即席エンジニアに代わる方法はあるのでしょうか?

いくつかの CMU チームは、ChatGPT などの大規模な言語モデルを使用してプロンプト語を自動的に最適化するという新しい戦略を提案しました。

キューワードエンジニアがフィードバックを用いてキューワードを改善するのと同様に、CMUの手法はChatGPTに正と負のフィードバックを提供し、キューワードをより効率的に調整します。具体的なプロセスは図に示されています。

この最適化プロセスは機械学習の「ヒルクライミング」戦略に似ていますが、大規模な言語モデルがプロンプト語のパフォーマンスを自動的に分析し、肯定的および否定的なフィードバックから改善のための最適な方向を見つけることができる点が異なります。

研究チームはこの特性を活用して、プロンプトをより効率的に最適化しました。このプロセスは、以下のステップに要約できます。

プロンプトの初期化: 最適化されていない初期プロンプトのバッチを収集します。
プロンプトワードのソート: 現在のプロンプトワードのパフォーマンスをスコアリングし、スコアの高いプロンプトワードを保持し、スコアの低いプロンプトワードを置き換えます。
新しいプロンプトワードを生成する: 大規模な言語モデルを使用して、プロンプトワードのパフォーマンスに基づいて新しい候補プロンプトワードを生成します。

複数回の反復処理の後、最終的に最も高いスコアを持つプロンプト単語が最適化結果として返されます。

実験結果

この方法を使用することで、CMU チームは、人間の指示やエンジニアの関与を必要とせずに、複数の小規模サンプルの視覚認識データセットで最先端の精度を達成し、従来のホワイトボックスキューワード最適化方法 (CoOp など) を上回りました。

さらに、この方法では、データセットの内容を知らなくても、下流のタスクの視覚的特性を自動的にキャプチャしてプロンプトに統合し、より良い結果を実現します。

たとえば、食品認識タスクでは、ChatGPT はプロンプトを自動的に調整して「多様な食品と材料」を認識し、モデルのパフォーマンスを向上させます。

研究チームはまた、ChatGPT ブラックボックス最適化によって得られたプロンプトは、単一のモデルアーキテクチャに適用できるだけでなく、異なるモデルアーキテクチャ (ResNet や ViT など) に一般化でき、複数のモデルでホワイトボックス最適化によって得られたプロンプトよりも優れていることも実証しました。

この一連の実験は、大規模言語モデルがプロンプト語のパフォーマンスフィードバックから暗黙の「勾配」方向を抽出し、バックプロパゲーションなしでモデルの最適化を実現できることを示しています。

テキストグラフ作成タスクへの応用

CMU チームは、この手法の生成タスクへの潜在的な応用をさらに調査しました。

テキストから画像への (T2I) 生成タスクでは、ChatGPT はプロンプトを自動的に最適化して、ユーザーのニーズをよりよく満たす高品質の画像を生成できます。

たとえば、「動物が人を見ている」という入力説明が与えられた場合、システムはプロンプトを段階的に最適化することで、生成される画像の精度を向上させることができます。

さらに、この方法はプロンプト反転にも適用できます。

キュー反転とは、既存の画像を用いて、モデル用の入力キューワードを逆生成する技術です。簡単に言えば、画像の特徴を再現できるテキスト記述（キューワード）を生成することです。

研究チームは、この方法を複雑なテキスト画像変換タスクでテストし、その結果、この方法によりプロンプト単語の最適化をわずか 3 回行うだけで、ユーザーの満足度を大幅に向上できることが示されました。

さらに研究チームは、プロンプト反転により、ユーザーは「この犬を立たせる」や「背景を夜景にする」など、特定の画像効果を素早くカスタマイズし、特定のニーズを満たす画像を生成できるとも指摘した。

CMU チームは、提案したブラックボックス最適化パラダイムは従来のモデル調整の限界を打ち破り、画像分類および生成タスクで優れたパフォーマンスを発揮するだけでなく、幅広い応用の可能性も示していると述べています。

この方法では、モデルの重みにアクセスする必要がなく、「テキスト勾配」のみを通じて正確な最適化を実現し、強力なスケーラビリティを備えています。

将来的には、ブラックボックス最適化は、リアルタイム監視、自動運転、スマートヘルスケアなどの複雑で動的なシナリオに適用され、マルチモーダルモデルのチューニングのためのより柔軟で効率的なソリューションをもたらすことが期待されています。

チーム紹介

チームの第一著者であるShihong Liu 氏はカーネギーメロン大学の大学院生であり、ロボティクス研究所の元研究者である。

現在、Amazon North America に勤務し、大規模分散システムの計算と大規模言語モデルによる AI エージェントの開発を担当しています。

△劉世宏

チームの共同筆頭著者であるZhiqiu Lin 氏は、カーネギーメロン大学の博士課程の学生で、大規模な視覚言語モデルの自動評価と最適化を専門としています。

Zhiqiu Lin 氏は、CVPR、NeurIPS、ICML、ECCV などのトップカンファレンスで 10 本以上の論文を発表し、Best Paper Nomination や Best Short Paper Award などの賞を受賞しています。

△林志秋

デヴァ・ラマナン教授はコンピュータービジョンの分野で国際的に有名な学者であり、現在はカーネギーメロン大学の教授です。

△デヴァ・ラマナン教授

彼の研究はコンピュータービジョン、機械学習、人工知能に及び、2009年のデイビッド・マー賞、2010年のPASCAL VOC生涯功労賞、2012年のIEEE PAMI若手研究者賞、2012年のポピュラーサイエンス誌の「傑出した10人の科学者」の1人に選出、2013年に米国科学アカデミーのカブリフェローに選出、2018年と2024年のロンゲ・ヒギンズ賞、COCOデータセットなどの代表的研究に対するコーエンダーリンク賞など、数々のトップクラスの学術賞を受賞しています。

さらに、彼の論文はCVPR、ECCV、ICCVにおいて数々の優秀論文賞や佳作にノミネートされています。彼の研究は、視覚認識、自動運転、ヒューマンコンピュータインタラクションといった応用分野に大きな影響を与えており、この分野で最も影響力のある科学者の一人となっています。

CVPR'24 論文リンク:
https://arxiv.org/abs/2309.05950

論文コード:
https://github.com/shihongl19...

プロジェクトのウェブサイト:
https://llm-can-optimize-vlm....

618ZXW

パラメータアクセスは不要！CMUは大規模モデルを用いて視覚言語キューを自動最適化 | CVPR'24

どうやってそれをやったんですか？

実験結果

テキストグラフ作成タスクへの応用

チーム紹介

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ