618ZXW

自己矛盾する予言:大規模モデルはそれを検出できるか?上海交通大学の最新研究がその謎を解明する。

上海交通大学の王徳全教授の研究グループは、最新の研究で次のような疑問を提起した。

次のような場面を想像してみてください。幼稚園児がトラの絵を持って、「この子猫はかわいいですね。メス猫ですか?」と尋ねたら、あなたはどう答えますか?

直接「はい」または「いいえ」と答えるのではなく、まず質問の矛盾点を指摘します。つまり、写真は猫ではなくトラです

しかし、大規模モデルがどのように対処するかについての体系的な研究はほとんど行われていません。

「命令の衝突」を検出できないAIモデルは、「答えるべきではない質問」に対して結果を生成することを理解することが重要です。生成された結果が衝突のどちら側に傾くかに関わらず、AIのセキュリティとスーパーアライメントに影響を及ぼす潜在的な災害につながる可能性があります。

この最新の研究では、研究チームはマルチモーダルベンチマーク矛盾した命令セット)を提案し、 AutoCreateと呼ばれる革新的な自動データセット作成フレームワークを設計しました。

研究チームは、マルチモーダルな大規模モデルでは矛盾したユーザーコマンドの検出が著しく不足していることを発見し、外界から認知能力を注入して矛盾を検出する能力を向上させる認知覚醒キューイング(CAP)法を提案した。

この論文は、今年 10 月に開催される第 18 回ヨーロッパコンピュータ ビジョン会議 (ECCV) で発表される予定です。

大規模なモデルは競合するコマンドを検出できますか?

現在、マルチモーダル大規模モデルは科学研究と応用において大きな進歩を遂げています。テキストや画像を含む様々なデータタイプを処理でき、人間の認知能力に匹敵する能力を発揮しています。

研究チームは、これらのモデルの成功は広範囲にわたる研究開発の成果によるものであり、それによってロボットは人間の指示に忠実に従い、「従順」なまでに近づくことができると考えている。

さらに、これらのモデルは長いコンテキストの処理に優れています。Claude 3やGemini 1.5 Proといったマルチモーダルな大規模モデルは、強力な機能を発揮しています。Claude 3シリーズのモデルは20万トークンのコンテキストウィンドウを提供しますが、Gemini 1.5 Proの標準コンテキストウィンドウサイズは128Kです。プライベートプレビュー段階では100万トークンに達することさえ可能です。

これらの進歩により、マルチモーダルな大規模モデルは複雑なタスクの処理に優れ、長時間のインタラクションに対する人間のニーズを満たすことができるようになりました。

しかし、マルチモーダルインタラクションの深化とコンテキスト長の増加に伴い、矛盾するユーザー指示の問題がますます顕著になってきました。

下の図に示すように、ユーザー(子供や言語初心者など)がこれらのモデルを使用する場合、潜在的なマルチモーダル競合に気付かないことがよくあります。

一方、対話回数が増えてコンテキスト ウィンドウが拡大すると、ユーザーはすべての詳細を覚えるのが難しくなり、コマンド間に矛盾が生じます。

さらに、モダリティの数が増えると、モダリティ間の矛盾が発生する可能性があります。これらのモデルが自己認識能力と矛盾を区別する能力を欠くと、パフォーマンスに影響が出ます。

これらの課題に対処するため、私たちの研究チームは、大規模なマルチモーダル モデルが矛盾する命令を検出する能力を評価するための「自己矛盾命令」(SCI) と呼ばれるマルチモーダル ベンチマークを提案しています。

SCI には、言語間パラダイム視覚言語パラダイム全体に均等に分散された20,000 の競合指示8 つのタスクが含まれています。

図の上部では、言語間のパラダイムに、設計ルールの競合、オブジェクト属性の競合、排他的命令、禁止語などのコンテキストと命令間の競合が関係しています。

図の下部:視覚言語パラダイムは、OCRテキスト認識の競合、グラフィックの競合、幾何学的競合、意味的競合など、マルチモーダルな競合を包含しています。8つのタスクのうち、他のデータセット(ImageNet)に関係するのは意味的競合のみです。

具体的な例を挙げると、意味的衝突を構築する際、研究者はまず画像に基づいて対応するテキストを生成し、次にテキスト内の主要な意味情報を類似しているが異なる新しい意味に置き換えます。

ダチョウが写っている以下の画像では、作者は画像の「ダチョウ」の意味について「この写真はダチョウの大きさを表しているか?」という疑問を加えています。

次に、問題文中のキーとなる意味語「ダチョウ」を「キウイ」に置き換えます。このようにして、矛盾するマルチモーダル指示のペアが構築されます。

SCI の構築を通じて、著者らは革新的な自動データセット作成フレームワークであるAutoCreate を設計しました。

プログラムと大規模言語モデルを用いてマルチモーダルループを構築します。このフレームワークは、プログラムと大規模言語モデルを活用してデータセットの作成を自動化します。

AutoCreateは、タスク関連のシードデータセットから開始し、シードプールを維持します。各サイクルにおいて、AutoCreateは言語ブランチ(左)とビジョンブランチ(右)の2つのブランチで構成されます。各ブランチは、ジェネレータとモディファイアで構成されています。

最後に、クリーナーは基準を満たさないデータを削除します。このデータは、人間の専門家による品質チェックを受けた後、シードプールにフィードバックされ、次のラウンドで使用されます。

AutoCreate により、SCI データセット構築の速度と範囲が大幅に向上します。

矛盾を検出する能力を向上させるにはどうすればよいでしょうか?

研究者らは SCI データセットを使用して、矛盾する指示を処理する大規模モデルのパフォーマンスを総合的に評価しました。

実験結果によれば、現在の大規模モデルは矛盾する指示に直面したときに、特定の欠点を示すことが多いことが示されています。

彼らは情報や知識を処理する能力はあるが、指示の合理性を評価する能力、つまり研究チームが「認知」能力と呼ぶ能力が欠けている

この欠陥は、自己認識の欠如と指示の矛盾を認識できないことから生じます。

そこで研究者らは、「認知覚醒プロンプト」(CAP)と呼ばれる、挿入ベースのシンプルなキューイング法を提案しました。

CAPT は、入力に簡単なプロンプトを追加することで、外部世界からの認知能力を注入し、基本的に悪影響を与えることなく、大規模モデルの矛盾検出能力を向上させることができます。

この発見は、現在のマルチモーダルな大規模モデルでは、複雑なコマンド競合をより適切に処理するために、より高い自己認識と認知能力が必要であることを示唆しています。

詳細については、興味のある読者は原文論文を参照してください。

著者について

論文の第一著者は上海交通大学の博士課程学生であるGao Jin 氏です。

彼の研究対象には、コンピューター ビジョン、マルチモーダル大規模モデル、人工知能を活用した生命科学などがあります。

本論文の責任著者は、上海交通大学の終身在職権を持つ助教授であり、博士課程の指導者でもある王徳全氏です。王氏は復旦大学で学士号を取得し、カリフォルニア大学バークレー校でトレバー・ダレル教授の指導の下、博士号を取得しました。

彼の研究は、CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROSといったトップクラスの国際会議で発表されています。彼の論文は過去5年間でGoogle Scholarで1万回以上引用されており、H指数は20です。

論文リンク: https://arxiv.org/abs/2408.01091 プロジェクトリンク: https://selfcontradiction.git...

- 以上-

Toutiaoの子会社であるQbitAIは、量子ビット技術の契約プラットフォームです。

最先端技術に関する最新ニュースを入手するには、ぜひフォローしてください。