パフォーマンスを犠牲にすることなく、視覚言語モデルのセキュリティを向上！包括的な技術解説

モデルの安全性と信頼性、システムの統合と相互運用性、ユーザーとのやり取りと認証...

「マルチモーダル」と「クロスモーダル」が止められない AI のトレンドになるにつれ、マルチモーダルシナリオにおけるセキュリティ上の課題は、産業界、学界、研究機関から特に注目を集めるはずです。

これらの課題に対処するため、Taotian Group の Future Living Lab チームは、南京大学、重慶大学、香港中文大学の MMLab と共同で、まったく新しい視覚言語モデル (VLM) 安全性調整方法であるPSA-VLM (Progressive Safety Alignment for Vision-Language Models) を提案しました。

PSA-VLM は、革新的なコンセプトボトルネックモデル(CBM) アーキテクチャにより、回答を生成する際にモデルの中間コンセプト予測に介入することが可能となり、大規模モデルの最終的な応答が最適化され、視覚的安全性リスクへの対応における VLM のパフォーマンスが大幅に向上します。

このアプローチは、セキュリティの面で優れたパフォーマンスを実現するだけでなく、モデルの一般的なタスク機能も維持します。

見てみましょう。

視覚言語モデルのセキュリティ上の懸念：「ブラックボックス」から「制御可能」へ

近年、大規模言語モデル (LLM) の開発によりマルチモーダル学習の進歩が促進され、これらの強力な言語モデルで複数のモダリティからの情報を処理できるようになりました。

中でも、視覚言語モデル (VLM) は、画像とテキストの機能を統合することで、視覚的な質問応答、画像の説明、マルチモーダル推論などのタスクで顕著な成果を上げています。

しかし、VLM によって多くの進歩が遂げられたにもかかわらず、重大なセキュリティ上の欠陥が依然として存在しています。

研究により、視覚モダリティは攻撃に対して特に脆弱であり、VLM の視覚モダリティに対する攻撃は成功する可能性が高いことが判明しています。つまり、単純な攻撃方法で言語モデルベースの既存のセキュリティ調整メカニズムを回避し、有害なコンテンツを生成できるのです。

この問題はモデルの社会的な応用に深刻な脅威をもたらし、早急に効果的な解決策が必要です。

△ リスクと誤解を招くデータの例

いくつかの研究ではマルチモーダルモデルの防御と調整対策が検討されていますが、既存の防御方法は通常、直感的な設計に基づいており、データ駆動型のエンドツーエンドのトレーニングを通じて実装されています。

モデルは人間が理解し制御するのが難しいブラックボックスのままです。

さらに、モデルの複雑さが増すと、潜在的な内部欠陥を発見できるという懸念も生じ、その結果、モデルが解釈可能かつ制御可能であることが必要になります。

これらの限界を克服するために、PSA-VLMの革新は、概念ボトルネックモデルの核となるアイデアを導入することにあります。

解釈可能な高次概念のレイヤーを介して入力と出力を接続することにより、モデルは透明性と制御性を実現します。

これにより、モデルは安全でないコンテンツを正確に識別できるだけでなく、ユーザーが概念レベルでモデルの予測に介入することも可能になり、高リスクのシナリオに対して柔軟で信頼性の高いソリューションを提供できます。

PSA-VLM設計のハイライト：概念的なボトルネックに基づくセキュリティイノベーション

VLM では、安全な調整とは通常、モデルがマルチモーダル入力、特に機密コンテンツを含む可能性のある視覚入力に対して制御された適切な応答を生成することを保証することを意味します。

VLM は視覚的モダリティに特定の脆弱性を抱えており、有害または不適切なコンテンツが従来の言語ベースのセキュリティメカニズムを回避してしまう可能性があります。

この問題に対処するために、研究チームは、CBM フレームワークに基づいた漸進的なセキュアアライメントメソッドである PSA-VLM を提案しました。

このアプローチは、制御可能な概念的なボトルネックを導入してセキュリティ上重要な機能を分離し、階層化された概念主導型アーキテクチャを通じてVLM のセキュリティを強化します。

コンセプトボトルネックモデルに基づくコアアーキテクチャ

PSA-VLM のコア設計は、コンセプトのボトルネックを中心に展開されます。

これには、モデルの透明性と制御性を実現するために、視覚入力とモデル出力の間に高次のセキュリティコンセプトレイヤーを導入することが含まれます。

明示的なコンセプトの安全性ヘッド: 画像とテキスト情報の相互注意を使用することで、視覚的な特徴が特定の安全性タイプ (NSFW など) とリスクレベル (高、中、低) にマッピングされ、洗練された安全性予測が提供されます。
暗黙的概念安全トークン：これらは視覚入力に直接埋め込まれた追加のトレーニングトークンであり、暗黙的なリスクシグナルに対するモデルの感度を高めます。これらのトレーニング可能なトークンは、安全でない視覚入力を通知し、モデルの注意を概念固有の指標に合わせます。これらは、意味的に理解できない暗黙的な概念として理解できます。

マルチモーダル協調セキュリティモジュール

それは次の2つの部分に分かれています。

安全プロジェクター: イメージエンコーダーに続いて、安全関連の視覚的特徴を抽出し、それを安全に適合した表現に変換することに重点を置いています。
テキストとビジュアルの整合メカニズム: テキスト入力 (テキスト) とセキュリティ機能を組み合わせることで、共同条件を通じて安全プロンプト (安全なテキスト) が生成され、高リスクのシナリオで安全応答を出力するようにモデルを動的にガイドします。

2段階のトレーニング戦略

最初の段階はセキュリティ機能の抽出です。

大規模言語モデルとビジュアルエンコーダーは固定され、概念レベルのリスク識別と機能の調整に重点を置いた安全モジュールのみがトレーニングされます。

最初の段階では、セキュアプロジェクター、トークン、ヘッダーを通じてセキュリティコンセプトを抽出し、調整することに重点が置かれます。

これらのコンポーネントは、視覚的な入力からセキュリティ調整機能を分類および抽出することを学習し、危険なコンテンツに対するモデルの応答が一貫していることを保証します。

2 番目の段階では、モデルを微調整します。

大規模言語モデルを解凍し、セキュリティモジュールを言語モデルと深く統合することで、セキュリティ概念の特徴を完全に吸収し、クロスモーダル入力のセキュリティパフォーマンスをさらに向上させます。

推論フェーズ中の動的セキュリティ制御

推論プロセス中、PSA-VLM はセキュリティヘッドの出力を使用して視覚コンテンツに動的に介入し、結合条件付き確率を通じて生成されたテキストを調整して、高リスクコンテンツに対する安全な応答を確保します。

たとえば、不適切な入力リスクに遭遇した場合、実行可能なオプションを提供することで、下流のユーザーは推論中に必要に応じて選択を行うことができ、より柔軟なセキュリティ管理を実現できます。

△モデルアーキテクチャの概略図

上記のモジュールを通じて、PSA-VLM は安全でないコンテンツを扱う際の視覚言語モデルのパフォーマンスを向上させるだけでなく、モデルの解釈可能性と制御性を大幅に強化し、マルチモーダルシステムの安全な調整のための新しいパラダイムを設定します。

セキュリティを強化しながら、効率的なセキュリティモジュールと調整されたトレーニング戦略を設計することで、標準タスクにおけるモデルのパフォーマンスが大きな影響を受けないようにし、セキュリティと汎用性のバランスを実現します。

パフォーマンスは、安全性と一般的なアプリケーションの両方の観点から評価されました。

現実世界のシナリオでは、有害なデータは多様かつ複雑であり、単一のソース、タイプ、またはモダリティに限定されません。

この問題に対処するため、研究者らは複数のデータセットを収集し、リスク画像を手動で 6 つのタイプと 3 つのレベルに分類して、リスク管理の分類と等級分けを実現しました。

さらに、サンプリングを通じて、約 11,000 組のリスクの高い画像とテキストのクエリを含む、比較的バランスの取れたデータセットが構築されました。

微調整中の全体的なパフォーマンスの低下を回避するために、LLaVA および COCO データセットの一部がクリーンかつ安全なサンプルとして含まれていることに注意してください。

△研修・評価データの出典

具体的には、PSA-VLM チームは、次の 2 つの側面から VLM のパフォーマンスを評価しました。

安全性能
一般的なドメインパフォーマンス

公平な比較を確実にするために、研究者はまず、RTVLM ベンチマークと GPT-4 スコアリングベースのアプローチを使用してモデルを評価しました。

RTVLM データセットは限られており、機密データが含まれていないため、研究者は追加のリスクデータセットを追加して評価の範囲を拡大し、さらに GPT-4 と人間の専門家による主観的な評価を組み合わせて、包括的で信頼性の高い評価を提供しました。

一般的なシナリオでモデルのパフォーマンスを評価する際に、チームは MMBench、SEEDBench、MME などの複数のベンチマークを使用しました。

まずは安全性能を見てみましょう。

チームはまず、RTVLM ベンチマークを使用して、4 つの異なるカテゴリを含む VLM のさまざまな次元で GPT-4 スコアリング分析を実行し、モデルのセキュリティ機能に対する理解を深めました。

△RTVLMベンチマークにおける安全性能評価結果

上の図に示すように、チームは GPT-4V と PSA-VLM に加えて、いくつかのオープンソース VLM を評価しました。

結果は、GPT-4V がさまざまなカテゴリ、特に CAPTCHA や脱獄シナリオなどのセキュリティ領域で優れたパフォーマンスを発揮し、InternLM-XComposer2 が複数のメトリックで優れたパフォーマンスを発揮していることを示しています。

アライメント後、LLoVA ベースの PSA-VLM も優れたパフォーマンスを示し、特に LoRA を使用して LLM を解凍したときには政治 (8.36) と人種 (8.43) で最高のスコアを達成しました。

平均スコアでは、PSA-VLM-7B (+LoRA) が 8.26 というトップスコアで際立っており、解凍されていない LLM を使用した PSA-VLM が 8.18 というスコアでそれに続いています。

注目すべきは、13B モデルが LoRA を使用して 8.46 という最高の平均スコアを達成したことです。

PSA-VLM のセキュリティスコアが他の VLM と比較して向上していることは、追加のセキュリティモジュールと 2 段階のセキュリティ調整戦略の有効性を強調しています。

ただし、RTVLM データセットには、NSFW などの他の高リスクの機密データは含まれていません。

そこで研究チームは、PSA-VLM のセキュリティパフォーマンスを評価するために、他のリスクデータセットで実験を実施しました。

下の図に示すように、PSA-VLM-13B は有害な政治 (9.49)、NSFW コンテンツ (8.72)、ネットいじめの検出 (7.45) で最高のパフォーマンスを達成し、それぞれ 6.67、1.11、6.16 のスコアを獲得したベースラインモデル LLaVA-v1.5-13B を大幅に上回りました。

LoRA を使用して解凍された PSA-VLM-7B は、一部のタスク (例: 8.91 および 6.82) でわずかに低いスコアを記録しましたが、それでも LLaVA-v1.5-7B を大幅に上回るパフォーマンスを示しました。

△ その他のリスクデータセットにおけるセキュリティパフォーマンス評価結果

次に、一般領域でのパフォーマンスを見てみましょう。

PSA-VLM では、一般的なパフォーマンスを犠牲にしてセキュリティパフォーマンスの向上が達成されるわけではありません。

強化されたセキュリティ対策にもかかわらず、PSA-VLM-7B は MMBench、SEEDBench、MME などの一般的なベンチマークにおいて競争力を維持しています。

下の図に示すように、PSA-VLM-7B は MMBench および SEEDBench ベンチマークで改善を示し、それぞれ 68.5 と 65.3 のスコアを達成し、全体的なパフォーマンスが向上していることを示しています。

△ 一般的なマルチモーダルパフォーマンステストのベンチマーク結果

さらに、マルチモーダルベンチマークの評価では、PSA-VLM-7B は複数の潜在的に危険な画像に対する応答を効果的に識別して拒否し、潜在的に危険なコンテンツに対する高い感度を実証し、PSA-VLM セキュリティ調整方法の有効性を強調しました。

安全でないと判断された画像は除外されるため、研究プロセスでは完全にクリーンなデータを使用して全体的なパフォーマンスを評価できます。

安全でないコンテンツに対応するこの機能は、全体的なパフォーマンス機能を損なうことなく、PSA-VLM-7B の信頼性の高いセキュリティパフォーマンスを反映しています。

最後に、研究チームはさらなる実験を行った。

図 (a) に示すように、t-SNE 可視化は、2 次元空間における安全でない画像特徴の分離を示しています。

各サブグラフは、特徴セットとラベルの異なる組み合わせに対応し、元の特徴と安全な特徴の違いを示します。

セキュリティプロジェクターを使用した後、安全でない画像の特徴は異なるクラスターに大きく分割され、抽出された特徴とセキュリティラベルの相関性が高く、入力のリスク情報が効果的に学習されたことが示されました。

△図(a) セキュリティ機能のt-SNE可視化

図3(b)に示すように、研究チームは、情報ボトルネック層におけるセキュリティレベルとセキュリティタイプの分類性能（精度とF1スコアを含む）もテストしました。

これらのスコアのほとんどは 90% を超えており、モデルがセキュリティ情報を抽出するタスクを効果的に完了できることを示しています。

△図（b）セキュリティレベルとセキュリティタイプの分類実績

整列された出力の例を次の図に示します。

要約すると、主流の VLM セキュリティベンチマークのテストでは、PSA-VLM が既存の VLM のセキュリティメトリックを複数の側面で改善し、特定のタスクで優れたパフォーマンスを発揮することが示されています。

たとえば、LLaVA-1.5 7B ベースでは、1 ステージのアライメントに 4*A100 と 1 時間のコンピューティングリソースしか使用しない場合でも、RTVLM ベンチマークスコアを 6.39 から 8.18 に向上できます。

同時に、その概念的なボトルネックアーキテクチャにより、モデルの解釈可能性と制御性が大幅に向上し、医療や教育などの高リスク分野に最適な選択肢となります。

PSA-VLMの成功は、社会的な価値も大きく高めます。例えば、安全でないコンテンツをリアルタイムで監視・介入することで、モデルが悪意ある利用に晒されるリスクを軽減します。透明性とセキュリティの向上は、AIシステムに対するユーザーの信頼を高め、社会的な場面におけるマルチモーダルモデルの幅広い応用を促進します。

PSA-VLM の提案は、マルチモーダルモデルの信頼性と制御可能性に対する新しいベンチマークを設定することを目指しています。

より多くのデータセットの改善とモデルアーキテクチャの最適化により、概念ベースの安全なアライメント戦略がより幅広い分野に適用され、マルチモーダルな大規模モデルの社会的価値の向上につながることが期待されます。

もう一つ

PSA-VLM プロジェクトの中心著者には、Liu Zhendong、Nie Yuanbi、Tan Yingshui、Yue Xiangyu、Cui Qiushi が含まれます。

チームのメンバーのうち 4 人は、Taotian Group のアルゴリズムテクノロジー - Future Lab チームのメンバーです。

当研究室は、大規模モデルやマルチモーダルモデルなどの AI 技術に焦点を当て、大規模モデルに関連する基本アルゴリズム、モデル機能、およびさまざまな AI ネイティブアプリケーションの開発に取り組んでいます。

チームは、大規模言語モデルとマルチモーダル大規模言語モデルのアライメントの分野で研究を継続していきます。ご質問、ご提案、または協力の意向がございましたら、お気軽にメールでお問い合わせください。

電子メールアドレス：
mailto:tanyingshui.tys@taabao... 紙のリンク:
プロジェクトのホームページ: https://arxiv.org/pdf/2411.11543
https://github.com/Yingshui-T...

618ZXW

パフォーマンスを犠牲にすることなく、視覚言語モデルのセキュリティを向上！包括的な技術解説 | 南京大学と重慶大学共同制作、Taotian MMLab