618ZXW

大規模モデルのセキュリティに影響を与えるものは何でしょうか?NeurIPS'24 の新しい研究では、大規模モデルの脱獄攻撃に対する新しいベンチマークと評価システムが提案されています。

大規模言語モデルを使用した脱獄攻撃のまったく新しいベンチマークと評価システムが導入されました。

香港科技大学(広州)の研究チームは、USAIL を使用して、攻撃者と防御者の観点から大規模モデルのセキュリティに影響を与える要因を調査しました。

体系的な攻撃分析フレームワークである JailTrackBenchが提案されています。

JailTrackBench の調査では、攻撃者の能力、予算、敵対的サフィックスの長さ、モデルのサイズ、セキュリティの調整、システムのヒント、テンプレートの種類など、さまざまな攻撃構成が LLM パフォーマンスに与える影響を分析することに重点を置いています。

彼らの研究成果「Bag of Tricks: LLM に対する脱獄攻撃のベンチマーク」は、NeurIPS D&B 2024 に採択されました。

さらに、大規模言語モデルのジェイルブレイク問題を包括的に解決するために、USAIL チームは攻撃に焦点を当てるだけでなく、ジェイルブレイク評価の核心的な問題も調査しました。

脱獄分析 JailTrackBench

近年、人工知能(AI)の急速な発展、特に大規模言語モデル(LLM)の広範な応用に伴い、これらのモデルのセキュリティを確保し、悪意のある利用を防ぐことが重要な課題となっています。悪意のあるコマンドによってモデルに有害または非倫理的なコンテンツを生成するように誘導するジェイルブレイク攻撃は、これらのモデルのセキュリティと信頼性に深刻な課題をもたらします。

この攻撃と防御の相互作用により、大規模モデルのセキュリティが大幅に向上しました。

このような背景から、香港科技大学(広州)の USAIL 研究チームは、攻撃者と防御者の観点から大規模モデルのセキュリティに影響を与える主な要因を調査しました。

既存の研究では、さまざまな脱獄攻撃の脅威が明らかになっていますが、現在の評価方法は一方的すぎることが多く、攻撃と防御の両方の中核要素を完全にカバーすることはできません。

これに対処するため、研究チームは、脱獄攻撃のあらゆる側面を網羅した包括的なベンチマーク フレームワークである JailTrackBench を提案しました。これは、研究者に標準化された包括的な評価ツールを提供するように設計されています。

△図1 JailTrackBenchのフレームワーク

チームは、7 つの代表的な脱獄攻撃と 6 つの防御方法を対象に、50,000 時間の GPU を使用した 320 回の実験を通じて、これらの攻撃方法の有効性を標準化された方法で評価しました。

対象モデルレベル

モデルサイズ:

実験では(図2に示すように)、異なるサイズのモデル(Llama-7B、Llama-13B、Llama-70B、Qwen1.5-14Bなど)を比較対象として選択し、モデルのサイズが脱獄攻撃に対する防御能力に大きな影響を与えるかどうかを調査しました。

実験結果によれば、モデルの堅牢性はそのサイズに比例するものではなく、大きいモデルが必ずしも小さいモデルよりも防御力が高いとは限りません。

△図2 モデルサイズと堅牢性の関係

安全アライメント:

モデルの安全機能は、その後の大規模なモデルの微調整によって影響を受けます。

実験では、(図 3 に示すように)ドメイン クラスを微調整すると大規模モデルのセキュリティが低下し、微調整されていないモデルに比べて攻撃に対して脆弱になることが示されています。

△図3. 安全性の整合とモデルの堅牢性

システムプロンプト:

実験(図4参照)では、システムプロンプト(セキュリティヒントを含むシステムメッセージなど)がモデルのセキュリティに与える影響も評価しました。その結果、セキュリティヒントを含むシステムメッセージはモデルのセキュリティを大幅に強化し、攻撃の成功率を低下させることが示されました。

△図4 システムプロンプトとモデルの種類

テンプレートタイプ:

実験(図5参照)では、異なるプロンプトテンプレート(ゼロショットプロンプトやデフォルトプロンプトなど)が脱獄攻撃の成功率に与える影響をテストしました。結果は、デフォルトプロンプトを使用したモデルの方が、ゼロショットプロンプトを使用したモデルよりも安全であることが示されました。

△図5 テンプレートの種類とモデルの堅牢性

攻撃者レベル

攻撃者の能力:

攻撃者(図6参照)は、GPT-3.5、GPT-4、Vicuna-13Bなど、様々なモデルを用いて敵対的なプロンプトを生成しました。この実験では、攻撃者のモデル能力の違いが脱獄攻撃の成功率に与える影響を評価しました。結果は、攻撃者のモデルが強力であるほど、脱獄攻撃の成功率が高くなることを示しています。

△図6 攻撃者の能力と攻撃効果

敵対的サフィックスの長さ:

トークンレベルの脱獄攻撃において、図7に示す実験では、敵対的サフィックスの長さ(例:10、20、30など)を調整した場合の攻撃成功率への影響を評価しました。その結果、敵対的サフィックスが長くなると攻撃成功率は概ね向上しましたが、一定の長さを超えると効果は頭打ちになることが示されました。

△図7. 敵対的接尾辞の長さと攻撃効果

攻撃者の予算:

実験(図8および図9参照)では、攻撃者が送信できるクエリ数が攻撃の有効性に与える影響を調査しました。実験の結果、トークンレベルの攻撃では攻撃予算が大きいほど成功率が高くなる一方、ヒントレベルの攻撃では攻撃予算の影響は比較的限定的であることが示されました。

△図8 コマンドレベル攻撃の予算

△図9 チップレベル攻撃の予算

攻撃意図

この実験(図10参照)では、様々な攻撃意図(プライバシー侵害やマルウェアなど)を設定し、それらが攻撃成功率に与える影響を評価しました。その結果、攻撃意図の違いが攻撃成功率に大きく影響することが示されました。ある攻撃意図(経済的損害など)は成功率が高く、他の攻撃意図(プライバシー侵害など)は達成が困難であることが分かりました。

△図10 攻撃者の意図

調査では、攻撃者や標的モデルなど、いくつかの微妙な設定(表1参照)を少し調整するだけで、大規模な脱獄攻撃の成功率が0%から驚異的な90%(図11参照)まで急上昇する可能性があることがわかりました。これらの設定は、標的モデルのサイズ、セキュリティの整合性、システムヒントの利用、攻撃者の能力と攻撃予算など、いくつかの重要な要素を網羅しています。

△表1:弱いスキルから強いスキルまで、様々なスキルの組み合わせの構成

△図11 脱獄攻撃の成功率に対する異なる技術の組み合わせの大きな影響

脱獄評価 JAILJUDGE

脱獄の評価は、モデルの出力の有害性を分析することに依存しており、これは複雑で不確実な作業です(図12参照)。そのため、研究者や開発者がモデルの脆弱性をより深く理解し、防御を継続的に最適化できるよう支援する体系的な評価手法が緊急に必要とされています。

JAILJUDGE はこのような背景から誕生しました。

JAILJUDGE は、USAIL チーム、Baidu 検索チーム、バーミンガム大学が共同で開発し、特に複雑なシナリオでの課題への対処において、既存の脱獄評価ツールの欠点を解決することを目的としています。

この評価フレームワークは、敵対的な脱獄クエリ、現実世界でのインタラクション、多言語環境など、幅広いリスクシナリオをカバーしています。JAILJUDGEの核となるイノベーションは、マルチエージェント脱獄評価フレームワークの導入です。裁判例に着想を得たこのフレームワークは、複数のエージェントの連携を通して脱獄判定プロセスを明確化し、解説します。

各エージェント(判断エージェント、投票エージェント、推論エージェントなど)は明確な役割分担があり、連携することで正確な評価結果を導き出し、説明理由を提供します。

△図12:ジェイルブレイク評価:ユーザーの質問とモデル回答を入力して、大規模モデルがジェイルブレイクされているかどうかを判断します。

評価の効率をさらに向上させるために、USAIL チームは、API 呼び出しなしできめ細かな脱獄スコア (1 ~ 10 の範囲) と推論の説明を提供するエンドツーエンドの脱獄評価モデルであるJAILJUDGE Guardを開発しました。

JAILJUDGE Guard は、評価精度において既存のトップ層モデル (GPT-4 や Llama-Guard など) を上回るだけでなく、クローズドソースとオープンソースの両方のセキュリティ モデルで強力な評価機能を発揮し、より高い効率と低コストを実現します。

さらに、チームは脱獄攻撃と防御能力を強化するために、 JailBoostとGuardShieldという2つのツールをリリースしました。実験の結果、JailBoostはゼロサンプル設定で攻撃成功率を約29.24%向上させたのに対し、GuardShieldは防御後の攻撃成功率を40.46%から0.15%へと大幅に低下させることが示されました。

今後、チームは JAILJUDGE の機能とアプリケーション シナリオをさらに拡張する予定です。

  • 動的シナリオテスト:データセットを拡張して、より動的でリアルタイムの脱獄攻撃シナリオを追加し、実際のアプリケーションの複雑な環境をシミュレートして、評価の代表性を向上させます。
  • 業界横断的なアプリケーション: JAILJUDGE を医療や金融などの重要な業界に適用して、これらの分野の LLM のセキュリティを評価し、確保します。
  • マルチモーダル拡張: テキスト、画像、音声などのさまざまなデータ タイプを組み合わせて、マルチモーダル環境における LLM のセキュリティ パフォーマンスを総合的に評価し、マルチモーダル データの脱獄評価を検討します。
  • 協調防御メカニズム: マルチエージェントベースの協調防御メカニズムを開発し、モデルが複雑な攻撃に対して適応的に防御できるようにすることで、全体的なセキュリティをさらに向上させます。

プロジェクトウェブサイト: https://secure-intelligence.g... チームリンク: https://github.com/usail-hkust

JailTrackBench 論文: https://arxiv.org/pdf/2406.09324 コード: https://github.com/usail-hkus...\_of\_Tricks\_for\_LLM\_Jailbreaking JAILJUDGE 論文: https://arxiv.org/abs/2410.12855 プロジェクト ホームページ: https://usail-hkust.github.io... コード: https://github.com/usail-hkus... データセット: https://huggingface.co/usail-... エンドツーエンドの脱獄評価モデル: https://huggingface.co/usail-...