618ZXW

OpenAI の新しい調査では、o1 での推論時間を長くすることで攻撃を防止できることが示唆されています。ネットユーザーは、DeepSeek にもメリットがある可能性があるとコメントしています。

OpenAI の新しいスケーリング法則はさらに価値が高まりました。

O1 のような推論モデルは、思考時間が長くなるにつれて敵対的攻撃に対してより堅牢になります

大規模言語モデルに現実世界のタスクを実行するエージェント機能がますます備わるようになるにつれて、これらのモデルに対する敵対的攻撃のリスクも増加しています

公式 OpenAI エージェント「Operator」がリリースされようとしている今、この研究を公開することは、外部の世界を安心させるための試みなのでしょうか?

しかし、現在主流となっている「敵対的トレーニング」防御方法には、いくつかの欠点があります。

  • 事前の知識に頼るには、相手の攻撃方法を理解する必要があります。
  • 「安全税」を支払うには、堅牢性とモデル機能の間でトレードオフが必要です。

OpenAI の実験により、敵対的トレーニングを行わなくても、推論時間の計算を増やすだけでモデルの敵対的堅牢性を大幅に向上できることが実証されました。この事実は複数のタスクで検証されています。

この新しい研究には、残りの共著者の一人であるWojciech Zaremba 氏が共同第一著者として含まれています。

もう一人の共著者であるボアズ・バラク氏は、「堅牢性との闘いの問題はまだ『解決』されていないが、私たちが向かっている方向には興奮している」と語った。

推論モデルに対する新たな攻防戦

推論モデルの特性に対処するために、研究チームは実験でいくつかの「攻撃対象領域」を調査しました。

  • 多ショット攻撃: 攻撃者はプロンプトで多数のコンテキスト例を提供し、攻撃リソースの量は提供されたトークンの数によって測定されます。
  • ソフトトークン攻撃:攻撃者は埋め込みベクトルを直接操作し、勾配降下法を用いてトークンを最適化することで、敵対的な目的を達成することができます。これは強力ですが、実用的ではないホワイトボックス攻撃です。
  • 思考抑制攻撃: この新しいタイプの攻撃は、推論中のモデルの計算コストを削減し、それによって間違いを起こす可能性を高めることを目的としています。
  • オタク狙い: モデルが不必要な「検討」に巻き込まれ、無意味なことに計算能力を浪費すると、攻撃に対してより脆弱になります。
  • 人間/AI レッド チーム攻撃: 専門家または AI のレッド チームが、人間とコンピューターの相互作用を通じて、潜在的なプロンプト インジェクションの脆弱性を対象とする調査を実施します。
  • マルチモーダル入力敵対的攻撃: 画像分類タスクに特定の敵対的画像データセットを使用する攻撃。

ほとんどの実験では、推論中の計算が増加するにつれて、攻撃に抵抗するモデルの成功率が増加しました。

以下にいくつかの例を挙げます。

以下のグラフでは、Y軸は攻撃者のリソース量、X軸は推論時間の計算コストを表しています。攻撃者のリソースが増加すると、攻撃成功の確率も高まります。

ただし、攻撃者のリソース数が固定されている場合、モデルが推論中に多くの計算を費やすため、成功の確率は低下します。

数学の問題に対する多ショット攻撃では、攻撃者の目標には、状況に関係なくモデルに 42 を出力するように要求すること、正解 +1 を出力すること、または正解 x7 を出力することが含まれます。

しかし、推論計算能力が増加すると、攻撃の成功率は最終的に 0 に近づきます。

インテリジェントエージェントが Web ページを閲覧するタスクでは、Web サイトに悪意のあるコマンドを挿入し、推論中の計算を増やすことで、攻撃の成功率が 0 に減少します。

より強力な攻撃を受けた場合でも、推論時間を長くすることで防御能力を大幅に向上させることができます。

この論文では、いくつかの新しい攻撃方法についての追加分析を提供します。

O1-Mini に対しては無思慮な攻撃が最も効果的ですが、O1-Preview は適切な防御を提供します。

モデルが特定のインスタンスに対して異常に長い推論時間を費やすオタク・スナイピング攻撃は、成功率が高くなる可能性があり、モデルが非効率的な思考ループに陥る可能性があることを示唆しています。

しかしながら、研究者らは、現在の方法には次のような点で限界があるとも指摘している。

  • この研究は、限られた範囲のタスクと計算スケーリングのみを対象としており、計算負荷を増加させても、ポリシーの曖昧さや脆弱性を悪用する攻撃に対して効果がない可能性があります。
  • 「think less」攻撃と「nerd sniping」攻撃は、攻撃者がモデルに考えすぎたり考えなさすぎたりする可能性がある、推論中の計算の二重性も明らかにします。

もう一つ

大規模推論モデルの特性に関するこの研究に関して、一部の起業家は異なる視点から考察しています。

ということは、DeepSeek-R1 シリーズもこの恩恵を受けることができるということですね?

論文リンク: https://cdn.openai.com/papers..._1.pdf

参考リンク: [1] https://openai.com/index/trad... [2] https://x.com/boazbaraktcs/st...