|
OpenAI の新しいスケーリング法則はさらに価値が高まりました。 O1 のような推論モデルは、思考時間が長くなるにつれて敵対的攻撃に対してより堅牢になります。 大規模言語モデルに現実世界のタスクを実行するエージェント機能がますます備わるようになるにつれて、これらのモデルに対する敵対的攻撃のリスクも増加しています。 公式 OpenAI エージェント「Operator」がリリースされようとしている今、この研究を公開することは、外部の世界を安心させるための試みなのでしょうか? しかし、現在主流となっている「敵対的トレーニング」防御方法には、いくつかの欠点があります。
OpenAI の実験により、敵対的トレーニングを行わなくても、推論時間の計算を増やすだけでモデルの敵対的堅牢性を大幅に向上できることが実証されました。この事実は複数のタスクで検証されています。 この新しい研究には、残りの共著者の一人であるWojciech Zaremba 氏が共同第一著者として含まれています。 もう一人の共著者であるボアズ・バラク氏は、「堅牢性との闘いの問題はまだ『解決』されていないが、私たちが向かっている方向には興奮している」と語った。 推論モデルに対する新たな攻防戦推論モデルの特性に対処するために、研究チームは実験でいくつかの「攻撃対象領域」を調査しました。
ほとんどの実験では、推論中の計算が増加するにつれて、攻撃に抵抗するモデルの成功率が増加しました。 以下にいくつかの例を挙げます。 以下のグラフでは、Y軸は攻撃者のリソース量、X軸は推論時間の計算コストを表しています。攻撃者のリソースが増加すると、攻撃成功の確率も高まります。 ただし、攻撃者のリソース数が固定されている場合、モデルが推論中に多くの計算を費やすため、成功の確率は低下します。 数学の問題に対する多ショット攻撃では、攻撃者の目標には、状況に関係なくモデルに 42 を出力するように要求すること、正解 +1 を出力すること、または正解 x7 を出力することが含まれます。 しかし、推論計算能力が増加すると、攻撃の成功率は最終的に 0 に近づきます。 インテリジェントエージェントが Web ページを閲覧するタスクでは、Web サイトに悪意のあるコマンドを挿入し、推論中の計算を増やすことで、攻撃の成功率が 0 に減少します。 より強力な攻撃を受けた場合でも、推論時間を長くすることで防御能力を大幅に向上させることができます。 この論文では、いくつかの新しい攻撃方法についての追加分析を提供します。 O1-Mini に対しては無思慮な攻撃が最も効果的ですが、O1-Preview は適切な防御を提供します。 モデルが特定のインスタンスに対して異常に長い推論時間を費やすオタク・スナイピング攻撃は、成功率が高くなる可能性があり、モデルが非効率的な思考ループに陥る可能性があることを示唆しています。 しかしながら、研究者らは、現在の方法には次のような点で限界があるとも指摘している。
もう一つ大規模推論モデルの特性に関するこの研究に関して、一部の起業家は異なる視点から考察しています。 ということは、DeepSeek-R1 シリーズもこの恩恵を受けることができるということですね? 論文リンク: https://cdn.openai.com/papers..._1.pdf 参考リンク: [1] https://openai.com/index/trad... [2] https://x.com/boazbaraktcs/st... |
OpenAI の新しい調査では、o1 での推論時間を長くすることで攻撃を防止できることが示唆されています。ネットユーザーは、DeepSeek にもメリットがある可能性があるとコメントしています。
関連するおすすめ記事
-
コストを100分の1に削減!非営利団体E11 Bioの新たな研究結果により、数百万個の脳細胞間のつながりが明らかになりました。
-
Qualcomm 社が最も強力なスマートカー チップをリリース: インテリジェントなコックピット運転のための統合アーキテクチャ、標準的なエンドツーエンド構成、メルセデスベンツと Li Auto が最初に採用。
-
本日のライブストリーム:AIが法務業界の煩雑な作業を終わらせる | 文書作成のためのAIとの対話
-
彼女にキャラクターが誕生!AIとのビデオ通話はほぼ遅延なし。SequoiaとY Combinatorが投資。
-
深センで走るロボットが外国人を驚かせている。人間と見分けがつかないほどだ。ネットユーザーからは「北京マラソンで会いましょう!」といったコメントが寄せられた。
-
Baidu は新しい検索エンジン「文小眼」を発表し、検索、作成、チャットのシナリオに革命を起こしました。