618ZXW

量子化により、大規模なモデルは「記憶を回復」し、削除されたプライバシーと著作権コンテンツをすべて復元できます。

4 ビットの量子化により、既存の反学習/機械忘却技術が無効になる可能性があります。

言い換えれば、大規模モデルは人間の要求に応じて特定の知識(著作権、プライベートコンテンツなど)を忘れたと「ふり」しますが、それを再び「思い出させる」方法があります。

ペンシルベニア州立大学、ハーバード大学、アマゾンのチームによる最近の研究が、RedditやHacker Newsで白熱した議論を巻き起こしている。

彼らは、「健忘」のモデルを定量化することで、忘れられた知識を部分的に、あるいは完全に回復できることを発見した。

その理由は、量子化プロセス中にモデルパラメータがわずかに変更されると、量子化されたモデルの重みが元のモデルの重みと同じになる可能性があるためです。

この研究を見て多くのネットユーザーが驚きを表明した。

情報理論の観点から見ると、これはやや予想外のことです。32ビット全体から知識をうまく取り除いているように見えますが、4ビットに圧縮すると知識が再び現れます。

こうなると、圧縮/量子化のプロセス中にどのような情報が失われるのか疑問に思うでしょう。

おそらくこの知識は実際には失われたことはなく、単に隠されていただけなのかもしれません。

ニューラル ネットワークをコードと考えると、重みはソース コードとなり、微調整によってコードを効果的に変更して、特定の結果が返されないようにすることができます。

そのため、特定の出力にファイアウォールを設定しているだけかもしれません。しかし、量子化によってこれらの最近の編集内容が消えてしまう可能性があります。編集内容はあまりにも小さいため、保存できません。

チームがこの問題を軽減するための戦略を提案したことは注目に値します。

この戦略は、モジュール レベルで顕著性マップを構築し、忘れられたデータに最も関連性の高いモデルの部分のみを更新することで忘却プロセスをガイドし、それによってモデルの有用性を維持しながら、定量化後の知識回復のリスクを軽減します。

早速、詳細を見てみましょう。

記憶喪失モデルに再び記憶させる

大規模なモデルは、著作権やプライベートコンテンツなど、人間が学習中に保持したくない知識を意図せず学習してしまう可能性があります。この問題に対処するため、研究者らは以前、モデルを再学習させることなく特定の知識を除去することを目的とした「機械学習の反学習」という概念を提案しました。

既存の主流の反学習手法には、勾配上昇法(GA)と負の選好最適化法(NPO)という2つの主要なカテゴリーがあります。これらの手法は通常、小さな学習率を採用し、特定のコンテンツを忘却しながらモデル全体のパフォーマンスを維持するために、効用制約を組み込んでいます

モデルの忘却を最適化するために最も一般的に使用される数式は次のとおりです。

さて、量子化について見てみましょう。重みwの集合またはブロックを考えてみましょう。線形演算はy = wxと表すことができ、量子化された結果はy = Q(w)xです。ここで、Q(⋅)は量子化関数です。

本研究では、研究者らは量子化モデルfを表すためにQ(f)を用いた。したがって、逆学習法を実装し、忘れられたモデルを量子化すると、以下のように表される。

研究者らは、大規模モデルに効果的な 6 つの反学習手法を評価しました。これは、NPO と GA 戦略を組み合わせる、勾配降下法 (GDR) を実行する、または保持セットで KL ダイバージェンス (KLR) を最小化する手法で、GA、GA_GDR、GA_KLR、NPO、NPO_GDR、および NPO_KLR が生成されます。

結果は、これらの方法が定量化後に「壊滅的な失敗」を示したことを示しました。

具体的には、完全な精度では、効用制約を伴う逆学習法は、ターゲットの忘れられた知識の平均 21% を保持しますが、 4 ビットの量子化後には、この割合は 83% に急激に上昇します

これは、「忘れられた」知識のほとんどが、単純な定量化によって回復できることを意味します。

この実験では、4ビットと8ビットの量子化を含む、異なる量子化ビット値も使用しました。量子化精度も忘却性能に大きな影響を与えます。8ビット量子化の影響は比較的小さく、モデルの性能はフル精度版に近づきました。しかし、4ビット量子化では忘却性能が著しく低下しました。

実験は、NEWS (BBC ニュース記事) や BOOKS (ハリー・ポッター シリーズ) などのベンチマーク データセットで、次の 4 つの評価指標を使用して実施されました。

VerMem (逐語的コピー能力の評価)、KnowMem (知識ベースの質疑応答能力の評価)、PrivLeak (メンバー推論攻撃に基づくプライバシー保護の評価)、および retain set utility (忘れられていないデータに対するモデルのパフォーマンスの評価)。

研究者らはまた、様々な量子化手法が忘却に与える影響を分析し、同じ実験設定で2つの高度な4ビット量子化手法であるGPTQとAWQを用いた実験を行った。NEWSデータセットにおける結果は以下のとおりである。

GPTQ と AWQ は RTN と同様のパフォーマンスを発揮します。

研究者らはパラメータを効果的に調整する努力をしたと述べているが、キャリブレーションデータセットは忘れられたデータセットのドメイン固有ではなく汎用的であるため、GPTQとAWQは忘れ去られるはずだった知識を依然として保持している可能性がある

なぜ?何ができる?

分析の結果、研究者たちはこの問題の根本的な原因は次の点にあると考えています。

既存の反学習手法では、モデルの効用を維持するために小さな学習率と効用制約を用いるため、モデルの重みの変化は最小限に抑えられます。量子化の過程では、元のモデルと忘れられたモデルの重みが同じ離散値に容易にマッピングされるため、忘れられた知識が再び現れる可能性があります。

そこで研究者らは、改善策としてSURES aliency-Based Unlearning with a Large Learning Rate と呼ばれるフレームワークを提案しました。

このフレームワークは、モジュール レベルの顕著性マップを構築することで忘却プロセスをガイドし、他の機能への影響を最小限に抑えながら、忘れられたデータに最も関連性の高いコンポーネントに選択的に大きな学習率を適用します。

実験により、SURE戦略が量子化後の忘却知識の回復を防ぐ有効性を検証しました。既存の反学習手法と比較して、SUREは完全精度モデルにおいて同等の忘却性能とモデル有用性を達成しました。

研究者らはまた、SURE 戦略のさまざまなしきい値が忘却のパフォーマンスに与える影響を調査し、適切なしきい値によって忘却のパフォーマンスとモデルの有用性のバランスを実現できることを発見しました。

詳細については、興味のある読者は元の論文を参照してください。コードは GitHub で入手できます。

論文リンク: https://arxiv.org/pdf/2410.16454

参考リンク: [1] https://news.ycombinator.com/... [2] https://github.com/zzwjames/F...