OpenAIを去った後、Weng Liのブログが初めて更新され、多くのネットユーザーが視聴して学びました。

データホエール

データホエールの共有

著者：ウェン・リー、編集者：クォンタム・ビット

北京大学卒業生で、かつてOpenAIのセキュリティチームを率いていたリリアン・ウェン氏は、同社を去ってから初めて異動した。

もちろんブログに投稿することです。

投稿された瞬間、誰もがそれをスワイプし、たくさんの人がコメント欄に並んで、それを自分の読書リストに追加しました。

このブログ投稿には、いつものように、数千語に及ぶ貴重なコンテンツ、つまりしっかりした研究レビューが満載されています。

元記事のアドレス: https://lilianweng.github.io/...

このトピックは、強化学習における報酬ハッキング問題を中心に展開されます。この問題では、エージェントが報酬関数または環境の脆弱性を悪用して、意図した動作を実際に学習することなく、高い報酬を獲得します。

報酬ハッキングを定義してみよう

従来の強化学習では、エージェントが実際に学習したり目的のタスクを完了したりすることなく、報酬関数の欠陥や曖昧さを悪用して高い報酬を得てしまうという問題がよく発生します。

彼女が挙げた例には次のようなものがありました。

ロボットは物体とカメラの間に手を置き、人間を騙して物体を掴んだと信じ込ませます。
より高くジャンプすることを目指すエージェントは、物理シミュレータのプログラムバグを悪用して、物理法則に反するジャンプを実行します。...

大規模モデルでは、報酬ハッキングは次のように現れる可能性があります。

要約生成モデルは、ROUGE評価メトリックの欠陥を悪用して高いスコアを実現しますが、生成された要約は読みにくいです。
コードモデルはユニットテストコードを改ざんし、報酬自体も直接変更しました。

ウェン・リーは、報酬ハッキングが存在する主な理由は 2 つあると考えています。

強化学習環境は不完全であることが多いです。
報酬関数を正確に指定することは、本質的に困難な課題です。

言語モデルが台頭し、RLHF がアライメントトレーニングの事実上の方法になりつつある時代において、言語モデル強化学習における報酬ハッキングのパフォーマンスも彼女にとって非常に心配なことです。

このテーマに関する過去の学術研究は、報酬ハッキングの定義や存在の証明に重点を置いた、極めて理論的なものでした。しかし、この現象を実際に軽減する方法に関する研究は限られています。

リワードハッキングを定義するために、Weng Li 氏はまず、近年学術界で提案された関連概念を検討しました。

これには、汚職を奨励すること、改ざんを奨励することなどが含まれます。

報酬ハッキングの概念は、2016年にAnthropicの創設者であるダリオ・アモデイ氏の論文で初めて提案されました。

当時、彼ともう一人の共同創設者であるクリス・オラーはまだGoogle Brainに在籍しており、すでにOpenAIの共同創設者であるジョン・シュルマンとのコラボレーションを開始していた。

そして今、彼ら3人はAnthropicで再会しました…

話を本題に戻しましょう。一連の研究に基づき、Weng Li 氏は、報酬ハッキングは大まかに 2 つのカテゴリに分類できると考えています。

不適切な環境または目標設定:環境設計または報酬関数の欠陥により、エージェントは予期しない動作を学習します。
報酬操作:エージェントは報酬メカニズム自体に直接干渉することを学習します。

彼女はまた、効果的な報酬システムを設計することは本質的に難しいと考えています。

報酬関数の設計が不十分だと非難するのではなく、タスク自体の複雑さ、部分的に観測可能な状態の存在、考慮すべき複数の次元、その他の要因により、適切な報酬関数を設計することは本質的に困難であると認める方が適切です。

さらに、強化学習エージェントをオフディストリビューション環境でテストする場合、次の問題が発生する可能性があります。

モデルの目的が正しい場合でも、効果的に一般化できない場合があります。これは通常、アルゴリズムに十分なインテリジェンスまたは機能が欠けている場合に発生します。
モデルは適切に一般化されますが、そのターゲットはトレーニングの目的とは異なります。

では、なぜ報酬ハッキングが発生するのでしょうか？2016年にAmodeiらが行った分析によると、その原因には以下が含まれます。

環境と目的の不完全な観測可能性は、報酬関数が環境を完全に表現できないことを意味します。
システムの複雑さにより、特に環境を変更するコードの実行が許可されている場合、システムは攻撃に対して脆弱になります。
抽象的な概念を伴う報酬は、学習したり表現したりすることが困難です。
RL の目標は報酬関数を高度に最適化することであり、これは本質的に、適切に設計された RL の目的と「矛盾」します。

さらに、観察されたエージェントの動作は無数の報酬関数と一致する可能性があり、一般に真に最適化された報酬関数を正確に特定することは不可能です。

ウェン・リー氏は、モデルとアルゴリズムがますます複雑になるにつれて、報酬ハッキング問題がより蔓延するだろうと予測している。

より知能の高いモデルは、報酬関数の「抜け穴」を見つけて悪用する能力に優れており、エージェントの報酬を実際の報酬から逸脱させます。一方、より知能の低いアルゴリズムは、これらの抜け穴を見つけられない可能性があります。

では、大規模モデルの時代におけるリワードハッキングのユニークな特徴は何でしょうか?

言語モデルにおける報酬ハッキング

RLHF トレーニングでは、通常、次の 3 種類の報酬が考慮されます。

大規模モデルにおいて人々が本当に最適化したい部分は、ゴールド報酬と呼ばれます。
大規模モデルの評価に使用される人間の報酬は、データラベル付けタスクにおける個々の人間から得られ、ラベル付けには時間制限があるため、ゴールデン報酬を完全に正確に反映することはできません。
代理報酬は、人間のデータでトレーニングされた報酬モデルによって予測されるスコアであり、人間の報酬のすべての弱点と、潜在的なモデリングバイアスを継承します。

Weng Li 氏は、 RLHF は通常エージェント報酬ポイントを最適化しますが、人々が最終的に関心を持つのはゴールド報酬ポイントだと考えています。

たとえば、モデルは一見正しくて説得力のある回答を生成するように最適化されているかもしれませんが、その回答は実際には不正確であり、人間の評価者を誤解させて誤った回答をより頻繁に承認してしまう可能性があります。

つまり、RLHF により、「正しい」ことと「人間にとって正しいと思われるもの」の間に乖離が生じているのです。

RLHF の研究では、大規模アリーナ ChatbotArena のデータを使用して報酬モデルをトレーニングしたところ、AI の方が人間に自分が正しいと納得させるのが優れていることが観察されました。

RLHF は AI の回答に対する人間の受け入れ度を高めますが、必ずしも AI の応答の精度を向上させるわけではありません。
RLHF により、AI の応答を評価する人間の能力が低下し、評価におけるエラー率が高くなります。
RLHF により、誤った AI 応答が人間にとってより説得力を持つようになり、評価の誤検出率が大幅に増加します。

さらに、大規模なモデルが他のモデルにフィードバックを提供する評価者としての役割を担うようになると、バイアスがさらに導入される可能性があります。

ウェン・リー氏は、評価モデルの出力が報酬信号の一部として使用され、簡単に悪用される可能性があるため、このバイアスが特に懸念されると考えています。

例えば、2023年の実験では、候補となる回答の順序を変えるだけで結果が変わる可能性がありました。GPT-4は最初の回答に高いスコアを与える傾向があり、ChatGPT（3.5）は2番目の回答に高いスコアを与える傾向がありました。

さらに、パラメータを更新しない場合でも、大規模なモデルではコンテキスト学習機能のみによって、 ICRH (In-context Reward Hacking) と呼ばれる報酬ハッキング現象が発生する可能性があります。

ICRH は、従来の報酬ハッキングとは 2 つの重要な点で異なります。

ICRH の自己最適化設定では、テスト時間はフィードバックループを介して発生しますが、従来の報酬の割り当てはトレーニング中に発生します。
従来の報酬ハッキングはエージェントが単一のタスクに集中しているときに発生しますが、ICRH は一般的なタスクの完了によって駆動されます。

翁立氏は、現在、ICRHを回避、検知、または予防する効果的な方法は存在しないと考えている。アラートの精度を向上させるだけではICRHを排除することはできず、モデル規模の拡大はICRHを悪化させる可能性がある。

緩和策

最後に、Weng Li 氏は、ハッカーに報酬を与えるという現象について議論した文献は多数あるが、この問題を軽減するための対策を提案した研究はほとんどないと述べた。

彼女は3つの潜在的なアプローチを簡単に検討しました。

1 つのアプローチは、強化学習アルゴリズムを改善することです。

前述の Anthropic の創設者 Dario Amodei 氏は、2016 年の論文「AI の安全性における具体的な問題」の中で、次のような軽減策の方向性を指摘しています。

敵対的報酬関数、モデルの先読み、敵対的ブラインド化、慎重なエンジニアリング、報酬上限、反例耐性、複数の報酬の組み合わせ、報酬の事前トレーニング、変数の無関心、トリップワイヤー。

さらに、Google DeepMind チームは以前、報酬の改ざんを防ぐために「分離承認」アプローチを提案していました。

このアプローチでは、フィードバックを収集する行為と、実際にフィードバックを実行する行為は分離されています。フィードバックは行為が行われる前に提供されるため、行為がフィードバックに影響を与えることがありません。

もうひとつの潜在的な緩和策は、報酬ハッキング行為を検出することです。

報酬を与えるハッキング行為を異常検出タスクとして扱い、検出器は矛盾するインスタンスにフラグを立てます。

信頼できるポリシーと手動でラベル付けされた軌跡再生のセットが与えられれば、信頼できるポリシーとターゲットポリシーのアクション分布間の距離に基づいてバイナリ分類器を構築し、この異常検出分類器の精度を測定できます。

これまでの実験では、さまざまな検出器がさまざまなタスクに適していることが示されており、テストされたすべての強化学習環境では、どの分類器も 60% を超える AUROC を達成できませんでした。

3 番目の潜在的な緩和策は、 RLHF データを分析することです。

トレーニングデータがアライメントトレーニングの結果にどのように影響するかを調べることで、前処理と人間のフィードバック収集に関する洞察が得られ、報酬ハッキングのリスクが軽減されます。

今年、ハーバード大学とOpenAIの研究者らは協力し、人間の価値観のモデル化と整合化におけるデータサンプル特徴の有効性を測定するための一連の評価指標を提案しました。彼らは、HHH-RLHFデータセット（SEAL）を用いて、人間の価値観整合化のための系統的誤差分析を実施しました。

このブログ投稿の緩和策に関するセクションは、あくまで予備的な検討に過ぎません。Weng Li 氏は次の投稿のプレビューを公開しています。

できれば、近いうちに専用の投稿で緩和策を取り上げたいと思います。

ウェン・リーについて

ウェン・リーは、OpenAIの元中国人科学者であり、ChatGPTの貢献者です。北京大学で学士号を取得し、インディアナ大学ブルーミントン校で博士号を取得しました。

卒業後、ウェン・リーさんはまずFacebookで短期間インターンをし、その後Dropboxでソフトウェアエンジニアとして働きました。

彼女は 2017 年の初めに OpenAI に入社し、GPT-4 プロジェクトにおける事前トレーニング、強化学習とアライメント、モデルの安全性に主に携わりました。

昨年末にOpenAIが設立した安全性諮問チームでは、Weng Li氏が安全性システムチームを率いて、ChatGPTのような既存モデルの誤用を減らすなどの問題に取り組んでいます。

彼女はまた、最も有名なエージェントの公式を提案しました。それは、「エージェント = 大規模モデル + メモリ + アクティブプランニング + ツールの使用」です。

Google Scholar の引用数は 14,000 件を超えています。

少し前に、ウェン・リーは突然、OpenAIを離れることを決めたとツイートした。

彼女はまだ次の計画を発表していないが、ツイッターの署名から、AIセキュリティに関連するものと思われる。

元記事: https://lilianweng.github.io/...

参考リンク: [1]https://x.com/lilianweng/stat...

- 終わり -

Datawhale 2024 ウィンターキャンプが始まります。

QR コードをスキャンして、待機グループの最初のバッチに参加します。

618ZXW

OpenAIを去った後、Weng Liのブログが初めて更新され、多くのネットユーザーが視聴して学びました。

報酬ハッキングを定義してみよう

言語モデルにおける報酬ハッキング

緩和策

ウェン・リーについて

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ