|
データホエール データホエールの共有 著者:ウェン・リー、編集者:クォンタム・ビット 北京大学卒業生で、かつてOpenAIのセキュリティチームを率いていたリリアン・ウェン氏は、同社を去ってから初めて異動した。 もちろんブログに投稿することです。 投稿された瞬間、誰もがそれをスワイプし、たくさんの人がコメント欄に並んで、それを自分の読書リストに追加しました。 このブログ投稿には、いつものように、数千語に及ぶ貴重なコンテンツ、つまりしっかりした研究レビューが満載されています。 元記事のアドレス: https://lilianweng.github.io/... このトピックは、強化学習における報酬ハッキング問題を中心に展開されます。この問題では、エージェントが報酬関数または環境の脆弱性を悪用して、意図した動作を実際に学習することなく、高い報酬を獲得します。 報酬ハッキングを定義してみよう従来の強化学習では、エージェントが実際に学習したり目的のタスクを完了したりすることなく、報酬関数の欠陥や曖昧さを悪用して高い報酬を得てしまうという問題がよく発生します。 彼女が挙げた例には次のようなものがありました。
大規模モデルでは、報酬ハッキングは次のように現れる可能性があります。
ウェン・リーは、報酬ハッキングが存在する主な理由は 2 つあると考えています。
言語モデルが台頭し、RLHF がアライメント トレーニングの事実上の方法になりつつある時代において、言語モデル強化学習における報酬ハッキングのパフォーマンスも彼女にとって非常に心配なことです。 このテーマに関する過去の学術研究は、報酬ハッキングの定義や存在の証明に重点を置いた、極めて理論的なものでした。しかし、この現象を実際に軽減する方法に関する研究は限られています。 リワードハッキングを定義するために、Weng Li 氏はまず、近年学術界で提案された関連概念を検討しました。 これには、汚職を奨励すること、改ざんを奨励することなどが含まれます。 報酬ハッキングの概念は、2016年にAnthropicの創設者であるダリオ・アモデイ氏の論文で初めて提案されました。 当時、彼ともう一人の共同創設者であるクリス・オラーはまだGoogle Brainに在籍しており、すでにOpenAIの共同創設者であるジョン・シュルマンとのコラボレーションを開始していた。 そして今、彼ら3人はAnthropicで再会しました… 話を本題に戻しましょう。一連の研究に基づき、Weng Li 氏は、報酬ハッキングは大まかに 2 つのカテゴリに分類できると考えています。
彼女はまた、効果的な報酬システムを設計することは本質的に難しいと考えています。 報酬関数の設計が不十分だと非難するのではなく、タスク自体の複雑さ、部分的に観測可能な状態の存在、考慮すべき複数の次元、その他の要因により、適切な報酬関数を設計することは本質的に困難であると認める方が適切です。 さらに、強化学習エージェントをオフディストリビューション環境でテストする場合、次の問題が発生する可能性があります。
では、なぜ報酬ハッキングが発生するのでしょうか?2016年にAmodeiらが行った分析によると、その原因には以下が含まれます。
さらに、観察されたエージェントの動作は無数の報酬関数と一致する可能性があり、一般に真に最適化された報酬関数を正確に特定することは不可能です。 ウェン・リー氏は、モデルとアルゴリズムがますます複雑になるにつれて、報酬ハッキング問題がより蔓延するだろうと予測している。 より知能の高いモデルは、報酬関数の「抜け穴」を見つけて悪用する能力に優れており、エージェントの報酬を実際の報酬から逸脱させます。一方、より知能の低いアルゴリズムは、これらの抜け穴を見つけられない可能性があります。 では、大規模モデルの時代におけるリワードハッキングのユニークな特徴は何でしょうか? 言語モデルにおける報酬ハッキングRLHF トレーニングでは、通常、次の 3 種類の報酬が考慮されます。
Weng Li 氏は、 RLHF は通常エージェント報酬ポイントを最適化しますが、人々が最終的に関心を持つのはゴールド報酬ポイントだと考えています。 たとえば、モデルは一見正しくて説得力のある回答を生成するように最適化されているかもしれませんが、その回答は実際には不正確であり、人間の評価者を誤解させて誤った回答をより頻繁に承認してしまう可能性があります。 つまり、RLHF により、「正しい」ことと「人間にとって正しいと思われるもの」の間に乖離が生じているのです。 RLHF の研究では、大規模アリーナ ChatbotArena のデータを使用して報酬モデルをトレーニングしたところ、AI の方が人間に自分が正しいと納得させるのが優れていることが観察されました。
さらに、大規模なモデルが他のモデルにフィードバックを提供する評価者としての役割を担うようになると、バイアスがさらに導入される可能性があります。 ウェン・リー氏は、評価モデルの出力が報酬信号の一部として使用され、簡単に悪用される可能性があるため、このバイアスが特に懸念されると考えています。 例えば、2023年の実験では、候補となる回答の順序を変えるだけで結果が変わる可能性がありました。GPT-4は最初の回答に高いスコアを与える傾向があり、ChatGPT(3.5)は2番目の回答に高いスコアを与える傾向がありました。 さらに、パラメータを更新しない場合でも、大規模なモデルではコンテキスト学習機能のみによって、 ICRH (In-context Reward Hacking) と呼ばれる報酬ハッキング現象が発生する可能性があります。 ICRH は、従来の報酬ハッキングとは 2 つの重要な点で異なります。
翁立氏は、現在、ICRHを回避、検知、または予防する効果的な方法は存在しないと考えている。アラートの精度を向上させるだけではICRHを排除することはできず、モデル規模の拡大はICRHを悪化させる可能性がある。 緩和策最後に、Weng Li 氏は、ハッカーに報酬を与えるという現象について議論した文献は多数あるが、この問題を軽減するための対策を提案した研究はほとんどないと述べた。 彼女は3つの潜在的なアプローチを簡単に検討しました。 1 つのアプローチは、強化学習アルゴリズムを改善することです。 前述の Anthropic の創設者 Dario Amodei 氏は、2016 年の論文「AI の安全性における具体的な問題」の中で、次のような軽減策の方向性を指摘しています。 敵対的報酬関数、モデルの先読み、敵対的ブラインド化、慎重なエンジニアリング、報酬上限、反例耐性、複数の報酬の組み合わせ、報酬の事前トレーニング、変数の無関心、トリップワイヤー。 さらに、Google DeepMind チームは以前、報酬の改ざんを防ぐために「分離承認」アプローチを提案していました。 このアプローチでは、フィードバックを収集する行為と、実際にフィードバックを実行する行為は分離されています。フィードバックは行為が行われる前に提供されるため、行為がフィードバックに影響を与えることがありません。 もうひとつの潜在的な緩和策は、報酬ハッキング行為を検出することです。 報酬を与えるハッキング行為を異常検出タスクとして扱い、検出器は矛盾するインスタンスにフラグを立てます。 信頼できるポリシーと手動でラベル付けされた軌跡再生のセットが与えられれば、信頼できるポリシーとターゲット ポリシーのアクション分布間の距離に基づいてバイナリ分類器を構築し、この異常検出分類器の精度を測定できます。 これまでの実験では、さまざまな検出器がさまざまなタスクに適していることが示されており、テストされたすべての強化学習環境では、どの分類器も 60% を超える AUROC を達成できませんでした。 3 番目の潜在的な緩和策は、 RLHF データを分析することです。 トレーニング データがアライメント トレーニングの結果にどのように影響するかを調べることで、前処理と人間のフィードバック収集に関する洞察が得られ、報酬ハッキングのリスクが軽減されます。 今年、ハーバード大学とOpenAIの研究者らは協力し、人間の価値観のモデル化と整合化におけるデータサンプル特徴の有効性を測定するための一連の評価指標を提案しました。彼らは、HHH-RLHFデータセット(SEAL)を用いて、人間の価値観整合化のための系統的誤差分析を実施しました。 このブログ投稿の緩和策に関するセクションは、あくまで予備的な検討に過ぎません。Weng Li 氏は次の投稿のプレビューを公開しています。 できれば、近いうちに専用の投稿で緩和策を取り上げたいと思います。 ウェン・リーについてウェン・リーは、OpenAIの元中国人科学者であり、ChatGPTの貢献者です。北京大学で学士号を取得し、インディアナ大学ブルーミントン校で博士号を取得しました。 卒業後、ウェン・リーさんはまずFacebookで短期間インターンをし、その後Dropboxでソフトウェアエンジニアとして働きました。 彼女は 2017 年の初めに OpenAI に入社し、GPT-4 プロジェクトにおける事前トレーニング、強化学習とアライメント、モデルの安全性に主に携わりました。 昨年末にOpenAIが設立した安全性諮問チームでは、Weng Li氏が安全性システムチームを率いて、ChatGPTのような既存モデルの誤用を減らすなどの問題に取り組んでいます。 彼女はまた、最も有名なエージェントの公式を提案しました。それは、「エージェント = 大規模モデル + メモリ + アクティブプランニング + ツールの使用」です。 Google Scholar の引用数は 14,000 件を超えています。 少し前に、ウェン・リーは突然、OpenAIを離れることを決めたとツイートした。 彼女はまだ次の計画を発表していないが、ツイッターの署名から、AIセキュリティに関連するものと思われる。 元記事: https://lilianweng.github.io/... 参考リンク: [1]https://x.com/lilianweng/stat... - 終わり - Datawhale 2024 ウィンターキャンプが始まります。 QR コードをスキャンして、待機グループの最初のバッチに参加します。 |
OpenAIを去った後、Weng Liのブログが初めて更新され、多くのネットユーザーが視聴して学びました。
関連するおすすめ記事
-
デモを一足先にご覧ください!分子レベルからゲノムレベルまでの予測と生成を可能にする基礎ゲノムモデル「Evo」がScience誌の表紙を飾ります。
-
大規模モデルこそが新たなデータベース!アント・ファイナンシャルのオープンソース部門責任者、王旭氏:アプリケーション開発の新たなパラダイム、次世代LAMPが形作られつつある | MEET 2025
-
エージェントが一夜にして変わりました!Claude 3.5は人間のようにコンピューターを操作できるようになりました!🙀
-
成都の女子たちがAIのプロセスを書き換えた方法
-
アジェンダ紹介 | オープンソースガバナンスフォーラム
-
輝かしい20周年、新たな未来 - 第20回全国高性能コンピューティング会議が2024年に武漢で成功裏に開催されました。