618ZXW

強化学習の父、リチャード・サットンは、すべての RL アルゴリズムを大幅に強化するシンプルなアイデアを提案しました。

データホエール

Datawhaleのヒント

研究分野:強化学習;出典:Machine Heart

報酬から平均報酬を引く

今日の大規模モデルの時代において、RLHFに代表される強化学習手法はかけがえのない重要性を持ち、OpenAI 01のようなモデルの強力な推論能力の鍵となることにもなっています。しかし、これらの強化学習手法にはまだ改善の余地があります。最近、強化学習の父であり、アルバータ大学教授のリチャード・サットン氏のチームは、新しい一般的なアイデアである報酬センタリングを提案する論文をひっそりと更新し、ほぼすべての強化学習アルゴリズムに適用できると主張しました。この論文は、第1回強化学習会議(RLC 2024)で採択された論文の1つでした。筆頭著者のアビシェク・ナイク氏は、最近アルバータ大学で博士号を取得しました。彼はサットン教授の12人目の博士課程卒業生です。

Reward Centering の革新性について簡単に見てみましょう。

  • 論文タイトル: 報酬中心化
  • 論文リンク: https://arxiv.org/pdf/2405.09999

報酬ベースのクラスタリング理論

エージェントと環境の相互作用は、有限マルコフ決定過程(MDP)(S, A, R, p)として表すことができます。ここで、Sは状態集合、Aは行動集合、Rは報酬集合、p: S × R × S × A → [0, 1]は遷移ダイナミクスを表します。時間ステップtにおいて、エージェントは状態S_tにあり、行動ポリシーb: A × S → [0, 1]を用いて行動A_tを実行します。そして、遷移ダイナミクスに基づいて、以下のようになります。

次の状態S_{t+1}と報酬R_{t+1}を観測する。ここで研究する問題は持続性問題、すなわちエージェントと環境の相互作用が無期限に継続する問題である。エージェントの目標は、長期的に得られる平均報酬を最大化することにある。この目的のために、研究チームは各状態における期待割引報酬の合計を推定する方法を検討した。

ここでは、割引率は問題の一部ではなく、アルゴリズムのパラメータです。報酬クラスタリングの背後にある考え方は単純です。実際に観測された報酬の平均を実際の報酬から差し引きます。これにより、修正された報酬が平均を中心にしているように見えます。この平均中心の報酬は、バンディット設定で一般的です。たとえば、Sutton と Barto は 2018 年の論文で、平均報酬を推定して観測報酬から差し引くと、学習速度が大幅に向上することを示しました。ここでチームは、すべての強化学習アルゴリズムがこれから恩恵を受け、割引率 γ が 1 に近いほどその恩恵がさらに大きくなることを実証しています。報酬クラスタリングが非常に効果的である根本的な理由の 1 つは、割引価値関数のローラン級数分解によって明らかにすることができます。割引価値関数は 2 つの部分に分解できます。1 つは状態やアクションに依存せず、したがってアクション選択には関与しない定数です。

数学的に言えば、割引係数 γ に対応する戦略 π の表形式の割引価値関数は次のようになります。

ここで、r(π)は方策πによって得られる状態に依存しない平均報酬であり、は状態sの微分値である。トラバーサルMDPにおけるそれぞれの定義は以下の通りである。

これは誤差項であり、割引率が 1 になるとゼロになります。この状態値の分解は、状態アクション値の同様の分解も意味します。

このローラン級数分解は、報酬クラスタリングがバンディット問題の解決に役立つ理由を説明しています。本格的な強化学習問題では、状態に依存しないオフセットが非常に大きくなる可能性があります。例えば、図2に示す3状態マルコフ報酬過程を考えてみましょう。状態がAからBに変化した場合、報酬は+3、それ以外の場合は0です。平均報酬はr(π) = 1です。右の表は、3つの割引係数に対する割引後の状態値を示しています。

各状態から定数オフセットを差し引いて得られる現在値は、クラスター化現在値とも呼ばれます。

ご覧のとおり、クラスター化された現在価値は大きさがはるかに小さく、割引率の増加に伴いわずかにしか変化しません。参考までに、差分値も示されています。これらの傾向は一般的に当てはまります。つまり、どの問題においても、割引率が1に近づくにつれて現在価値の大きさは急激に増加しますが、クラスター化された現在価値はほとんど変化せず、差分値に近くなります。数学的には、クラスター化された現在価値は、平均クラスター報酬の期待割引和です。

ここで、γ ∈ [0, 1] です。γ = 1 の場合、クラスター化された現在価値は差分値と同じです。より一般的には、クラスター化された現在価値は、上図の右側に示すように、差分値にローラン級数分解の誤差項を加えたものです。したがって、報酬クラスタリングは、2つの要素(定数平均報酬とクラスター化された現在価値関数)を通じて、現在価値関数のすべての情報を捉えることができます。この分解は非常に有用です。

  • γ→1 になると、現在価値は爆発的に増加する傾向がありますが、クラスター化された現在価値は小さいままであり、扱いやすくなります。
  • 問題の報酬が定数 c だけ変動すると、現在価値は c/(1 − γ) だけ増加しますが、平均報酬も c だけ増加するため、クラスター化された現在価値は変化しません。

報酬ベースのクラスタリングを使用する場合、エージェントのライフサイクル全体を通して割引率(アルゴリズムパラメータ)を変更できるアルゴリズムを設計できます。これは、標準的な割引アルゴリズムでは、クラスタ化されていない値が大幅に変化する可能性があるため、多くの場合非効率的または効果的ではありません。対照的に、クラスタ化された値はほとんど変化せず、割引率が1に近づくにつれて無視できるほど小さくなります。

もちろん、これらの潜在的な利益を得るには、まずデータに基づいて平均報酬を推定する必要があります。

単純な報酬クラスタリングと価値ベースの報酬クラスタリング

平均報酬を推定する最も簡単な方法は、過去に観測された報酬に基づいて平均を推定することです。つまり、tステップ後の平均報酬推定値を考えると…より一般的には、この推定値はステップサイズパラメータβtを用いて更新できます。

研究チームは、このシンプルなクラスタリング手法はほぼあらゆる強化学習アルゴリズムに適用できると述べています。例えば、報酬クラスタリングを従来の時間差分(TD)学習と組み合わせることで、状態価値関数の推定値を学習できます。

さらに、彼らは価値ベースの報酬クラスタリングを提案した。このアプローチは、強化学習における平均報酬式に着想を得ている。Wanら (2021) は、(4) の従来の誤差の代わりに時間差 (TD) 誤差を用いることで、テーブルベースの方策設定において報酬率の偏りのない推定値が得られることを示した。平均報酬式から得られたこのアイデアは、割引報酬式においても非常に有効であることが証明された。研究チームは、行動方策が目標方策のすべての行動をとる場合、目標方策の平均報酬はTD誤差を用いて良好に近似できることを示した。

このクラスタリング手法は報酬に加えて価値も考慮するため、価値ベースクラスタリングと呼ばれます。単純な報酬クラスタリングとは異なり、平均報酬推定値と価値推定値の収束は相互に依存します。

実験

研究チームは式(5)の4つの変形版を用いて実験を行い、異なる割引率を検証した。詳細な手順については原著論文を参照のこと。ここでは結果を簡単に見ていく。

図3に示すように、オラクルを使用して報酬をクラスタリングすると、学習曲線ははるかに低いところから始まり、他のアルゴリズムでは、初期誤差はr(π)/(1 − γ)のオーダーになります。クラスタリングされていないTD学習(青)は、予想どおり、最終的にオラクル クラスタリング アルゴリズム(オレンジ)と同じ誤差率を達成します。単純なクラスタリング手法(緑)はRMSVEをより速く削減するのに役立ちますが、最終的な誤差率はわずかに高くなります。これは、平均報酬推定値が時間の経過とともに変化するため、クラスタリングされていないバージョンやオラクルでクラスタリングされたバージョンと比較して更新の変動が大きくなるため、予想されたことです。γが大きい場合にも、同様の傾向が見られます。これらの実験は、単純な報酬クラスタリング手法がポリシー設定で非常に効果的であり、割引率が大きいほど効果的であることを示しています。価値ベースの報酬クラスタリング(赤)は、学習率とポリシー問題における漸近誤差の点で単純なクラスタリングに似ています。しかし、オフポリシー問題においては、価値ベースクラスタリングは、最終的なエラー率を同程度に維持しながら、より低いRMSVEをより速く達成します。全体として、報酬クラスタリングは、特に割引率が大きい場合、割引報酬予測アルゴリズム(TD学習など)の学習率を向上させることが観察されます。単純な報酬クラスタリング手法は既に非常に効果的ですが、一般的なオフポリシー問題には価値ベース報酬クラスタリングがより適しています。さらに、研究チームは報酬クラスタリングがQ学習に与える影響についても調査しました。詳細な理論的説明と実験手順については、原著論文を参照してください。

まとめると、実験の結果、報酬クラスタリングは、様々な問題において、表形式、線形、非線形の各Q学習アルゴリズムの性能を向上させることが示されました。学習率の向上は、割引率が1に近いほど顕著です。さらに、問題の報酬の変化に対するアルゴリズムの堅牢性も向上します。報酬クラスタリングは一見シンプルな手法ですが、実際には強化学習アルゴリズムを大幅に改善できるようです。この手法について、どのようなご意見をお持ちですか?また、ご自身の研究や応用に活用してみませんか?

いい(3件のいいね!)↓