強化学習の方策ベースと価値ベースの違い - Shinichi0713/RL-study GitHub Wiki
「強化学習の方策をパラメータ化し、方策ベースの手法(例:方策勾配法)で学習する場合」と、「価値ベースの手法(例:Q学習、DQN)」の主な違いを、要点を絞って説明します。
1. 方策ベース(Policy-based)手法
- 方策(policy)自体を直接パラメータ化して学習する手法です。
- 例:確率的方策π(a|s; θ)をニューラルネット等で表現し、パラメータθを更新
- 行動の選択確率を直接出力し、その確率を最大化するように学習(方策勾配法、REINFORCE、Actor-Criticなど)
- 連続行動空間や確率的方策にも自然に対応できる
- 方策の更新は、報酬の期待値を直接最大化する形で行う
2. 価値ベース(Value-based)手法
- **価値関数(Q関数やV関数)**をパラメータ化して学習する手法です。
- 例:Q(s, a; θ)をニューラルネット等で表現し、θを更新
- 方策は価値関数から導出(例:ε-greedyやgreedy)
- 主に離散行動空間向き
- 方策自体をパラメータ化しない(確率的方策を直接表現するのは難しい)
3. 主な違いまとめ
項目 | 方策ベース | 価値ベース |
---|---|---|
パラメータ化対象 | 方策(π) | 価値関数(Q, V) |
方策の表現 | 確率分布を直接出力 | Q値から間接的に選択 |
行動空間 | 離散・連続どちらも得意 | 主に離散 |
方策の確率性 | 確率的方策が自然 | 確率的方策は工夫が必要 |
学習の困難さ | バリアンスが大きくなりやすい | 比較的安定しやすい |
例 | REINFORCE, Actor-Critic, PPO | Q-learning, DQN, SARSA |
4. 具体的な違いの例
- 方策ベース:
ニューラルネットが「この状態ならAを70%、Bを30%の確率で選ぶ」と直接出力し、その分布が良くなるようにパラメータを更新。 - 価値ベース:
ニューラルネットが「この状態でAを選ぶとQ値が5、Bなら3」と出力し、Q値が最大になる行動を選択(またはε-greedyで探索)。
5. 補足:Actor-Criticは両者の中間
Actor-Critic法は、方策(Actor)と価値関数(Critic)の両方をパラメータ化して同時に学習する手法です。
まとめ
方策ベースは「行動選択確率そのもの」を学習し、
価値ベースは「行動の良さ(価値)」を学習し、その値から方策を導きます。