強化学習の方策ベースと価値ベースの違い - Shinichi0713/RL-study GitHub Wiki

「強化学習の方策をパラメータ化し、方策ベースの手法（例：方策勾配法）で学習する場合」と、「価値ベースの手法（例：Q学習、DQN）」の主な違いを、要点を絞って説明します。

1. 方策ベース（Policy-based）手法

方策（policy）自体を直接パラメータ化して学習する手法です。
- 例：確率的方策π(a|s; θ)をニューラルネット等で表現し、パラメータθを更新
行動の選択確率を直接出力し、その確率を最大化するように学習（方策勾配法、REINFORCE、Actor-Criticなど）
連続行動空間や確率的方策にも自然に対応できる
方策の更新は、報酬の期待値を直接最大化する形で行う

2. 価値ベース（Value-based）手法

**価値関数（Q関数やV関数）**をパラメータ化して学習する手法です。
- 例：Q(s, a; θ)をニューラルネット等で表現し、θを更新
方策は価値関数から導出（例：ε-greedyやgreedy）
主に離散行動空間向き
方策自体をパラメータ化しない（確率的方策を直接表現するのは難しい）

3. 主な違いまとめ

項目	方策ベース	価値ベース
パラメータ化対象	方策（π）	価値関数（Q, V）
方策の表現	確率分布を直接出力	Q値から間接的に選択
行動空間	離散・連続どちらも得意	主に離散
方策の確率性	確率的方策が自然	確率的方策は工夫が必要
学習の困難さ	バリアンスが大きくなりやすい	比較的安定しやすい
例	REINFORCE, Actor-Critic, PPO	Q-learning, DQN, SARSA

4. 具体的な違いの例

方策ベース:
ニューラルネットが「この状態ならAを70%、Bを30%の確率で選ぶ」と直接出力し、その分布が良くなるようにパラメータを更新。
価値ベース:
ニューラルネットが「この状態でAを選ぶとQ値が5、Bなら3」と出力し、Q値が最大になる行動を選択（またはε-greedyで探索）。

5. 補足：Actor-Criticは両者の中間

Actor-Critic法は、方策（Actor）と価値関数（Critic）の両方をパラメータ化して同時に学習する手法です。

まとめ

方策ベースは「行動選択確率そのもの」を学習し、
価値ベースは「行動の良さ（価値）」を学習し、その値から方策を導きます。