強化学習の方策ベースと価値ベースの違い - Shinichi0713/RL-study GitHub Wiki

「強化学習の方策をパラメータ化し、方策ベースの手法(例:方策勾配法)で学習する場合」と、「価値ベースの手法(例:Q学習、DQN)」の主な違いを、要点を絞って説明します。


1. 方策ベース(Policy-based)手法

  • 方策(policy)自体を直接パラメータ化して学習する手法です。
    • 例:確率的方策π(a|s; θ)をニューラルネット等で表現し、パラメータθを更新
  • 行動の選択確率を直接出力し、その確率を最大化するように学習(方策勾配法、REINFORCE、Actor-Criticなど)
  • 連続行動空間や確率的方策にも自然に対応できる
  • 方策の更新は、報酬の期待値を直接最大化する形で行う

2. 価値ベース(Value-based)手法

  • **価値関数(Q関数やV関数)**をパラメータ化して学習する手法です。
    • 例:Q(s, a; θ)をニューラルネット等で表現し、θを更新
  • 方策は価値関数から導出(例:ε-greedyやgreedy)
  • 主に離散行動空間向き
  • 方策自体をパラメータ化しない(確率的方策を直接表現するのは難しい)

3. 主な違いまとめ

項目 方策ベース 価値ベース
パラメータ化対象 方策(π) 価値関数(Q, V)
方策の表現 確率分布を直接出力 Q値から間接的に選択
行動空間 離散・連続どちらも得意 主に離散
方策の確率性 確率的方策が自然 確率的方策は工夫が必要
学習の困難さ バリアンスが大きくなりやすい 比較的安定しやすい
REINFORCE, Actor-Critic, PPO Q-learning, DQN, SARSA

4. 具体的な違いの例

  • 方策ベース:
    ニューラルネットが「この状態ならAを70%、Bを30%の確率で選ぶ」と直接出力し、その分布が良くなるようにパラメータを更新。
  • 価値ベース:
    ニューラルネットが「この状態でAを選ぶとQ値が5、Bなら3」と出力し、Q値が最大になる行動を選択(またはε-greedyで探索)。

5. 補足:Actor-Criticは両者の中間

Actor-Critic法は、方策(Actor)と価値関数(Critic)の両方をパラメータ化して同時に学習する手法です。


まとめ

方策ベースは「行動選択確率そのもの」を学習し、
価値ベースは「行動の良さ(価値)」を学習し、その値から方策を導きます。