モデルフリー VS モデルベース - Shinichi0713/RL-study GitHub Wiki

ざっくりとした違い

「モデルフリー」と「モデルが既知（モデルベース）」の違いは、エージェントが環境の動作をどの程度知っているか、またその知識をどのように利用するかに関係します。

エージェントが環境の動作を予測するために使用する数学的または計算的な表現。

環境の遷移モデル（Transition Model）環境の遷移モデルは、現在の状態とエージェントの行動に基づいて、次の状態がどのように決定されるかを記述します。
数式で表すと、遷移モデルは以下のようになります。

\begin{align}
P(s'|s, a) \\
- s: 現在の状態s \\
- a: エージェントの行動 \\
- s': 次の状態 \\
\end{align}

報酬モデル（Reward Model）報酬モデルは、特定の状態と行動に対してエージェントが得る報酬を記述します。
数式で表すと、報酬モデルは以下のようになります。

\begin{align}
R(s, a) \\
- s: 現在の状態s \\
- a: エージェントの行動 \\
\end{align}

モデルベース強化学習では、この環境モデルを利用して、シミュレーションや計画を行い、最適な行動方針を見つけるために使用します。具体的には、モデルを使って未来の状態や報酬を予測し、その情報を基に最適な行動を選択します。

環境モデルは以下の方法で構築されます。

事前知識:

環境の物理法則やルールが既知である場合、それらを利用してモデルを構築します。例: ロボットの運動モデル、自動車の動力学モデルなど。データからの学習:

環境との相互作用から得られるデータを基に、遷移確率や報酬関数を学習します。例: 統計的手法や機械学習アルゴリズムを使用して、経験からモデルを推定します。

確かに、強化学習は毎回学習が遅い、という点と、学習がいつもおなじような結果になりづらい、という傾向があった。