machine_learning - cccnqu/ai106b GitHub Wiki
機器學習
- Regression : output a scalar
- Classification : output a class
- Structured Learning : output a sequence, matrix, graph, tree ....
強化學習
- https://gym.openai.com/
- 周莫烦 YouTube : 什么是强化学习? (Reinforcement Learning) -- 共約 12 集,每集約5分鐘
- 强化学习方法汇总 (Reinforcement Learning)
- 還有 Q-Learning, Sasa, DQN, ...
- REINFORCEjs
Q-Learning & SASA
Q-Learning : Off-Policy (永遠選最近的一條路,即使那條路有很多危險)
q[s][a] = (1-rate) * q[s][a] + rate * (r + decay * argmax(q[s]))
SASA : On-Policy (會懂得躲避危險區域)
q[s][a] = (1-rate) * q[s][a] + rate * (r + decay * q[s1][a1])
DQN (Deep Q Network)
用神經網路來學習 q[s][a] 的值。