machine_learning - cccnqu/ai106b GitHub Wiki

機器學習

Regression : output a scalar
Classification : output a class
Structured Learning : output a sequence, matrix, graph, tree ....

強化學習

https://gym.openai.com/
周莫烦 YouTube : 什么是强化学习? (Reinforcement Learning) -- 共約 12 集，每集約5分鐘
- 强化学习方法汇总 (Reinforcement Learning)
- 還有 Q-Learning, Sasa, DQN, ...
REINFORCEjs

Q-Learning & SASA

http://mnemstudio.org/path-finding-q-learning-tutorial.htm
- https://en.wikipedia.org/wiki/Q-learning

Q-Learning : Off-Policy (永遠選最近的一條路，即使那條路有很多危險)

q[s][a] = (1-rate) * q[s][a] + rate * (r + decay * argmax(q[s]))

SASA : On-Policy (會懂得躲避危險區域)

q[s][a] = (1-rate) * q[s][a] + rate * (r + decay * q[s1][a1])

DQN (Deep Q Network)

用神經網路來學習 q[s][a] 的值。