RL - stereoboy/Study GitHub Wiki

https://github.com/stereoboy/deep-reinforcement-learning

03 Policy-BasedContinuous Control

Project: Continuous Control

PPO: Proximal Policy Optimization Algorithms
- https://arxiv.org/pdf/1707.06347.pdf
A3C: Asynchronous Methods for Deep Reinforcement Learning
- https://arxiv.org/pdf/1602.01783.pdf
D4PG: DISTRIBUTED DISTRIBUTIONAL DETERMINISTIC POLICY GRADIENTS
- https://openreview.net/pdf?id=SyZipzbCb

06 Benchmark Implementation

Benchmarking Deep Reinforcement Learning for Continuous Control
- https://arxiv.org/abs/1604.06778
Blog Article: Proximal Policy Optimization
- https://arxiv.org/abs/1604.06778
Deep Reinforcement Learning Doesn't Work Yet
- https://www.alexirpan.com/2018/02/14/rl-hard.html

04 Multi-Agent Reinforcement Learning

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Paper: https://papers.nips.cc/paper/7217-multi-agent-actor-critic-for-mixed-cooperative-competitive-environments.pdf

Keywords

Markov Games
Cooperation, Competition, Mixed Environments

03 Case Study: AlphaZero

Mastering the Game of Go without Human Knowledge

https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

https://arxiv.org/abs/1712.01815

Project

https://github.com/stereoboy/deep-reinforcement-learning/tree/master/p3_collab-compet