Deep Q learning - BD-SEARCH/MLtutorial GitHub Wiki

Deep Q-Network(DQN)

  • Q learning을 기초둜 ν•œ κ°•ν™”ν•™μŠ΅
  • Q learningμ—μ„œλŠ” 졜적 행동 κ°€μΉ˜ ν•¨μˆ˜λ‘œ 졜적인 행동을 정함
  • μ΄λŸ¬ν•œ ν•¨μˆ˜λ₯Ό CNN으둜 λΉ„μŠ·ν•˜κ²Œ 흉내 λ‚΄μ–΄ μ‚¬μš©ν•˜λŠ” 것이 DQN

μ‹€μ œ 사둀

  • λΉ„λ””μ˜€ κ²Œμž„μ„ 자율 ν•™μŠ΅μ‹œμΌœ μ‚¬λžŒμ„ λ›°μ–΄λ„˜λŠ” μˆ˜μ€€μ˜ μ‘°μž‘μ„ μ‹€ν˜„
  • κ·Έλ™μ•ˆμ˜ λΉ„λ””μ˜€ κ²Œμž„ ν•™μŠ΅μ—μ„œλŠ” κ²Œμž„μ˜ μƒνƒœλ₯Ό 미리 μΆ”μΆœν•˜λŠ” 것이 보톡. κ·ΈλŸ¬λ‚˜ DQNμ—μ„œλŠ” μž…λ ₯ λ°μ΄ν„°λŠ” λΉ„λ””μ˜€ κ²Œμž„μ˜ μ˜μƒ 뿐.
    • κ²Œμž„λ§ˆλ‹€ 섀정을 λ°”κΏ€ ν•„μš” 없이 λ‹¨μˆœνžˆ DQN에 κ²Œμž„ μ˜μƒμ„ λ³΄μ—¬μ£ΌκΈ°λ§Œ ν•˜λ©΄ 됨
  • 팩맨, 아타리와 같은 κ²Œμž„μ—μ„œ λ›°μ–΄λ‚œ 성적을 λ³΄μž„