最適化問題with強化学習 - Shinichi0713/Reinforce-Learning-Study GitHub Wiki

強化学習(Reinforcement Learning, RL)でよく扱われる、または研究されている「最適化問題」の代表例をリストアップします。
これらは、RLのベンチマークや応用先として有名です。


強化学習で有名な最適化問題リスト

1. 組合せ最適化問題(Combinatorial Optimization)

  • 巡回セールスマン問題(TSP, Traveling Salesman Problem)
  • ナップサック問題(Knapsack Problem)
  • グラフ彩色問題(Graph Coloring Problem)
  • 最大カット問題(Max-Cut Problem)
  • 配車・ルート最適化問題(Vehicle Routing Problem, VRP)
  • ジョブスケジューリング問題(Job Scheduling Problem)
  • クラスタリング問題(Clustering)
  • サブセット選択問題(Subset Selection)

2. 制御・経路計画

  • 迷路探索(Maze Solving)
  • グリッドワールド(Grid World)
  • ロボットアーム制御(Robotic Arm Control)
  • カートポール(CartPole)
  • マウンテンカー(MountainCar)
  • ペンデュラム制御(Pendulum)

3. ゲーム・パズル

  • チェス、囲碁、将棋などのボードゲーム最適手探索
  • パズル(例:15パズル、ルービックキューブ)

4. リソース割当・スケジューリング

  • タスクスケジューリング(Task Scheduling)
  • マルチエージェントパスファインディング(Multi-Agent Path Finding)
  • ネットワーク帯域割当(Network Bandwidth Allocation)
  • エネルギーマネジメント(Energy Management)

5. その他

  • ポートフォリオ最適化(Portfolio Optimization)
  • 強化学習によるハイパーパラメータチューニング(Hyperparameter Optimization)
  • 自動設計(Architecture Search, AutoML)

参考:RL研究でよく使われるベンチマーク環境

  • OpenAI Gym(CartPole, MountainCar, LunarLander, Atariなど)
  • DeepMind Control Suite
  • MuJoCo(ロボティクス制御)
  • Google OR-Tools(組合せ最適化)

補足

  • 組合せ最適化問題は、RL研究で近年特に注目されています(例:Pointer Network, Graph Neural Networkなどの応用)。
  • 制御問題は古典的なRLのベンチマークで、深層強化学習の進展もこの分野から始まりました。