最適化問題with強化学習 - Shinichi0713/Reinforce-Learning-Study GitHub Wiki
強化学習(Reinforcement Learning, RL)でよく扱われる、または研究されている「最適化問題」の代表例をリストアップします。
これらは、RLのベンチマークや応用先として有名です。
強化学習で有名な最適化問題リスト
1. 組合せ最適化問題(Combinatorial Optimization)
- 巡回セールスマン問題(TSP, Traveling Salesman Problem)
- ナップサック問題(Knapsack Problem)
- グラフ彩色問題(Graph Coloring Problem)
- 最大カット問題(Max-Cut Problem)
- 配車・ルート最適化問題(Vehicle Routing Problem, VRP)
- ジョブスケジューリング問題(Job Scheduling Problem)
- クラスタリング問題(Clustering)
- サブセット選択問題(Subset Selection)
2. 制御・経路計画
- 迷路探索(Maze Solving)
- グリッドワールド(Grid World)
- ロボットアーム制御(Robotic Arm Control)
- カートポール(CartPole)
- マウンテンカー(MountainCar)
- ペンデュラム制御(Pendulum)
3. ゲーム・パズル
- チェス、囲碁、将棋などのボードゲーム最適手探索
- パズル(例:15パズル、ルービックキューブ)
4. リソース割当・スケジューリング
- タスクスケジューリング(Task Scheduling)
- マルチエージェントパスファインディング(Multi-Agent Path Finding)
- ネットワーク帯域割当(Network Bandwidth Allocation)
- エネルギーマネジメント(Energy Management)
5. その他
- ポートフォリオ最適化(Portfolio Optimization)
- 強化学習によるハイパーパラメータチューニング(Hyperparameter Optimization)
- 自動設計(Architecture Search, AutoML)
参考:RL研究でよく使われるベンチマーク環境
- OpenAI Gym(CartPole, MountainCar, LunarLander, Atariなど)
- DeepMind Control Suite
- MuJoCo(ロボティクス制御)
- Google OR-Tools(組合せ最適化)
補足
- 組合せ最適化問題は、RL研究で近年特に注目されています(例:Pointer Network, Graph Neural Networkなどの応用)。
- 制御問題は古典的なRLのベンチマークで、深層強化学習の進展もこの分野から始まりました。