日時情報のみを用いた XGBoost による混雑度予測 - showwin/DisneyWT GitHub Wiki

Abstract

  • ML で混雑予想をする #3 に関連
  • 日時情報を用いてある日の混雑度を予測する
  • 東京ディズニーシーのみ
  • 考えつくうちで最も単純な予測手法
  • 精度は別にそんな高くない
    • 土日に混むことが予測できてる(当然)ということはわかる

Contents

特徴/目的変数

  • 機械学習による混雑度予想実装のアイデア の Lv.1 を利用
  • 東京ディズニーシーのみ
  • 特徴: 日時情報
    • 年月日と曜日を分離して OneHot にエンコーディング
    • ex.) 2016-11-25 -> year=2016, month=11, day=25, weekday=金 -> OneHot に
    • だいたい50次元ぐらい
  • 目的変数: その日の混雑度
    • 各営業日について、各アトラクション各ピリオドの待ち時間を全て合計
    • 空いてる日で10,000ぐらい、混んでる日で25,000とかそんぐらいになるっぽい

実験結果

201608-201609 を用いて学習、201610 を予測

  • 予測結果と真の値の一覧が下図: 201608-201609による201610の予測
  • 学習期間短いので微妙

201111-201609 を用いて学習、201610 を予測

  • 予測結果と真の値の一覧が下図: 201111-201609による201610の予測
  • 上と比べるとずっとマシ
    • MSE (平均二乗誤差) がだいぶ小さい
    • けど上が異常にズレてるところをそんなに間違えてない、ぐらいの差な気もする
  • 単に平日は低く、土日は高く、と予測してるだけにすぎない感じもする
  • たぶん天気情報は必須

Comment

  • 可視化めっちゃわかりやすくて最高 😍 (showwin)
  • テストデータを 201605(GWだけめっちゃ混む), 201608(毎日混んでる), 201610(休日だけ混む) とかパターンをいくつか用意するとどの辺の予測が弱いとか判断しやすいかなって思った (showwin)