rethinking imagenet pretraining - Serbipunk/notes GitHub Wiki

  • 为了重新训练,需要使用Group Normalization或者Synchronized Batch Normalization,因为检测模型太占显存,普通的BatchNorm不能发挥作用。
  • 对比目标精确位置相关的任务,pre-training没效果,比如Keypoint的任务。
  • learning rate的设置,需要让大的lr迭代次数更多,因为小lr过多的话,容易过拟合。
  • 只要训练够多,重新训练的模型各项指标都是可以超过fine-tune的,而fine-tune迭代多了的话,容易过拟合。
  • 小数据集合,比如VOC(数据集内的目标少很多),fine-tune的还是效果好,目前 怀疑 是数据量不足的问题。

https://zhuanlan.zhihu.com/p/50637570