[딥러닝] Hyper parameter setting : mNasnet, Efficientnet - penny4860/study-note GitHub Wiki
내용 정리
1. Learning Rate
- Warmup 방식을 사용 : "Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour"
- Method
- 처음 5-epoches
- [0, 0.256] 까지 점차 상승
- [0.0512, 0.1024, 0.1536, 0.2048, 0.256]
- 그 이후로는 2.4-epoch 마다 0.97-decay
* 0.256 * 0.97**(int(epoch/2.4))
2. Optimizer : rmsprop
- parameter
- decay : 0.9
- momentum : 0.9
rmsprop with momentum
과 adam 의 차이?
- rmsprop with momentum
- velocity를 exponential filtering
v(t) = mu*v(t-1) + lr*grad/(grad_squared(t) + eps)
- adam
- gradient를 exponential filtering
- 1st moment : gradient의 exponential filtering
- 2nd moment : grad_squared의 exponential filtering
3. Weight Decay
4. Batch Norm
5. mnasnet의 search 방법
- ImageNet에서 5번의 epoch돌리고 판단