Caffe Tutorial : 4.Solver (Kor) - ys7yoo/BrainCaffe GitHub Wiki

해결사 (Solver)

해결사(solver)는 손실을 향상시키려는 시도를 하는 파라미터 업데이트를 형성하기위해 네트워크의 정방향 추측과 역방향 그래디언트를 조직해서 모델 최적화를 조절한다. 학습의 필수 사항들은 최적화를 감독하고 파라미터 업데이트를 생성하기위한 해결사와, 손실과 그래디언트를 산출하기위한 망으로 나뉘어진다.

Caffe의 해결사는 다음과 같다.

Stochastic Gradient Descent ( type : "SGD" )
AdaDelta ( type : "AdaDelta" )
Adaptive Gradient (type: "AdaGrad"),
Adam (type: "Adam"),
Nesterov’s Accelerated Gradient (type: "Nesterov") and
RMSprop (type: "RMSProp")
The Caffe solvers are:

해결사는

최적화 과정 기록의 발판을 마련해주고 학습을 위한 훈련 네트워크와 평가를 위한 실험 네트워크를 생성해준다.
반복적으로 정방향 / 역방향을 호출하고 파라미터를 업데이트함으로써 최적화를 진행한다.
(주기적으로) 테스트 네트워크들을 평가한다.
최적화 내내 모델과 해결사 상태의 스냅샷을 찍는다.

각 반복마다 초기화부터 학습된 모델까지 모든 방법에 가중치를 취하기 위해

손실과 출력을 계산하기위해 정방향 네트워크를 호출한다.
그래디언트를 계산하기 위해 역방향 네트워크를 호출한다.
해결사 메소드에 따라 파라미터 업데이트 속에 그래디언트가 포함된다.
학습률, 기록, 그리고 메소드에 따라서 해결사 상태가 업데이트 된다.

Caffe 모델들과 같이, Caffe 해결사도 CPU와 GPU 모드에서 작동한다.

1.메소드 (Method)

해결사 메소드는 손실 최소화의 일반적 최적화 문제를 다룬다. 데이터세트 D에 대하여 , 최적화 목적은 데이터 셋을 걸쳐 모든 |D| 데이터 사례에 대한 전체 평균 손실이다.

L(W) = \frac{1}{|D|} \sum_i^{|D|} f_W\left(X^{(i)}\right) + \lambda r(W)                        <-- TeX

여기서 fW(X(i))는 데이터 경우의 수에 대한 손실이고 r(W)는 가중치 λ를 가진 조직화 항(regularization term)이다. |D|는 매우 클 수 있지만, 그래서 실제로는, 우리가 이 목표의 확율적 근사치를 사용하는 각각의 해결사 반복에 있어, N<<|D| 경우의 최소 일회 처리량을 그린다.

L(W) \approx \frac{1}{N} \sum_i^N f_W\left(X^{(i)}\right) + \lambda r(W)                        <-- TeX

모델은 정방향과정에서는 fw를 연산하고, 역방향 과정에서는 그래디언트 ∇fw를 연산한다. 파라미터 업데이트 ΔW는 에러 그래디언트 ∇fw, 조직화 그래디언트(regularization gradient)∇r(W), 그리고 다른 특정한 각각의 메소드 부터의 해결사에 의해 생성된다.

1. 확율경사하강 SGD

확율경사하강("SGD" 라고 친다.)는 네거티브 그래디언트 ∇L(W)와 이전의 가중치 업데이트 Vt의 선형 합성에 의해 가중치 W를 업데이트한다. 학습율 α는 네거티브 그래디언트의 가중치이며 모멘텀 μ은 이전 업데이트의 가중치이다. 형식적으로, 이전 가중치 업데이트 Vt와 현재 가중치 Wt를 고려하여, 반복 t+1에서 업데이트 된 가중치 Wt+1와 업데이트 값 Vt+1을 연산하기위한 다음과 같은 공식이 있다.

Vt+1=μVt−α∇L(Wt)
Wt+1=Wt+Vt+1

"하이퍼파라미터" (α 와 μ)를 학습하는것은 최대의 결과에 대한 약간의 조율이 요구될지 모른다. 만약 어디서 시작할지에 대한 확신이 없다면, 아래 "엄지손가락의 규칙"을 보고오라, 그리고 더 많은 정보가 필요하다면 Leon Bottou 저의 확율적 기울기 강하 속임수 (Stochastic Gradient Descent Tricks)를 참고할 수 있다. #######[1] L. Bottou. Stochastic Gradient Descent Tricks. Neural Networks: Tricks of the Trade: Springer, 2012.

학습율α 와 모멘텀μ 설정을 위한 엄지손가락 규칙 (Rules of thumb for setting the learning rate α and momentum μ)

SGD로 하는 심층학습을 위한 좋은 전략은 손실이 확실한 "안정기"에 다가가기 시작할때 학습시키는 내내 상수 요소 (10 같은)에 의해 학습율을 낮추면서 α≈0.01=10^(−2) 주위 값에 학습율α 을 초기화 시키는 것이다. 일반적으로 아마 모멘텀 μ=0.9이나 이와 비슷한 값을 사용하길 원할수도 있다. 반복을 통한 가중치 업데이트를 고루게 함에 의해, 모멘텀은 더 안정적이고 더 빠른 SGD로 하는 심층학습을 이루는 경향이 있다. 이것은 Krizhevsky와 등등에 의해 사용된 전략이다. ILSVRC-2012대회에서 CNN 엔트리로부터 승리한 [1]와 Caffe는 이 전략을 SolverParameter에서 쉽게 수행한다. 이와 같은 학습율 정책을 사용하기 위해, solver prototxt 파일안의 어떤 곳이나 다음과 같은 라인을 추가할 수 있다.

base_lr: 0.01     # 0.01 = 1e-2의 학습율로 훈련을 시작한다. 

lr_policy: "step" # 학습율 규칙 : "단계적으로" 학습율을 하락시킨다.
                  # 모든 단계 크기 반복 감마의 요소에 의해

gamma: 0.1        # 10 요소에 의해 학습율을 하강시킨다.
                  # (i.e., multiply it by a factor of gamma = 0.1)

stepsize: 100000  # 매 10만번 반복할 때마다 학습율을 하강시킨다.

max_iter: 350000  # 전체 35만번 반복하여 훈련한다.

momentum: 0.9

위의 설정 하에, 우리는 항상 모멘텀 μ=0.9을 사용할 것이다. 우리는 첫 10만번 반복에 대해 α=0.01=10^(−2)의 "base_lr"에서 학습을 시작할 것이고, 그리고나서 감마(γ)를 학습율에 곱셈하고 10만번~~20만번 반복에 대하여 α′=αγ=(0.01)(0.1)=0.001=10−3에서 학습을 하고, 20만번~~30만번 반복에 대해서는 α′′=10^(−4)에서, 그리고 마지막으로 350번째 반복까지는 (우리가 max_iter: 350000로 설정해 두었기에) α′′′=10^(−5)에서 학습한다.

모멘텀 세팅 μ가 수많은 학습의 반복 후에 11−μ의 요소에 의해 업데이트 사이즈를 곱셈하는데, 그래서 만약 μ를 올리기를 원한다면, α 에 상응하여 감소하는 것은 좋은 생각이다. (역으로도 같음) 예를들면, μ=0.9로, 우리는 11−0.9=10의 효율적 업데이트 사이즈 승수를 가진다. 만약 우리가 모멘텀을 μ=0.99로 올린다면, 우리는 우리의 업데이트 크기 승수를 100까지 올리므로, 우리는 10 요소에 의해 (base_lr) α를 하락시켜야만한다.

또한 위의 설정은 단지 가이드라인이며, 분명히 모든 상황에서 위 설정이 최적이라는 보장이없다. 만약 학습하는것이 나뉘면 base_lr(예를들면 base_lr: 0.001)를 낮추거나 아니면 재 훈련시키는 것이나 적당한 base_lr 값을 찾을 때까지 반복해보아라.

#######[1] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems, 2012.

2. AdaDelta

The AdaDelta ("AdaDelta"라고 입력하는) 메소드 (M. Zeiler [1])는 활발한 학습율 메소드(robust learning rate method)이다. (SGD 같이) 이것은 그래디언트 기반의 최적화 메소드이다. 업데이트 공식은 다음과 같다.

% <![CDATA[
\begin{align}
(v_t)_i &= \frac{\operatorname{RMS}((v_{t-1})_i)}{\operatorname{RMS}\left( \nabla L(W_t) \right)_{i}} \left( \nabla L(W_{t'}) \right)_i
\\
\operatorname{RMS}\left( \nabla L(W_t) \right)_{i} &= \sqrt{E[g^2] + \varepsilon}
\\
E[g^2]_t &= \delta{E[g^2]_{t-1} } + (1-\delta)g_{t}^2
\end{align} %]]>

(W_{t+1})_i = (W_t)_i - \alpha (v_t)_i.

#######[1] M. Zeiler ADADELTA: AN ADAPTIVE LEARNING RATE METHOD. arXiv preprint, 2012.

3. AdaGrad

조정하는 그래디언트 메소드(adaptive gradient method) ("AdaGrad"라고 친다.)는 Duchi와 그의 동료들의 말에 따르면 "예측이 매우 뛰어나지만 거의 특징이 보이지 않는 형태에서의 건초더미안의 바늘를 찾는 것"과같은 을 시도하는 (SGD와 같은) 그래디언트 기반의 최적화 메소드이다. t′∈{1,2,...,t}에 대한 (∇L(W))t′인 전체 이전의 반복들로 부터 업데이트 정보를 고려하자면, 각각의 가중치W의 요소 i에 대해 명시된 [1]에 의해 제시된 공식이 다음과 같다.

(W_{t+1})_i =
(W_t)_i - \alpha
\frac{\left( \nabla L(W_t) \right)_{i}}{
    \sqrt{\sum_{t'=1}^{t} \left( \nabla L(W_{t'}) \right)_i^2}
}

실제로는, 가중치 W∈Rd에 대하여, (Caffe에서 제공하는 것도 포함해서) AdaGrad 수행들은 기록된 그래디언트 정보저장에 대한 추가의 저장인 오직 O(d)를 사용한다. (각각의 기록된 그래디언트를 개별적으로 저장해야만 하는 O(dt)보다는 ) #######[1] J. Duchi, E. Hazan, and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. The Journal of Machine Learning Research, 2011.

4. Adam

kingma와 그의 동료들이 제시한 [1], Adam ("Adam"이라고 친다) 은 SGD같이 그래디언트 기반의 최적화 메소드이다. 이 방법은 "조정하는 모멘트 평가치(adaptive moment estimation)" (mt,vtmt,vt)를 포함하며 AdaGrad의 일반화로써 간주될 수 있다. 업데이트 공식은 다음과 같다.

(m_t)_i = \beta_1 (m_{t-1})_i + (1-\beta_1)(\nabla L(W_t))_i,\\
(v_t)_i = \beta_2 (v_{t-1})_i + (1-\beta_2)(\nabla L(W_t))_i^2

(W_{t+1})_i =
(W_t)_i - \alpha \frac{\sqrt{1-(\beta_2)_i^t}}{1-(\beta_1)_i^t}\frac{(m_t)_i}{\sqrt{(v_t)_i}+\varepsilon}.

Kingma 와 그의 동료들이 제시한 [1]에서는 β1=0.9,β2=0.999,ε=10−8 를 디폴트 값으로 사용하라고 제시했다. Caffe는 각각 β1,β2,εβ1,β2,ε에 대하여 모멘텀, 모멘텀2 델타를 사용한다.

#######[1] D. Kingma, J. Ba. Adam: A Method for Stochastic Optimization. International Conference for Learning Representations, 2015.

4. NAG (Nesterov’s accelerated gradient)

네스트로브의 가속된 그래디언트 ("Nesterov"라고 친다.)는 O(1/t)보다 O(1/(t^2))의 수렴률을 달성하면서 볼록한 최적화(convex optimization)의 "최적의" 방법으로써 Nesterov는 [1]을 제시했다. 비록 수렴 O(1/t2)를 달성하기위해 필요로하는 소비가 일반적으로 Caffe로 훈련시킨 심층 네트워크들에 자리잡지는 않더라도, Sutskever와 그의 동료들이 deep MNIST autoencoders [2]를 묘사하는 것처럼, 실제 NAG는 심층학습 구조의 특정한 타입들을 최적화하는데 매우 효과적인 방법이다. 가중치 업데이트 공식은 위의 SGD 업데이트에서 보인 것과 매우 유사하다.

V_{t+1} = \mu V_t - \alpha \nabla L(W_t + \mu V_t)
W_{t+1} = W_t + V_{t+1}

SGD 메소드와 구별되는 이 방법은 우리가 간단히 현재 가중치 그들 자체에서 그래디언트∇L(Wt)를 취하는 SGD에서, 혹은 우리가 추가된 모멘텀 ∇L(Wt+μVt)으로 가중치에 대한 그래디언트를 취하는 NAG에서, 우리가 에러 그래디언트 ∇L(W)를 계산한 것에 대한 W를 설정하는 가중치이다.

######[1] Y. Nesterov. A Method of Solving a Convex Programming Problem with Convergence Rate O(1/k−−√)O(1/k). Soviet Mathematics Doklady, 1983.

######[2] I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the Importance of Initialization and Momentum in Deep Learning. Proceedings of the 30th International Conference on Machine Learning, 2013.

5. RMSprop

RMSprop("RMSProp"라고 친다)는 코세라 과정 강의(Coursera course lecture)에서 Tieleman 이 제시한 것이며 이는 SGD 처럼 그래디언트 기반의 최적화이며 업데이트 공식은 다음과 같다.

\operatorname{MS}((W_t)_i)= \delta\operatorname{MS}((W_{t-1})_i)+ (1-\delta)(\nabla L(W_t))_i^2 \\
(W_{t+1})_i= (W_{t})_i -\alpha\frac{(\nabla L(W_t))_i}{\sqrt{\operatorname{MS}((W_t)_i)}}

(rms_decay) δ의 디폴트 값은 δ=0.99로 설정되어 있다.

[1] T. Tieleman, and G. Hinton. RMSProp: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning.Technical report, 2012.

2. 발판 마련하기 (Scaffolding)

발판을 마련하는 해결사는 "Solver::Presolve()"에서 학습되어지기 위한 모델을 초기화하고 메소드 최적화를 준비한다.

> caffe train -solver examples/mnist/lenet_solver.prototxt
I0902 13:35:56.474978 16020 caffe.cpp:90] Starting Optimization
I0902 13:35:56.475190 16020 solver.cpp:32] Initializing solver from parameters:
test_iter: 100
test_interval: 500
base_lr: 0.01
display: 100
max_iter: 10000
lr_policy: "inv"
gamma: 0.0001
power: 0.75
momentum: 0.9
weight_decay: 0.0005
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet"
solver_mode: GPU
net: "examples/mnist/lenet_train_test.prototxt"

망 초기화 (Net initialization)

I0902 13:35:56.655681 16020 solver.cpp:72] Creating training net from net file: examples/mnist/lenet_train_test.prototxt
[...]
I0902 13:35:56.656740 16020 net.cpp:56] Memory required for data: 0
I0902 13:35:56.656791 16020 net.cpp:67] Creating Layer mnist
I0902 13:35:56.656811 16020 net.cpp:356] mnist -> data
I0902 13:35:56.656846 16020 net.cpp:356] mnist -> label
I0902 13:35:56.656874 16020 net.cpp:96] Setting up mnist
I0902 13:35:56.694052 16020 data_layer.cpp:135] Opening lmdb examples/mnist/mnist_train_lmdb
I0902 13:35:56.701062 16020 data_layer.cpp:195] output data size: 64,1,28,28
I0902 13:35:56.701146 16020 data_layer.cpp:236] Initializing prefetch
I0902 13:35:56.701196 16020 data_layer.cpp:238] Prefetch initialized.
I0902 13:35:56.701212 16020 net.cpp:103] Top shape: 64 1 28 28 (50176)
I0902 13:35:56.701230 16020 net.cpp:103] Top shape: 64 1 1 1 (64)
[...]
I0902 13:35:56.703737 16020 net.cpp:67] Creating Layer ip1
I0902 13:35:56.703753 16020 net.cpp:394] ip1 <- pool2
I0902 13:35:56.703778 16020 net.cpp:356] ip1 -> ip1
I0902 13:35:56.703797 16020 net.cpp:96] Setting up ip1
I0902 13:35:56.728127 16020 net.cpp:103] Top shape: 64 500 1 1 (32000)
I0902 13:35:56.728142 16020 net.cpp:113] Memory required for data: 5039360
I0902 13:35:56.728175 16020 net.cpp:67] Creating Layer relu1
I0902 13:35:56.728194 16020 net.cpp:394] relu1 <- ip1
I0902 13:35:56.728219 16020 net.cpp:345] relu1 -> ip1 (in-place)
I0902 13:35:56.728240 16020 net.cpp:96] Setting up relu1
I0902 13:35:56.728256 16020 net.cpp:103] Top shape: 64 500 1 1 (32000)
I0902 13:35:56.728270 16020 net.cpp:113] Memory required for data: 5167360
I0902 13:35:56.728287 16020 net.cpp:67] Creating Layer ip2
I0902 13:35:56.728304 16020 net.cpp:394] ip2 <- ip1
I0902 13:35:56.728333 16020 net.cpp:356] ip2 -> ip2
I0902 13:35:56.728356 16020 net.cpp:96] Setting up ip2
I0902 13:35:56.728690 16020 net.cpp:103] Top shape: 64 10 1 1 (640)
I0902 13:35:56.728705 16020 net.cpp:113] Memory required for data: 5169920
I0902 13:35:56.728734 16020 net.cpp:67] Creating Layer loss
I0902 13:35:56.728747 16020 net.cpp:394] loss <- ip2
I0902 13:35:56.728767 16020 net.cpp:394] loss <- label
I0902 13:35:56.728786 16020 net.cpp:356] loss -> loss
I0902 13:35:56.728811 16020 net.cpp:96] Setting up loss
I0902 13:35:56.728837 16020 net.cpp:103] Top shape: 1 1 1 1 (1)
I0902 13:35:56.728849 16020 net.cpp:109]     with loss weight 1
I0902 13:35:56.728878 16020 net.cpp:113] Memory required for data: 5169924

손실 (Loss)

I0902 13:35:56.728893 16020 net.cpp:170] loss needs backward computation.
I0902 13:35:56.728909 16020 net.cpp:170] ip2 needs backward computation.
I0902 13:35:56.728924 16020 net.cpp:170] relu1 needs backward computation.
I0902 13:35:56.728938 16020 net.cpp:170] ip1 needs backward computation.
I0902 13:35:56.728953 16020 net.cpp:170] pool2 needs backward computation.
I0902 13:35:56.728970 16020 net.cpp:170] conv2 needs backward computation.
I0902 13:35:56.728984 16020 net.cpp:170] pool1 needs backward computation.
I0902 13:35:56.728998 16020 net.cpp:170] conv1 needs backward computation.
I0902 13:35:56.729014 16020 net.cpp:172] mnist does not need backward computation.
I0902 13:35:56.729027 16020 net.cpp:208] This network produces output loss
I0902 13:35:56.729053 16020 net.cpp:467] Collecting Learning Rate and Weight Decay.
I0902 13:35:56.729071 16020 net.cpp:219] Network initialization done.
I0902 13:35:56.729085 16020 net.cpp:220] Memory required for data: 5169924
I0902 13:35:56.729277 16020 solver.cpp:156] Creating test net (#0) specified by net file: examples/mnist/lenet_train_test.prototxt

Completion

I0902 13:35:56.806970 16020 solver.cpp:46] Solver scaffolding done.
I0902 13:35:56.806984 16020 solver.cpp:165] Solving LeNet

3. 파라미터 업데이트하기 (Updating Parameters)

실제 가중치 업데이트는 해결사에 의해 만들어진 뒤, "Solver::ComputeUpdateValue()"에서 망 파라미터가 적용된다. "ComputeUpdateValue" 메소드는 각각의 네트워크 가중치에 대하여 최종적 그래디언트를 취하는 (현재 에러 그래디언트를 포함하고 있는 )가중치 그래디언트속에 어떤 중량치 감소 r(W)를 포함한다. 그리고 나서 이러한 그래디언트는 각각의 Bolb의 diff 필드 파라미터안에 저장된 뺄셈 업데이트와 학습율 α에 의해 상승되어진다. 최종적으로 "Blob::Update" 메소드는 각각의 blob 파라미터에 호출되며, 이는 최종 업데이트를 수행한다. (데이터로 부터 Blob의 diff를 빼면서)

4. Snapshotting and Resuming

해결사는 "Solver::Snapshot()"와 "Solver::SnapshotSolverState()"에서 학습하는 동안 가중치와 가중치의 상태를 스냅샷으로 찍는다. 해결사 스냅샷이 주어진 지점으로부터 재학습하기 위한 훈련을 가능하게하는 동안에 가중치 스냅샷은 학습된 모델을 내보낸다. 훈련은 "Solver::Restore()"와 "Solver::RestoreSolverState()"에 의해 재학습되어진다. 해결사 상태가 ".solverstate" 확장에 저장되는 동안 가중치들은 확장없이 저장된다. 양쪽 파일 모두 스냅샷 반복 수에 대하여 접미사 "_iter_N"를 가진다. 스냅샷은 다음과 같이 설정되어진다.

# 반복에서 스냅샷 간격
snapshot: 5000
# 모델 가중치와 해결사 상태를 스냅샷으로 찍어놓은 것에 대한 파일 경로 접미사
# 이는 'Caffe' 도구가 동작하는 것과 관련있으며 해결사 정의 파일과는 무관하다.
snapshot_prefix: "/path/to/model"
# 가중치에따라 diff를 스냅샷으로 찍으며 이는 학습의 디버깅에 도움을 주지만 저장용량이 증가한다.
# 최종 스냅샷은 이 플래그가 false라고 설정하지 않는한 학습의 끝에 저장될 것이다. 디폴트값은는 true다.
snapshot_after_train: true