Distributed Learning - leemik3/tensorflow-2.0 GitHub Wiki

딥러닝 분산 처리 [작업 분할 방식에 따라]

Data Parallelism  각 데이터들에 대한 모델의 gradient (transfer 이루어짐) 평균을 통해 (Parameter Server, AllReduce를 통해) 모델의 파라미터를 업데이트한다.  GPU memory limitation : 아마도 모델 자체는 그대로이기 때문에 모델 내 연산이 많아서  각 Worker : 다른 데이터, 같은 모델  논문 :
Model Parallelism  partial activation 을 다음 layer, 다음 worker에 전달  GPU memory는 괜찮: 모델이 나눠지기 때문에 각 모델 내 연산이 줄어들게 되니깐  GPU utilization low : 모델 내 연산이 줄어드니까 그렇게 많이 활용하지 않는다는 뜻? + bubble time 처럼 다른 gpu 연산 기다리는 시간..  각 worker : 같은 데이터, 다른 모델  논문 ① Multi-GPU training of ConvNets : 필터들이 여러 컴퓨팅 노드에 분산되어 동시에 convolution 연산을 수행할 수 있다. ② DistBelief : 범용 컴퓨팅 환경
Hybrid Parallelism  Data Parallelism + Model Parallelism  논문 : Large scale distributed deep networks

[번외]

Pipelining  data parallelism  model parallelism : 층 단위로 모델을 분산하는 모델 병렬화의 일종 (계층별 model parallelism 이랑 같?) ① Performance analysis of a pipelined backpropagation parallel algorithm : DNN 모델 파라미터가 분산되어 메모리가 효율적으로 사용되기 때문에 대규모 DNN 학습에 적합하다. 그러나, 어떤 컴퓨팅 노드에 backward pass에 의해서 오류가 역전파되었을 때, 그 컴퓨팅 노드의 forward pass 값과 weight는 이미 다른 mini-batch에 의해서 변경되었기 때문에 잘못된 forward pass 값과 weight를 사용하는 delayed gradient 문제가 발생한다.

② Decoupled parallel backpropagation using delayed gradient (DDG) : forward pass는 순차로 진행하고, backward pass 만 pipeline 으로 병렬화 ③ Features replay : loss (정확한 gradient – delayed gradient) 함수 정의. 갱신된 forward pass 값이 아닌 갱신되기 전 delayed forward pass 값을 사용함 ④ Decoupled Neural Interface (DNI) : 현재 층의 forward pass값만으로 근사 gradient 를 구하고, 실제 gradient 와의 차이가 적어지도록 RNN 에 적용하였으나, 근사 gradient 로 인한 성능 한계가 있다. ⑤ SpecTrain : momentum을 이용하여 미래의 weight 값을 추정하고, 이를 forward pass에서 사용함으로써 backward pass에서 delayed gradient 가 발생하지 않도록 했다. 그러나 컴퓨팅 노드 개수가 늘어날 수록 미래 weight가 부정확해질 수 있다. ⑥ GPipe : mini-batch를 세분한 micro-batch 수준에서 forward pass를 모두 pipeline으로 수행한 후, backward pass를 pipeline으로 수행함으로써 delayed gradient 문제를 해결하고, 기존의 Sgd 와 동일한 수행 결과를 얻을 수 있도록 하였다. 그러나 forwardpass가 모두 끝난 후에 backwardpass가 시작되기 떄문에 mini-batch 의 크기와 컴퓨팅 노드 수에 따라 병렬화 효율성이 저하될 수 있다. ⑦ Analysis of parallel training algorithms for deep neural networks + PipeDream:generalized~ : delayed gradient 문제를 해결하기 위해서 지연 발생 횟수만큼 모델 사본을 유지해서 해당 back ward pass에 대응되는 forward pass 때 사용했던 모델 파라미터를 갱신하도록 한다. 이 경우 컴퓨팅 노드에는 여러 시간대의 모델이 존재한다. 결과적으로 모델 병렬화를 하였지만 데이터 병렬화가 된 경우라서 모델 파라미터 동기화가 필요하다. 이 모델 파라미터 동기화의 경우 : synchronous sgd는 컴퓨팅 노드 간 통신이 필요하지만 pipelined sgd는 동기화할 모델 파라미터가 동일한 컴퓨팅 노드에 존재하기 때문에 통신은 필요하지 않다.

[Parameter 동기화 방식에 따라]

Synchronous replication (synchronous SGD)  일정 시점에서 분산처리가 끝난 모든 컴퓨팅 노드들의 gradient 평균으로 파라미터 업데이트  수렴이 빠르다.  논문  Data Parallelism ① SimuParallelSGD : 각 컴퓨팅 노드가 독립적으로 sgd 수행하고 마지막 한번만에 마스터모델 파라미터 생성 ② Bulk-Synchronous Parallel (BSP) : 한 minibatch 마다 각 컴퓨팅 노드의 gradient 평균 내어 마스터모델 갱신 ③ Experiments on parallel training of deep neural network using model averaging : x개의 minibatch 마다 각 컴퓨팅 노드의 gradient 평균 내어 마스터모델 갱신 ④ Elastic averaging (EASGD) : 각 지역 모델 파라미터가 개별적으로 유지되지만 마스터 모델 파라미터로부터 멀어질 수 있는 정도가 제어된다. ⑤ Block-wise Model-Update Filtering (BMUF) : 모멘텀 개념 추가? 이전 마스터 모델 파라미터와 현재 지역 모델 파라미터 평균의 차이를 마스터 모델 파라미터 변화량으로 간주하고 모멘텀을 추가하여 마스터 모델 파라미터 갱신 ⑥ Sandblaster L-BFGS : 각 컴퓨팅 노드에서 전송받은 gradient 를 사용하여 limited memory Broyden Fletcher Goldfarb Shanno 알고리즘으로 분산되어 있는 마스터 모델의 파라미터를 갱신한다. (각 컴퓨팅 노드의 gradient를 합하는 방식이 알고리즘을 이용한다는 것?) ⑦ Sync-SGD : k개의 컴퓨팅 노드에서 gradient 계산이 끝나면 나머지 컴퓨팅 노드는 기다리지 않고 동기화 진행 (근데 이거는 asynchronous 아닌가?)

 Model Parallelism ① S

Stale Synchronous / Bounded Aynchronous replication (stale-synchronous SGD) 
Asynchronous replication (Asynchronous SGD)  분산처리가 끝나지 않아도 gradient 계산이 먼저 끝난 건 먼저 파라미터 업데이트. 동기화 비용이 적고, 느리거나 고장난 컴퓨팅 노드를 기다릴 필요가 없기 때문에 널리 사용됨  worker가 많을 수록 synchronous 보다는 효율적  먼저 도착한 gradeint -> 마스터 모델 파라미터에 갱신. 늦게 도착한 gradient 는 갱신되기 이전의 마스터 모델 파라미터들을 통해서 계산되었으므로 지금 현재 갱신된 상태의 마스터 모델 파라미터에 갱신하려면 문제가 발생할 수 있다. 이러한 늦게 도착한 gradient 를 stale gradient 라고 하고, 여기에 사용되었던 stale weight(갱신되기 이전의 마스터 모델 파라미터)  수렴이 느릴 수 있다.  논문  Data Parallelism ① Hogwild ② HogBatch : mini-batch ③ AsySVRG : SGD의 분산을 줄여서 학습 속도를 향상시킴 ④ Downpour SGD : 마스터 모델 파라미터가 여러 대의 파라미터 서버에 나뉘어 저장됨 (원래 한 대의 파라미터 서버보다 병렬화 효과가 높아질 수 있다). + DistBelief를 활용하기 때문에 하나의 컴퓨팅 노드가 실제로는 여러개의 cpu 노드로 이루어질 수 있음 (large scale distributed deep networks). stale weight 이외에 일관성이 없는 마스터 모델 파라미터가 생성되는 문제가 추가적으로 발생할 수 있다. ⑤ Asynchronous decentralized parallelized SGD (AD-PSGD) : 마스터 모델을 관리하는 하나의 파라미터 서버가 있지 않고, 컴퓨팅 노드가 그래프 구조로 연결되어있다. 각 컴퓨팅 노드는 무작위로 선택된 인접 컴퓨팅 노드의 지역 모델 파라미터와 조합하여 파라미터를 동기화한다. 이로써 여러 대의 컴퓨팅 노드가 하나의 파라미터 서버와 ‘동시에’ 통신할 필요가 없기 떄문에 통신 병목 현상이 감소된다. 학습이 종료되면 모든 컴퓨팅 노드의 지역 모델 파라미터를 평균해서 마스터 모델 파라미터를 구한다. ⑥ Asynchrony begets momuntum, with an application to deep learning : stale weight 관련 – 갱신되기 이전의 과거 마스터 모델 파라미터로 유도된 gradient를 일종의 momentum 으로 간주하고, momentum 가중치를 최적화 ⑦ Asynchronous stochastic gradient descent with delay compensation : stale weight 관련 – taylor expansion 을 통해 stale gradient 값을 보정해서 현재 마스터 모델 파라미터의 gradient 값을 예측함 ⑧ Efficient and robust parallel ~ : 미래 gradient 예측인 듯?

 Model Parallelism ① S

Hybrid-Synchronous SGD  논문  Revisiting distributed synchronous SGD : synchrnous 와 asynchronous 방식의 단점을 소개하나봄 
(Model Averaging) : 논문 : deep learning with elastic averaging SGD? EWMA?
(Ensemble Learning)

[Gradient 취합 방식에 따라]

All-Reduce (Parameter Server)  parameter server가 모든 gradient 를 취합하여 worker 들에게 재분배  worker 수가 많으면 parameter server의 메모리 사용량 및 네트워크 부하 증가
Ring-AllReduce  모든 gpu를 ring 형태로 구성한 뒤, gradient 전달을 통해 공유  잘 이해 안 됨. 논문?

Training Agent, Computing Node, Server, Worker