[2024, IEEE CLOUD] Carbon‐Aware and Fault‐Tolerant Migration of Deep Learning Workloads in the Geo‐Distributed Cloud - dsl-cloudforest/Awesome-Cloud-Papers GitHub Wiki
paper information
Main idea
- 딥러닝 워크로드를 시공간적으로 마이그레이션(이동) 하는 방법을 제시하며, 탄소 강도를 기반으로 워크로드를 이동시킴.
- GPU 주파수 최적화를 적용해 딥러닝 워크로드로의 전력 소비량을 최적화를 달성하고 궁극적으로 탄소 배출량을 감소시킴.
- 워크로드의 탄소 배출량 최적화를 위해 Scaling, Tolerance, Suspend, Migration 4가지 상태로 구분함.
Pros
- 기존의 마이그레이션 방법을 딥러닝에 적용할 수 없던 한계를 딥러닝 모델의 체크포인트를 마이그레이션하는 방법을 사용해서 해결함.
- GPU 주파수 최적화를 통해서 시공간 이동이 일어나지 않았을 때도 지속적으로 탄소 배출량을 감소시키며, 실험 결과 유의미 했음.
- 주파수 최적화로 지속적인 탄소 배출량 관리는 탄소 강도의 일시적인 변화에 대응할 수 있으며 잦은 마이그레이션을 방지했음.
Cons
- GPU 주파수 최적화로 학습의 실생시간이 다소 증가함을 보였음.
- 체크포인트 마이그레이션 과정에서 발생하는 데이터 전송 등의 시간으로 전체 실행시간이 증가했음.
Cite
@INPROCEEDINGS{10643899,
author={Park, Jeonghyeon and Kim, Daero and Kim, Jiseon and Han, Jungkyu and Chun, Sejin},
booktitle={2024 IEEE 17th International Conference on Cloud Computing (CLOUD)},
title={Carbon-Aware and Fault-Tolerant Migration of Deep Learning Workloads in the Geo-Distributed Cloud},
year={2024},
}