[2024, e‐Energy] CAFE: Carbon‐Aware Federated Learning in Geographically Distributed Data Centers - dsl-cloudforest/Awesome-Cloud-Papers GitHub Wiki

Paper information

Main idea

  1. 분산학습에서 성능을 높이며 탄소 배출량 감소를 위해 coreset기반의 데이터 선택 기법을 활용함
  2. non-IID 데이터 셋의 특성 때문에 probing 선택 단계를 통해서 로컬 데이터 센터의 데이터 세트의 일부만 샘플링해 각 데이터 센터의 gradient를 계산함.
  3. 미래의 탄소 강도 정보를 예측하기 어렵기 때문에 전체 학습과정에 대한 최적화 문제를 Lyapunov drift plus penalty(DPP)를 사용해 각 학습라운드로 나누어 해결함
  4. Greedy 알고리즘을 통해서 성능을 최대화하면서 탄소 배출량을 최소화하는 데이터 센터 선택 결정 백터를 선정

Pros

  1. 미래의 정보를 모르는 상태에서 최적화 문제를 해결하기 어렵다는 점을 인식해 더 작은 단위의 시간에 대한 최적화를 수행함
    • 현재 타임 슬롯이 끝났을 때 탄소 강도를 고려해 다음 타임 슬롯에서 탄소 배출량 정도를 조절하는 adaptive형식의 최적화
  2. 사용가능한 여러 Greedy 알고리즘을 실제 적용하며 가장 성능이 좋은 알고리즘을 찾음
    • 선행연구에서 밝혀진 2가지 (Deterministic, Randomized Double Greedy Algorithm)에 대해서 평가를 진행
  3. coreset 방법을 사용해 접근함
    • 전체 데이터 센터를 가동하기에는 탄소 배출의 문제가 있음
    • 각 로컬 데이터 센터의 데이터 셋은 non-IID임. 따라서, 전체 데이터 분포를 잘 대표하는 데이터 센터를 찾아야 할 필요가 존재함.
    • 전체 데이터 센터의 gradient와 선택된 일부 데이터 센터의 gradient의 오차를 최소화해서 모델의 성능을 정량화함.

Cons

  1. 실제 실험에서는 대규모 AI 모델과 지리적으로 분산된 데이터 센터를 활용하지 못 함
    • 논문의 가정이 지리적으로 분산된 데이터 센터에서 대규모 AI 모델을 학습할 때 성능과 탄소 배출량의 최적화이기 때문에 실제 상황에서 견고성을 실험해봐야 함.
  2. non-IID라고 가정하고 coreset기법을 사용하기 때문에 IID 데이터 센터의 경우 성능이 하락되는 모습을 보였음.
    • IID의 경우 데이터의 분포가 일정하기 때문에 각 데이터 센터의 기여도 또한 유사함. (잘 대표하는 것을 찾을 필요 없음)
    • 따라서, 성능보다 탄소 배출량에 초점을 두고 데이터 센터를 선택하게 됨.

Figure & Equation

[Framework Overview]
image

[Utility Function]
$U^t(a^t) = b - \sum_{j \in \mathcal{N}} \min_{i \in \mathcal{K}^t} \left|\left| \nabla f_j(w) - \nabla f_i(w) \right|\right|$

[Total tiem slot optimization]
$max_{a_0, \dots, a^{T-1}} \frac{1}{T} \sum_{t=0}^{T-1} U^t(a^t)$

Subject to:
$\sum_{t=0}^{T-1} c^t(a^t \mid \beta^t) \leq H$ $a_i^t \in {0, 1}, \quad \forall i, \forall t$

[Pre-slot optimization]
$max_{a^{T}} V \cdot U^t(a^t) - q^0 \cdot c^t$

Cite

Jieming Bian, Lei Wang, Shaolei Ren, and Jie Xu. 2024. CAFE: Carbon-Aware Federated Learning in Geographically Distributed Data Centers✱. In Proceedings of the 15th ACM International Conference on Future and Sustainable Energy Systems (e-Energy '24). Association for Computing Machinery, New York, NY, USA, 347–360. https://doi.org/10.1145/3632775.3661970