가상 장애 대응 문서 - youngy1212/Concert GitHub Wiki

가상 장애대응 문서

장애 탐지

  • 발생 일시 : 2025/02/27 18:00 :
    • 콘서트 예약 시스템 대기열 등록에 장애 발생
  • 장애 유형 : 데이터베이스 장애 (Redis 서버 다운)
  • 장애 확인 방법 :
    • 실시간 모니터링을 통해 Redis 서버 로그 확인
    • 모니터링 도구를 통해 Redis 서버의 CPU 사용률이 100%에 도달한 것을 확인
    • 이후 모든 요청에 요청 실패가 반환됨

장애 전파

  • 에러 반복 발생: Redis 서버 다운으로 애플리케이션에서 에러가 반복 반환됨.

장애 원인

  • 부하 테스트 결과: VU (Virtual Users) 수가 25,000명 이상일 때 Redis 서버가 부하를 견디지 못하고 다운됨

장애 후속 조치

  • 장애 재발 방지 및 더 많은 트래픽 발생시 개선 방안 마련
    • 모니터링 및 알림 시스템 도입: 모니터링 시스템을 보강하고 장애 발생 시 알림 시스템을 도입하여 실시간으로 대응 가능
    • Redis 클러스터링: 단일 노드 대신 Redis 클러스터를 도입하여 데이터 분산 및 처리 능력을 향상
    • Redis 스케일 업 (Scale Up) : Redis 성능을 높여서 고가용성을 확보
    • 로드 밸런서 도입: 트래픽을 균등하게 분산 처리하기 위해 로드 밸런서를 도입
    • 서킷 브레이크 도입 : 서킷 브레이크를 통해, redis 장애시 장애전파를 막고 빠른 redis 회복