가상 장애 대응 문서 - youngy1212/Concert GitHub Wiki
가상 장애대응 문서
장애 탐지
- 발생 일시 : 2025/02/27 18:00 :
- 장애 유형 : 데이터베이스 장애 (Redis 서버 다운)
- 장애 확인 방법 :
- 실시간 모니터링을 통해 Redis 서버 로그 확인
- 모니터링 도구를 통해 Redis 서버의 CPU 사용률이 100%에 도달한 것을 확인
- 이후 모든 요청에 요청 실패가 반환됨
장애 전파
- 에러 반복 발생: Redis 서버 다운으로 애플리케이션에서 에러가 반복 반환됨.
장애 원인
- 부하 테스트 결과: VU (Virtual Users) 수가 25,000명 이상일 때 Redis 서버가 부하를 견디지 못하고 다운됨
장애 후속 조치
- 장애 재발 방지 및 더 많은 트래픽 발생시 개선 방안 마련
- 모니터링 및 알림 시스템 도입: 모니터링 시스템을 보강하고 장애 발생 시 알림 시스템을 도입하여 실시간으로 대응 가능
- Redis 클러스터링: 단일 노드 대신 Redis 클러스터를 도입하여 데이터 분산 및 처리 능력을 향상
- Redis 스케일 업 (Scale Up) : Redis 성능을 높여서 고가용성을 확보
- 로드 밸런서 도입: 트래픽을 균등하게 분산 처리하기 위해 로드 밸런서를 도입
- 서킷 브레이크 도입 : 서킷 브레이크를 통해, redis 장애시 장애전파를 막고 빠른 redis 회복