“지금 터졌다면, 이렇게 움직여라” — ai 전세계 동시다운 클라우드 플레어 오류·접속 장애 실시간 복구
“지금 터졌다면, 이렇게 움직여라” — ai 전세계 동시다운 클라우드 플레어 오류·접속 장애 실시간 복구
📌 2025.11.19 업데이트 · 온콜/PM/CS 팀 공용
0분~15분: 탐지·안정화(Stop the bleeding)
- 상태 확인: 4xx/5xx 피크, 지역(POP)·경로 분포 파악.
- 임시 우회: 프론트는 대기실(Waiting Room) ON, 다운로드 경로 qps 제한.
- 고객 공지: 상태페이지·SNS에 1차 알림(영향/대상/대안 미러).
15분~45분: 용량 확보·병목 제거
- Tiered Cache·Cache Reserve 활성, Bypass 규칙 제거.
- 오리진 Nginx에서 sendfile on, keepalive·버퍼 상향, limit_rate_after로 초반만 스로틀.
- 핫파일은 사인드 URL 미러로 분산, TTL 24~72h.
- 워커 타임아웃·메모리 한도 상향(임시), 429 응답에 Retry-After 부여.
45분~90분: 정상화·롤백·후속 공지
- 임시 완화 정책 단계적 해제(WAF/봇/속도).
- 로그 스냅샷 보존(Ray ID/경로/IP 해시/지역).
- 상태페이지에 타임라인·영향 범위·대응 조치 공개.
장애 원인 매핑 테이블
| 증상 | 지표/로그 | 추정 원인 | 조치 |
|---|---|---|---|
| 429 급증 | WAF/Rate limit 히트 | 스크립트 폭주 | qps 완화+Retry-After+토큰화 |
| 522/524 급증 | 오리진 RTT↑/CPU↑ | 소켓/스레드 고갈 | 버퍼/타임아웃↑·LB 분산 |
| 지역 국지 장애 | POP·ASN 편중 | 라우팅/ISP 이슈 | Argo 경로·Geo 차단 해제 |
커뮤니케이션 템플릿(요약)
[장애 공지] 11/19 20:12~20:47 (KST) • 현상: 다운로드 429/524 증가(일부 지역) • 원인: AI 모델 파일 동시다운 급증에 따른 캐시 미적중/오리진 지연 • 조치: Waiting Room/Rate limit 적용, 미러 URL 제공, 캐시 강제 프리로드 • 현재: 정상화(20:47), 세부 RCA는 본문 링크 참고
사후(RCA)·예방
- RCA 문서화: 타임라인·지표·결정·대안·재발방지.
- 배포 전 미리 프리로드·사인드 URL·TTL 전략 수립.
- 대용량 신규 릴리스는 웨이팅룸과 토큰 버킷을 기본 제공.
결론
장애는 피할 수 없지만, 30~90분 내 복구는 설계할 수 있습니다. 상태페이지·미러·완화/복원 스위치를 표준화해 두면 ‘터짐’이 와도 흔들리지 않습니다.
