AI VIDEO BRIEFING
AWS US-East-1 대규모 장애 15년사, 6번의 붕괴가 남긴 교훈
오타 하나부터 자동화 경합까지, AWS 북버지니아 US-East-1 지역에서 15년간 반복된 6번의 대형 장애와 인터넷 집중 의존의 위험을 짚어본다.

핵심 메시지
쉽게 이해하기
영상은 2025년 10월 20일 아침, 병원 진료 기록이 열리지 않고 항공 탑승권 발급이 멈추며 코인베이스·슬랙·스냅챗 등 수많은 서비스가 동시에 다운된 장면으로 시작한다. 사이버 공격도 자연재해도 아닌, 버지니아주 애시번 데이터센터 안 두 소프트웨어 프로세스 사이의 타이밍 문제가 원인이었고, 이는 같은 지역에서 벌어진 여섯 번째 대형 장애였다.
US-East-1은 AWS가 가장 먼저 만든 리전으로, S3·EC2·다이나모DB·람다 같은 핵심 서비스가 이곳에서 처음 구축·테스트됐다. 그 결과 사실상의 기본값이 됐고, 오늘날 인터넷 트래픽의 30~50%가 이 한 지역을 통과하는 것으로 추정된다고 영상은 설명한다.
장애의 계보는 다양하다. 2011년에는 네트워크 업그레이드 중 방향을 반대로 설정한 실수가 EBS의 연쇄 재미러링 피드백 루프를 일으켜 나흘간 복구가 걸렸다. 2012년에는 폭풍으로 발전기 전환 스위치가 오작동했는데, 넷플릭스는 카오스 몽키로 미리 장애를 연습해 둔 덕에 자동으로 트래픽을 옮겨 살아남았다.
2017년에는 S3 엔지니어의 명령어 오타로 인덱스 서브시스템이 통째로 제거돼 수많은 앱이 멈췄고, 상태 대시보드마저 S3에 올려져 있어 장애 상황을 표시하지 못했다. 2020년 추수감사절 전날에는 키네시스 변경이 IAM·코그니토·클라우드워치로 번졌고, 2021년에는 알렉사·링·룸바는 물론 아마존 자체 물류까지 흔들렸다.
2025년 장애는 다이나모DB의 DNS 레코드를 관리하는 자동화에서 두 중복 구성요소가 드문 경합 조건에 부딪혀 엔드포인트 주소가 삭제되며 시작됐다. 데이터가 아니라 주소가 사라지자 이를 참조하던 EC2 등 다른 서비스가 줄줄이 멈췄고, 복구는 순서를 지켜 진행하느라 14시간이 걸렸다.
주요 인사이트
- 복잡한 시스템은 예측한 방식이 아니라, 미처 대비하지 못한 방식으로 실패한다는 점이 여섯 장애의 공통 교훈이다.
- 장애를 고쳐야 할 도구(관리 콘솔·상태 대시보드)가 장애 대상과 같은 인프라에 의존하면, 문제 자체가 복구 수단을 무력화한다.
- 넷플릭스 사례처럼 평소에 의도적으로 장애를 일으켜 대비(카오스 엔지니어링)한 조직만이 실제 장애에서 차이를 만들었다.
- 편의 때문에 한 지역에 의존이 집중되면, 개별 사고가 곧바로 전 세계 규모의 사고로 증폭된다.
자주 묻는 질문
US-East-1이 왜 그렇게 중요한 지역이 됐나요?
AWS가 가장 먼저 만든 리전이라 핵심 서비스들이 이곳에서 처음 구축·테스트됐고, 초기 개발자들이 모두 여기에 몰리며 사실상 기본값이 됐기 때문입니다. 영상은 인터넷 트래픽의 30~50%가 이 지역을 지난다고 추정합니다.
2012년 폭풍 장애 때 넷플릭스는 어떻게 살아남았나요?
넷플릭스는 2년간 카오스 몽키라는 소프트웨어로 자사 시스템을 무작위로 중단시키며 장애에 견디도록 훈련해 왔고, AWS가 나빠지자 시스템이 자동으로 영향받은 존에서 트래픽을 옮겨 스트리밍을 유지했습니다.
2025년 장애의 직접적인 원인은 무엇이었나요?
다이나모DB의 DNS 레코드를 관리하는 자동화에서 두 중복 구성요소가 드문 타이밍 경합에 부딪혀 지역 엔드포인트의 DNS 주소가 삭제됐고, 그 주소로 다이나모DB를 찾던 여러 서비스가 연쇄적으로 멈췄습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗