2025년 11월 18일, 수많은 게임과 온라인 서비스가 갑자기 먹통이 되었습니다. 약 3시간 동안 전 세계 수백만 명이 접속 불가를 경험했는데, 원인은 단 하나의 기업 클라우드플레어의 장애였습니다.
이번 사태의 정확한 원인과 피해 규모, 그리고 대응 방법까지 상세히 알려드립니다.
🔥 무슨 일이 있었나요
2025년 11월 18일 오후 8시 48분경, 웹 인프라 기업인 클라우드플레어에서 대규모 네트워크 장애가 발생했습니다.
이로 인해 전 세계적으로 X(구 트위터), 챗GPT, 리그 오브 레전드(롤), 일부 스팀 게임 등 수많은 온라인 서비스가 동시에 접속 불가 상태에 빠졌습니다.
클라우드플레어는 전 세계 웹사이트의 약 20%에 CDN(콘텐츠 전송 네트워크) 서비스를 제공하는 거대 기업으로, 이들의 장애는 곧바로 광범위한 서비스 마비로 이어졌습니다.
디스코드, 네이버, 유튜브 등 일부 서비스는 정상 작동했지만, 클라우드플레어를 사용하는 서비스들은 대부분 영향을 받았습니다.
특히 게임 업계에서는 라이엇 게임즈의 리그 오브 레전드를 비롯해 패스 오브 엑자일, 일부 스팀 게임들이 로그인 및 게임 시작이 불가능한 상태가 되었습니다.
라이엇 게임즈는 공식 서비스 상태 페이지를 통해 "외부 네트워크 서비스의 글로벌 장애"로 인한 문제임을 밝혔습니다.
⚙️ 정확한 원인은 무엇인가요
클라우드플레어 측은 공식 블로그를 통해 장애 원인을 상세히 밝혔습니다.
문제는 Bot Management 기능의 피처 파일 생성 로직에 있던 버그에서 시작되었습니다.
한 서비스로 유입되는 비정상 트래픽이 급증하면서, 이것이 클라우드플레어 네트워크를 통과하는 일부 트래픽에 오류를 발생시켰습니다.
특히 문제가 된 점은 매 5분마다 올바른 구성 파일과 문제가 있는 구성 파일이 번갈아 생성되면서, 시스템이 정상화되었다가 다시 실패하는 현상이 반복되었다는 것입니다.
이러한 변동성으로 인해 상황 파악과 대응이 더욱 어려워졌으며, 결과적으로 약 3시간 동안 서비스가 불안정한 상태로 유지되었습니다.
클라우드플레어는 한국시각 오후 11시 42분경 "사고가 현재 해결된 것으로 판단한다"고 공지하며 서비스 복구를 알렸습니다.
이번 장애는 2019년 이후 클라우드플레어가 겪은 최악의 장애로 기록되었습니다.
🌐 어떤 서비스들이 영향을 받았나요
이번 클라우드플레어 장애로 영향을 받은 서비스는 매우 광범위했습니다.
SNS 분야에서는 X(구 트위터)가 접속 장애를 겪었으며, 관련 문제 제기가 5600건 이상 보고되었습니다.
AI 서비스로는 오픈AI의 챗GPT와 앤스로픽의 클로드가 접속 불가 상태가 되어 "challenges.cloudflare.com 차단을 해제하십시오"라는 메시지가 표시되었습니다.
게임 분야에서는 리그 오브 레전드, 패스 오브 엑자일, 일부 스팀 게임, 게임 플랫폼 itch.io 등이 영향을 받았습니다.
클라우드 서비스에서는 아마존웹서비스(AWS), 마이크로소프트 애저, Workers KV 등이 오류를 겪었으며, 가상화폐 거래소 코인베이스, 무디스 신용 평가 서비스, 미국 뉴저지 교통국의 디지털 서비스까지 중단 또는 지연되었습니다.
심지어 클라우드플레어 자체의 대시보드와 로그인 시스템도 Turnstile을 사용할 수 없어 대부분의 사용자가 로그인할 수 없는 상태가 되었습니다.
💡 클라우드플레어란 무엇인가요
클라우드플레어는 전 세계 웹사이트와 애플리케이션에 CDN(콘텐츠 전송 네트워크), DDoS 방어, 인터넷 보안 서비스 등을 제공하는 웹 인프라 기업입니다.
전 세계 웹사이트의 약 20%가 클라우드플레어의 서비스를 이용하고 있어, 이들의 장애는 곧바로 광범위한 영향을 미치게 됩니다.
클라우드플레어는 웹사이트의 로딩 속도를 높이고, 악의적인 공격으로부터 보호하며, 트래픽을 효율적으로 분산시키는 역할을 합니다.
이렇게 광범위한 분야와 다양한 업체에서 사용되다 보니, 한 번의 대형 장애로도 수많은 서비스가 동시에 영향을 받게 되는 것입니다.
실제로 지난 10월에도 아마존웹서비스(AWS)의 대규모 장애로 포트나이트, 로블록스, 배틀그라운드, 슬랙, 디즈니 플러스 등 수많은 온라인 서비스가 멈춘 사례가 있었습니다.
불과 1개월 만에 다시 발생한 이번 클라우드플레어 장애는 클라우드 인프라에 대한 의존도가 얼마나 높은지를 보여주는 사례가 되었습니다.
🛡️ 향후 대책은 무엇인가요
클라우드플레어는 공식 블로그를 통해 재발 방지를 위한 여러 대책을 발표했습니다.
우선 클라우드플레어에서 생성된 구성 파일 수집 과정을 사용자 생성 입력 처리 시와 동일한 방식으로 강화할 예정입니다.
또한 기능에 대한 더 많은 글로벌 킬 스위치를 활성화하여, 문제 발생 시 신속하게 해당 기능을 중단할 수 있도록 개선합니다.
핵심 덤프나 기타 오류 보고가 시스템 자원을 과도하게 점유하는 것을 방지하는 조치도 마련됩니다.
모든 핵심 프록시 모듈에서 오류 조건에 대한 실패 모드를 재검토하여, 문제 발생 시 더욱 안정적으로 대응할 수 있는 시스템을 구축할 계획입니다.
그러나 문제는 서비스를 이용하는 최종 소비자의 경우 이러한 대형 클라우드 인프라 장애에 마땅한 대책이 없다는 점입니다.
개인 사용자 입장에서는 서비스 복구를 기다리는 것 외에는 특별한 방법이 없는 것이 현실입니다.
💡 핵심 요약
2025년 11월 18일 오후 8시 48분, 클라우드플레어의 Bot Management 기능 버그로 인해 약 3시간 동안 전 세계적으로 X, 챗GPT, 리그 오브 레전드 등 수많은 온라인 서비스가 마비되었습니다. 오후 11시 42분경 서비스가 복구되었으며, 클라우드플레어는 재발 방지를 위한 다양한 대책을 마련 중입니다. 이는 2019년 이후 클라우드플레어가 겪은 최악의 장애로 기록되었습니다.