2025년 11월 18일, 오전 6시 20분(동부 표준시). 우리 중 많은 사람들이 인터넷 중단을 경험했습니다.
점진적인 중단도 아니었고, 경고 신호도 없었습니다. 휴대폰을 스와이프하고, 거래를 하고, AI와 채팅을 하다가 어느 순간 눈에 보이는 500여 개의 오류 페이지가 모두 사라졌습니다.
트위터가 트윗 도중에 갑자기 다운되고, ChatGPT가 대화 도중에 응답을 멈추고, Claude가 멈췄습니다.
모든 플랫폼이 다운될 때 상황을 파악하기 위해 방문하는 사이트인 다운디텍터조차 로드되지 않습니다. - 가 로드되지 않아 '모든 서비스가 다운되었습니다'라고 알려주지 않습니다.
인터넷을 공격으로부터 보호해야 하는 Cloudflare가 실수로 '공격'을 받아 전 세계 네트워크의 20%가 허공으로 사라져 버렸습니다.
일상적인 구성 변경(데이터베이스 권한 업데이트)이 봇 보호 시스템의 숨겨진 취약점을 유발했고, '게이트키퍼'가 순식간에 모든 사람을 차단했습니다.
코인베이스가 아마존의 클라우드 서비스(AWS)로 인해 10월에 오프라인 상태가 되었을 때, 암호화폐 트위터리안들은 여전히 '중앙 집중화'의 폐해를 조롱하고 있었습니다.
그러나 11월에 클라우드플레어 서비스 중단이 발생했을 때는 어땠을까요? 적어도 처음 몇 시간 동안은 암호화폐 업계가 조용했습니다.
결국, 트위터가 의존하는 인프라가 다운된 상황에서 트위터에서 '인프라 취약성'에 대해 이야기할 수는 없습니다.
환승역 시스템이 다운되고, 일부 비즈니스의 웹 인터페이스에 장애가 발생하고, Arbiscan, DeFiLlama 등의 블록체인 브라우저에서 500개의 오류가 발생하고 있습니다! -- 하지만 블록체인 자체는 합의가 깨질 조짐을 보이지 않고 있습니다.
한 회사의 구성 파일이 너무 커서 자랑스러운 '탈중앙화' 혁명이 실패한다면 누가 진짜 통제권을 쥐고 있는 걸까요?
실패 타임라인: '구성 변경'에서 '모두 다운'으로
UTC 시간: 11:00 UTC실패 타임라인. "">11:05 UTC 시간: 데이터베이스 액세스 제어 변경 배포 완료.
23분 후인 11:28 UTC에 사용자 환경에 변경 사항이 재정의되고 사용자의 HTTP 트래픽에 첫 번째 오류가 기록됩니다.
다시 말해, 장애가 이미 발생했지만 당시에는 문제가 무엇인지 아무도 알지 못했습니다.
한국 시간으로 오전 11시 48분, Cloudflare의 공식 상태 페이지에서 마침내 "내부 서비스에 장애가 발생했다"는 사실을 인정했는데, 이 회사의 말의 진정한 의미는 다음과 같습니다. "모든 것이 엉망이고 모든 사람이 볼 수 있습니다."라는 뜻입니다.
이 변경으로 인해 Cloudflare의 봇 관리가 중단되었고, 시스템이 두 배로 커진 기능 파일을 로드하는 동안 프록시 서비스가 "다운"되는 등 파급 효과는 예상치 못하게 발생했습니다.
다운스트림 시스템 충돌: 워커 KV 및 Access가 프록시에 연결할 수 없었고, 네트워크 전반의 오류율이 급증했으며, 모니터링 도구가 로드되면서 CPU 사용량이 최고조에 달했습니다. 모니터링 도구가 로드되면서 CPU 사용량이 급증했습니다.
트래픽은 여전히 Cloudflare의 에지 노드로 쏟아지고 있지만 프록시 서비스는 더 이상 응답할 수 없습니다.
Cloudflare는 처음에 대규모 분산 서비스 거부(DDoS) 공격을 받고 있는 것으로 생각했습니다.
더 기이한 점은 Cloudflare 인프라 외부에서 호스팅되는 공식 상태 페이지까지 함께 다운되었으며, 엔지니어들은 핵심 시스템과 모니터링 시스템에 대한 조직적인 공격이라고 의심했습니다.
그러나 실제로는 그렇지 않았습니다. 외부에서 공격을 받은 것이 아니라 내부에서 문제가 발생한 것입니다.
서비스가 복구된 직후 Cloudflare의 최고기술책임자(CTO)인 Dane Knecht는 공개 사과문을 발표하면서 이 사건을 "완전히 용납할 수 없는" 사건이라며 장애의 원인을 봇의 실드에 충돌을 일으킨 일상적인 구성 변경을 탓했습니다.
"우리는 고객과 더 넓은 인터넷 커뮤니티에 실망을 안겨주었습니다."라고 Knecht는 성명에서 "봇 보호 기능을 뒷받침하는 서비스 중 하나의 잠재적 취약점이 일상적인 구성 변경 후 갑자기 충돌을 일으켰습니다."라고 썼습니다. 봇 보호 기능을 뒷받침하는 서비스 중 하나의 잠재적 취약성이 일상적인 구성 변경 후 갑자기 충돌하여 네트워크 및 기타 서비스가 광범위하게 중단되었습니다. 이는 외부 공격이 아니었습니다."
장애가 최고조에 달했을 때 다운디텍터 플랫폼에 11,183건의 장애 보고가 접수되었습니다.
이 '디지털 암흑'은 5시간 반 이상 지속되었고 서비스는 17:06 UTC까지 완전히 복구되지 않았지만, 전 세계적으로 올바른 봇 관리 프로필이 배포된 14:30에 최악의 영향이 완화되었습니다. .
아웃타임 타격: Web2에서 암호화폐까지, 누구도 피해갈 수 없었습니다
Web2 플랫폼이 가장 큰 타격을 받았습니다
X 플랫폼은 9,706건의 문제 보고를 받았습니다.
사용자에게 익숙한 타임라인이 표시되지 않고 "죄송합니다, 문제가 발생했습니다"라는 오류 메시지가 표시되었습니다.
대화 도중에 갑자기 ChatGPT가 '무음'으로 전환되어 더 이상 어떠한 명령에도 응답하지 않습니다.
Spotify의 스트리밍 서비스가 중단되고, Canva의 디자인 플랫폼이 디자이너를 차단했으며, Uber와 Door Dash에서도 이상 현상이 발생했습니다.
게이머도 예외는 아니어서, 리그 오브 레전드 플레이어는 게임 도중 강제 연결이 끊기는 경험을 했습니다.
맥도날드의 셀프 서비스 주문 키오스크에서도 오류 화면이 뜨는 등 일부 소식통에 따르면 인프라 장애와 점심시간이 겹쳐서 주문이 폭주한 것으로 알려졌습니다.
암호화폐 분야도 '내버려두지 않았습니다.
대규모 암호화폐 플랫폼 중단
Coinbase 프론트엔드가 완전히 다운되어 사용자들은 로딩할 수 없는 로그인 페이지만 마주하게 되었습니다.
Kraken의 웹과 모바일 앱은 모두 "죽은" 상태였으며, 이는 Cloudflare의 글로벌 서비스 중단의 직접적인 결과였습니다.
비트멕스는 상태 페이지에 "중단 원인을 조사 중이며 플랫폼 성능은 저하되었지만 사용자 자금은 안전합니다."라는 글을 올렸습니다. -- 각본은 같고 거래소만 다를 뿐입니다.
이더스캔이 로드되지 않았고, Arbiscan은 곧바로 다운되었습니다.
디필라마의 데이터 분석 대시보드에서 간헐적으로 내부 서버 오류가 발생했습니다.
Even Ledger는 Cloudflare 중단으로 인해 일부 서비스의 가용성이 중단되었다는 공지를 발표했습니다.
유일한 '예외': 블록체인 프로토콜 자체
하지만 다음 시스템은 영향을 받지 않았습니다.
코인, OKX, 바이비트, 크립토닷컴, 쿠코인 등 주요 거래소는 프론트엔드 장애가 발생하지 않았으며 온체인 거래는 정상적으로 진행되고 있는 것으로 알려졌습니다. - 한편, 블록체인 자체는 컨센서스 중단의 징후 없이 정상적으로 작동하고 있습니다.
블록체인 프로토콜은 항상 독립적으로 작동해 왔습니다 - 문제는 체인이 아니라 사람들이 블록체인에 액세스하는 데 사용하는 웹2.0 인프라에 있습니다.
블록체인은 여전히 작동하지만 아무도 접근할 수 없다면 암호화폐는 정말 여전히 '온라인'인 것일까요?
심층 분석: 데이터베이스 쿼리가 웹의 20%를 마비시키는 이유는 무엇인가요?
Cloudflare는 웹사이트를 호스팅하지 않으며 AWS와 같은 클라우드 서버를 제공하지 않습니다.
사용자와 인터넷 사이의 '중개자'로서 120개국 330개 도시의 노드를 통해 2400만 웹사이트에 서비스를 제공합니다. 120개국 330개 도시의 노드를 통해 2,400만 개의 웹사이트를 서비스하며 전 세계 웹 트래픽의 20%를 처리합니다.
Cloudflare는 연중무휴 DDoS 보호, 봇 보호, 트래픽 라우팅, 글로벌 웹 애플리케이션 방화벽(WAF), TLS 종료, 작업자 기반 방화벽, 웹 서버를 제공하는 "인터넷의 방패이자 가속기"로 포지셔닝하고 있습니다. 24시간 연중무휴 DDoS 보호, 봇 보호, 트래픽 라우팅, 글로벌 웹 애플리케이션 방화벽(WAF), TLS 종료, 워커 기반 엣지 컴퓨팅, DNS 서비스를 모두 통합된 '보안-성능' 네트워크에서 실행합니다.
그리고 실제로는 엣지 노드에서 초당 449테라비트(Tbps)의 총 대역폭으로 DDoS 방어 분야에서 82%의 시장 점유율을 차지하고 있으며 전 세계 주요 인터넷 서비스 사업자(ISP) 및 클라우드 제공업체와 연결되어 있습니다.
문제의 핵심은 중개자가 실패하면 그 뒤에 있는 모든 서비스가 동시에 '연결할 수 없게' 된다는 것입니다.
클라우드플레어의 CTO인 데인 크네흐트는 Platform X에 대해 다음과 같이 솔직하게 말했습니다:
Cloudflare의 CTO인 데인 크네흐트는 Platform X에 대해 이렇게 솔직하게 말했습니다.. 왼쪽;">
"솔직히 말씀드리자면, 오늘 Cloudflare의 네트워크 문제로 인해 당사에 의존하는 대량의 트래픽이 영향을 받았을 때 우리는 고객과 광범위한 인터넷 사용자 커뮤니티에 실패했습니다."
.
CEO Matthew Prince는 훨씬 더 직접적이었습니다.
"오늘은 2019년 이후 Cloudflare의 최악의 장애입니다 ...... 지난 6년 이상 동안 핵심 트래픽의 대부분이 네트워크를 통해 이동하지 못하는 장애가 발생한 적은 없었습니다. 네트워크를 통해 전송합니다."
서비스 중단의 기술적 원인
이 모든 것은 다음과 같은 일로 시작되었습니다. 11:05(UTC)에 Cloudflare는 보안과 안정성을 개선하기 위해 ClickHouse 데이터베이스 클러스터를 변경하여 '암시적 액세스 권한'이 있는 사용자가 테이블 메타데이터를 '명시적으로' 볼 수 있도록 했습니다.
어떤 문제인가요? Cloudflare 로봇 보호 서비스 프로필을 생성하는 데이터베이스 쿼리가 '데이터베이스 이름'에 대해 필터링되지 않습니다.
위협 트래픽 관리를 담당하는 쿼리 문이 기본 데이터베이스와 기본 r0 스토리지 데이터베이스에서 중복된 항목을 반환하기 시작했습니다. 그 결과 기능 파일의 크기가 약 60개에서 200개 이상의 기능으로 두 배로 늘어났습니다.
Cloudflare는 메모리 사전 할당에 대해 200개의 기능 상한을 하드코딩했는데, "이는 현재 실제로 사용하는 60개 기능보다 훨씬 많은 양입니다." 라고 말했습니다. 이는 예상치 못한 상황이 발생할 때까지 "충분히 느슨하다"고 생각되는 안전 마진을 설정하는 전형적인 엔지니어링 사고방식입니다.
과도한 크기의 파일로 인해 캡이 트리거되고 "thread fl2_worker_thread panicked:" 오류 메시지와 함께 Rust 코드가 크래시되었습니다. Err 값에 대해 Result::unwrap () 메서드를 호출했습니다."(fl2_worker_thread 스레드 패닉: Err 값에 대해 호출된 Result::unwrap () 메서드).
봇 가드는 Cloudflare 제어 계층의 핵심 구성 요소입니다. 충돌이 발생하면 로드 밸런서에 "어떤 서버가 가동 중이고 실행 중인지"를 알려주는 상태 확인 시스템도 "실패"합니다.
설상가상으로 이 구성 파일은 5분마다 재생성됩니다.
오류 데이터는 쿼리가 "업데이트된 클러스터 노드"에서 실행되는 경우에만 생성됩니다. 그 결과, Cloudflare의 네트워크는 5분마다 '정상'과 '결함' 사이를 반복적으로 전환하여 때로는 올바른 파일을 로드하고 때로는 잘못된 파일을 로드합니다.
이러한 '반복적인 사이드 호핑'으로 인해 엔지니어들은 DDoS 공격이 진행 중이라고 판단했습니다. 내부 오류는 일반적으로 시스템 '복구 및 충돌'의 주기로 이어지지 않습니다.
결국 모든 ClickHouse 노드가 업데이트를 완료하고 매번 잘못된 파일을 생성했습니다. "반복적인 수평 점프"는 멈추고 "완전하고 안정적인 실패"로 대체되었습니다.
정확한 시스템 신호 없이 시스템은 대부분의 서버를 '비정상'으로 판단하는 '보수적 모드'로 기본 설정되었습니다. 트래픽은 계속 쏟아져 들어오는데 제대로 라우팅할 수 없습니다.
Cloudflare의 에지 노드는 사용자 요청을 수신할 수는 있지만 아무 것도 할 수 없습니다.
"외부 공격이 아니었습니다."라고 Knecht는 반복해서 말하며 "악의적인 행동도 없었고 DDoS 공격도 아니었습니다."라고 설명합니다. 필터를 놓친 데이터베이스 쿼리가 권한 업데이트와 충돌하여 결국 서비스 중단을 일으킨 것일 뿐입니다."
"외부 공격이 아니었습니다."
"외부 공격이 아니었습니다.
Cloudflare는 "99.99% 가용성"을 약속했지만 이번에는 약속을 지키지 못했습니다.
이것은 사실입니다.
역사는 반복됩니다: 18개월 동안 4번의 대규모 중단, 그리고 중앙 집중화 딜레마를 해결하기 어려운 이유.
2015년 10월 20일 - AWS 중단이 15시간 동안 지속되었습니다. 미국 동부 지역 1에서 DynamoDB 데이터베이스 DNS 확인에 실패하여 코인베이스가 멈추고, Robinhood가 지연되며, Infura 서비스가 중단되고(이는 메타마스크에도 영향을 미침), Base, Polygon, Optimism, Arbitrum, Linea, Scroll의 모든 블록체인 네트워크가 오프라인 상태가 됩니다. 사용자 자금이 체인에서 안전하게 보호되고 있음에도 불구하고 많은 분들이 계정 잔액이 '0'인 것을 확인했습니다.
2025년 10월 29일 - Microsoft Azure 중단. Azure Front Door에서 구성 동기화 문제가 발생해 Microsoft 365 Office 제품군이 오프라인 상태가 되고, Xbox Live 서비스가 중단되고, 엔터프라이즈 서비스가 중단되었습니다.
2024년 7월 - CrowdStrike(보안 회사) Windows 업데이트 패키지가 취약합니다. 이 결함으로 인해 항공편이 결항되고, 병원 진료가 지연되며, 금융 서비스가 중단되고, 완전히 복구하는 데 며칠이 걸립니다.
2022년 6월 - Cloudflare의 마지막 대규모 서비스 중단. 연도만 다를 뿐 동일한 패턴으로 여러 암호화폐 거래소가 서비스를 중단해야 했습니다.
2019년 7월 - 클라우드플레어의 이전 서비스 중단. 코인베이스가 오프라인 상태가 되고 코인마켓캡에 접속할 수 없습니다. -- 모두가 무시했던 첫 번째 '경고 신호'였습니다.
단 18개월 동안 네 번의 주요 인프라 장애가 발생했습니다.
이 네 가지 실패는 중앙 집중식 인프라는 필연적으로 '중앙 집중식 장애'로 이어진다는 동일한 교훈을 전달합니다.
4가지 실패는 탈중앙화로의 암호화폐 산업 전환을 가속화할 수 있었지만, 지금까지는 세 회사가 제공하는 인프라에 의존해 왔습니다.
업계가 '실패할 가능성이 있다는 가정'에서 '실패가 불가피하다는 것을 전제로 시스템을 구축'하려면 얼마나 많은 경고가 필요할까요?
탈중앙화 '거짓말': 프로토콜이 탈중앙화되었다고 해서 접속이 탈중앙화되는 것은 아닙니다
< span leaf="">그들은 당신에게 이런 청사진을 그렸습니다:
"탈중앙화된 금융, 검열에 강한 통화, 아무런 필요 없는 시스템 신뢰할 수 있는 시스템, 단일 장애 지점이 없는 시스템, "개인 키가 아니면 코인이 아니다", "코드는 법이다."
11월 18일의 현실은 충격적이었습니다. 오전에 Cloudflare의 서비스 중단으로 암호화폐 업계의 일부 서비스가 몇 시간 동안 중단되었습니다.
기술적 진실:
다운된 블록체인 프로토콜은 보고된 바 없습니다. 비트코인 네트워크는 이더 네트워크와 마찬가지로 정상적으로 작동하고 있으며, 체인 자체에는 문제가 없습니다.
실제 현실:
실제 현실:
<...
< strong>거래소 인터페이스가 다운되고, 블록체인 브라우저가 다운되고, 지갑 인터페이스가 다운되고, 데이터 분석 플랫폼이 다운되고, 거래 인터페이스에 500개의 오류가 발생합니다.
사용자는 '소유'해야 하는 '탈중앙화된' 블록체인에 접근할 수 없습니다. 프로토콜 자체는 '도달'할 수만 있다면 정상적으로 작동합니다.
다음 문장은 많은 분들에게 따끔할 수 있습니다 ......
소버린AI의 최고운영책임자(COO) 데이비드 슈웨드는 다음과 같이 말합니다:
"오늘 Cloudflare 가동 중단과 몇 주 전 AWS 가동 중단은 인프라의 '복원력'을 단순히 단일 공급업체에 아웃소싱할 수 없다는 점을 분명하게 보여줍니다. 조직이 연중무휴 24시간 가동되어야 한다면 '장애는 반드시 발생한다'는 전제하에 인프라를 구축해야 합니다. 비즈니스 연속성 계획에 '공급업체가 서비스를 복구할 때까지 기다리는 것'만 포함되어 있다면 이는 명백한 과실입니다."
"순수 과실" - 사고도 아니고 누락도 아닌 과실입니다.
제임슨 롭의 발언이 정곡을 찌릅니다:
"우리는 훌륭한 탈중앙화 기술을 가지고 있지만, 대부분의 서비스를 소수의 공급자에게 집중시킴으로써 매우 취약한 구조를 가지고 있습니다."
AWS의 지난 서비스 중단 당시 벤 쉴러가 말한 내용은 현재에도 적용됩니다."
"AWS 중단으로 인해 블록체인이 오프라인 상태가 된다면, 이는 충분히 탈중앙화되지 않은 것입니다."
"AWS"를 "Cloudflare"로 바꾸어도 문제의 본질은 똑같습니다. 업계는 교훈을 얻지 못했습니다.
'원칙' 대신 '편의'를 선택하는 이유는 무엇일까요?
자체 인프라를 구축하려면 고가의 하드웨어 구매, 안정적인 전원 공급 장치 확보, 전용 대역폭 유지, 보안 전문가 고용, 지리적 이중화 구현, 재해 복구 시스템 구축, 24시간 모니터링 등 각각에 막대한 투자가 필요합니다. - 이 모든 것에는 상당한 리소스가 필요합니다.
Cloudflare를 사용하면 버튼을 클릭하고 신용 카드 정보를 입력하기만 하면 몇 분 안에 배포할 수 있습니다.
DDoS 보호는 다른 사람이 처리하고, 가용성은 다른 사람이 보장하며, 확장은 다른 사람이 처리합니다.
스타트업은 빠른 시장 출시를, VC는 자본 효율성을, 모두가 복원력보다 편의성을 선택하고 있습니다.
편리함이 더 이상 편리하지 않을 때까지.
10월의 AWS 중단은 트위터에서 '탈중앙화'에 대한 끝없는 토론을 촉발시켰습니다.
11월의 Cloudflare 서비스 중단은 어땠나요? Ravenous.
'철학적 차원의 침묵'이나 '깊은 생각 후의 조용함'에서 비롯된 것이 아닙니다.
그러나 사람들은 트롤링을 하고 싶지만 평소 트롤링 플랫폼(트위터)이 인프라 장애로 인해 다운되어 있다는 사실을 알게 됩니다.
'단일 장애 지점'이 '단일 장애 지점'을 조롱하는 데 사용하는 플랫폼일 경우 트롤링할 방법이 없습니다.
'프로토콜 수준에서의 탈중앙화'는 액세스 계층이 세 회사의 인프라에 의존하고 그 중 두 회사도 같은 달에 장애를 일으킨다면 아무 의미가 없습니다.
사용자가 블록체인에 접근할 수 없다면, 소위 '탈중앙화'를 통해 정확히 무엇을 '탈중앙화'하는 것일까요?
독점 딜레마: 3개 기업이 클라우드 시장의 60%를 장악하고 있는 상황에서 암호화폐는 앞으로 어디로 갈까요?
AWS는 전 세계 클라우드 인프라 시장의 약 30%, Microsoft Azure는 20%, Google Cloud는 13%를 점유하고 있습니다.
현대 인터넷의 기반이 되는 클라우드 인프라의 60% 이상을 이 세 회사가 장악하고 있습니다.
'중앙화된' 솔루션이어야 할 암호화폐 산업은 이제 세계에서 가장 중앙화된 인프라에 의존하고 있습니다.
암호화폐 업계의 '중앙화된 종속성 목록'
코인베이스 -- AWS에 의존하고 있습니다.
코인베이스, 비트멕스, 파이어코인, 크립토닷컴. -- 모두 AWS에 의존하고 있습니다.
AWS에 인프라를 구축하는 크라켄은 클라우드플레어에서 CDN("콘텐츠 전송 네트워크") 중단으로 인해 피해를 입었습니다. 클라우드플레어에서 콘텐츠 전송 네트워크) 중단이 발생했습니다.
'탈중앙화'라고 주장하는 많은 거래소가 실제로는 중앙화된 인프라에서 운영되고 있습니다.
10월과 11월의 서비스 중단에는 또 다른 중요한 차이점이 있었습니다.
AWS가 다운되는 동안 X. 플랫폼(이전의 트위터)은 계속 가동되었지만, 암호 화폐 영역의 트위터 사용자들은 '인프라 취약성'을 야유할 수 있었습니다.
그리고 클라우드플레어가 실패하자 플랫폼 X는 오프라인 상태가 되었습니다.
사용 중인 플랫폼 자체가 '단일 장애 지점'의 일부인 경우 웃을 수만은 없습니다.
이런 아이러니 때문에 처음부터 업계에서 활발하게 논의되어야 할 사안이 지연되었습니다.
30일 동안 세 번의 주요 장애가 발생하자 규제 당국은 크게 우려하고 있습니다.
규제 당국의 핵심 질문
이 회사들이 과연 '시스템적으로 중요한 조직'인가요?
인터넷 백본 서비스는 '유틸리티형 규제'의 적용을 받아야 할까요?
'너무 커서 실패하기 어려운' 속성이 기술 인프라와 결합되면 어떤 위험이 발생하나요?
Cloudflare가 전 세계 웹 트래픽의 20%를 제어한다면 독점 문제가 발생할 수 있을까요?
기사 19의 코린 캐스-스페스는 지난 AWS 서비스 중단 당시 "공급자가 다운되면 주요 서비스도 다운됩니다!"라고 단도직입적으로 표현했습니다. -- 미디어에 액세스할 수 없게 되고, Signal과 같은 보안 통신 애플리케이션이 작동을 멈추고, 디지털 사회를 지탱하는 인프라가 무너지게 됩니다. 우리는 클라우드를 다변화해야 합니다."
다시 말해, 각국 정부는 소수의 기업만으로도 인터넷이 멈출 수 있다는 사실을 깨닫고 있습니다.
사실 탈중앙화 대안은 오래전부터 존재해왔지만 아무도 이를 채택하려 하지 않았을 뿐입니다.
예를 들어, 스토리지에는 Arweave, 분산 파일 전송에는 IPFS, 컴퓨팅에는 Akash, 탈중앙 호스팅에는 Filecoin이 있습니다.
탈중앙화 솔루션이 '비명을 지르는' 이유는 무엇일까요?
성능이 중앙 집중식 솔루션에 비해 뒤처지고 지연 문제가 사용자가 직접 체감할 수 있습니다.
인기가 매우 낮고, 'AWS에 배포'를 클릭하는 편리함에 비해 분산형 솔루션의 사용자 환경은 번거롭고 복잡합니다.
비용은 '빅 3'(AWS, Azure, Google Cloud)의 인프라를 임대하는 것보다 높은 경향이 있습니다.
현실은 다음과 같습니다.
진정한 분산형 인프라를 구축하는 것은 어렵습니다. 상상 그 이상입니다.
대부분의 프로젝트는 '탈중앙화'라는 립서비스만 제공할 뿐, 실제로 시작되는 경우는 거의 없습니다. 중앙 집중식 솔루션을 선택하는 것이 항상 더 간단하고 저렴한 옵션이며, 18개월 동안 4번의 정전이 발생하고 나서야 사람들은 '간단하고 저렴하다'는 이면에 숨겨진 엄청난 비용을 깨닫게 됩니다.
OORT의 CEO인 Max Li 박사는 최근 코인데스크 기고문에서 업계의 위선을 정면으로 공격했습니다:
"탈중앙화'라는 자부심을 갖고 자신의 강점을 지속적으로 선전하는 업계가 인프라를 취약한 중앙화된 클라우드 플랫폼에 과도하게 의존하는 것은 본질적으로 위선적인 일입니다."
그가 제안한 해결책은 거래소가 중요 시스템을 탈중앙화된 네트워크로 분산 배치할 수 있는 하이브리드 클라우드 전략입니다.
중앙화된 클라우드 플랫폼의 성능과 규모 이점을 대체할 수는 없지만, 수십억 달러가 걸려 있고 거래의 1초가 중요한 상황에서는 분산 솔루션보다 장애에 대한 복원력이 훨씬 떨어집니다. 분산형 솔루션보다 장애에 대한 복원력이 훨씬 떨어집니다.
아이디어는 편리함의 대가가 업계의 행동 패턴을 바꿀 만큼 심각할 때만 편리함을 이길 수 있습니다.
11월 18일의 서비스 중단도, 10월 20일의 AWS 서비스 중단도, 2024년 7월의 CrowdStrike 서비스 중단도 충분히 나쁘지 않았을 것이 분명합니다.
'탈중앙화 인프라'가 '화두'에서 '필수 요건'으로 바뀌려면 무엇이 필요할까요?
11월 18일 암호화폐 업계는 '실패'한 것이 아니라 블록체인 자체가 완벽하게 작동했습니다.
진짜로 실패한 것은 열악한 인프라에서 막을 수 없는 앱을 만들 수 있고, 검열에 대한 저항은 세 회사가 액세스를 통제할 때만 의미가 있으며, 클라우드가 액세스를 통제하면 검열에 저항할 필요가 없다는 업계의 집단적 거짓말입니다. '무력화된 인프라'에서 '막을 수 없는 앱'을 구축할 수 있고, 세 회사가 '액세스'를 제어할 때 '검열 방지'가 의미가 있으며, Cloudflare의 구성 파일 하나로 수백만 명의 거래 여부를 결정할 때 '탈중앙화'가 진정한 탈중앙화라고 생각하는 것은 거짓말입니다.
블록체인이 여전히 블록을 생성하고 있지만 아무도 트랜잭션을 제출할 수 없다면 정말 '온라인'으로 간주할 수 있을까요?
업계에는 비상 계획이 없습니다.
문제가 발생하면 Cloudflare가 문제를 해결하고 AWS가 서비스를 복원하고 Azure가 패치를 배포할 때까지 기다려야 합니다.
이것이 현재 업계의 '재해 복구 전략'입니다.
디지털 신원이 블록체인에 깊이 연결된다면 어떻게 될까요?
미국 재무부는 스마트 컨트랙트에 신원 인증 정보를 내장하여 모든 DeFi 상호작용을 KYC로 검증하도록 요구하고 있습니다.
다음 인프라 장애가 발생하면 사용자는 거래에 대한 액세스 권한뿐만 아니라 금융 시스템에서 '신원을 증명'하는 기능도 잃게 됩니다.
3시간의 중단이었을 수 있는 일이 3시간의 '인간 인증 인터페이스'가 되는 이유는 인증 서비스가 중단된 인프라에서 실행되고 있기 때문입니다.
규제 당국이 원하는 '보안 울타리'는 '인프라가 항상 온라인 상태'라는 전제를 깔고 있습니다. 하지만 11월 18일의 정전은 이러한 전제가 성립되지 않는다는 것을 증명했습니다.
'과도한 감시'의 문제가 명백해지자 기술 실무자들은 '개인정보 보호'로 눈을 돌립니다.
이제 '인프라 복원력'을 도입해야 할 때입니다.
다른 모든 기능이 손실되는 '있으면 좋은' 기능이 아니라 '있으면 좋은' 기능이어야 합니다.
다음 중단은 이미 파이프라인에 있으며, AWS에서 발생할 수도 있고, Azure에서 발생할 수도 있고, Google Cloud에서 발생할 수도 있고, Cloudflare에서 발생할 수도 있습니다. 2차 중단이 발생할 수도 있습니다.
다음 달이 될 수도 있고 다음 주가 될 수도 있습니다. 인프라는 변하지 않았고, 종속성도 변하지 않았으며, 업계 인센티브도 변하지 않았습니다.
중앙 집중식 솔루션을 선택하는 것이 여전히 더 저렴하고 빠르며 쉬운 옵션이지만, 그렇지 않은 경우도 있습니다.
다음번 Cloudflare의 일상적인 구성 변경으로 인해 다음 중요 서비스에 숨겨진 취약점이 발생하면, 우리는 다시 한번 500개의 오류 페이지, 거래의 완전한 중단, 정상 작동하지만 아무도 액세스하거나 트윗할 수 없는 블록체인이라는 익숙한 '드라마'를 목격하게 될 것입니다. 아무도 접속할 수 없고, '탈중앙화'에 대한 트윗을 올렸다가 트위터가 다운되고, 기업들은 '다음에는 더 잘하겠다'고 약속했지만 결국 실현되지 않았습니다.
편리함이 위험 예방보다 항상 우위에 있기 때문에 이 모든 것은 변하지 않을 것이며, 편리함의 대가를 무시할 수 없는 날이 올 때까지는 계속될 것입니다.
이번 게이트키퍼는 3시간 30분 동안 마비되었습니다.
다음에는 더 오래 지속될 수도 있고, 다음에는 "매초의 거래가 생사의 문제"인 시장 폭락장에서 발생할 수도 있으며, 다음에는 인증 시스템이 중단되는 도중에 잡힐 수도 있습니다.
손실을 가장 적게 감수할 수 있는 바로 그 순간에 의존하는 인프라가 마비된다면 누구의 잘못일까요?