Cloudflare 故障引发大规模网络瘫痪,暴露互联网基础设施脆弱性
周二,网络安全与基础设施公司 Cloudflare 发生了一次重大故障,导致全球互联网大面积中断约三小时。包括 X (原 Twitter)、ChatGPT、Spotify 在内的众多主流网站和服务陷入瘫痪。Cloudflare 官方表示,事故并非由恶意攻击引起,而是一个自动生成的配置文件体积过大,触发了内部流量管理软件的崩溃。此次事件再次凸显了现代互联网对少数几家核心服务商的严重依赖。近期,亚马逊 AWS 和微软 Azure 也相继发生类似故障,引发了业界对互联网基础设施脆弱性的普遍担忧。
要点
- 1事故原因:故障源于一个过大的自动配置文件导致内部软件崩溃,已排除恶意攻击的可能。
- 2影响范围:全球约 20% 的网站受到影响,包括社交媒体、AI 工具、游戏平台甚至公共交通系统。
- 3公司回应:Cloudflare 首席技术官公开致歉,承认“辜负了客户和整个互联网”,并承诺改进。
- 4行业背景:此次事件是继亚马逊和微软之后,一个月内第三起大型云服务商故障,暴露了互联网的单点故障风险。
视角
David Choffnes, 东北大学计算机科学教授
“我们在一个月内就看到了 AWS、Azure 和 Cloudflare 的中断。这占据了全球最大云提供商的很大一部分。在如此短的时间内看到这样重大的中断是不寻常的。”
Timothy Edgar, 布朗大学计算机科学教授
“这次中断是另一个令人警醒的例子,说明我们对关键互联网基础设施的依赖程度有多深,以及政府在追究大公司责任方面做得有多么少。”
Mehdi Daoudi, Catchpoint 公司 CEO
“这些中断都产生了连锁反应,扰乱了依赖其服务的其他平台,并造成了数十亿美元的损失。这些事件凸显了我们在线基础设施的脆弱性。”
技术原因与事件影响
Cloudflare 的服务中断,根源在于一个用于管理网络威胁流量的配置文件。这个文件被自动生成时,大小超出了预期,直接导致处理流量的核心软件系统崩溃。虽然没有黑客攻击,但其后果却波及全球。从社交平台 X、AI 聊天机器人 ChatGPT 和 Claude,到流媒体服务 Spotify、电商平台 Shopify,甚至《英雄联盟》等在线游戏和新泽西州的公共交通系统都受到了影响。
Cloudflare 的首席技术官 Dane Knecht 在事后坦言:“我不拐弯抹角了:今天早些时候,我们辜负了我们的客户和更广泛的互联网。”
行业反思:互联网的脆弱性
当今的互联网越来越像一个由少数巨头支撑起来的建筑。Cloudflare、亚马逊 AWS、微软 Azure 和谷歌云等少数几家公司,构成了全球互联网的骨架。这意味着,任何一家出现问题,都会导致大范围的“数字瘫痪”。这次 Cloudflare 的故障,连同前不久亚马逊和微软的宕机事件,清晰地揭示了这种中心化结构带来的风险。当大部分网站都依赖相同的底层服务时,一个单点故障就能轻易地让半个互联网陷入沉寂。
一位专家向《卫报》指出:“少数几家大公司就是‘互联网的基础设施’,所以当其中一家出现故障时,后果就变得非常明显。”
时间线
故障当天关键节点 (美国东部时间)
- 1
上午 6:20
Cloudflare 首次检测到其一项服务出现“异常流量”,问题开始显现。
- 2
上午 7:00 左右
全球用户开始大规模报告网站和应用无法访问,出现 500 错误。
- 3
上午 9:30 左右
Cloudflare 宣布问题已基本解决,服务中断持续约三小时后大部分恢复正常。
- 4
下午 2:30
公司正式确认事件已解决,所有服务恢复正常运行,网络错误率和延迟恢复到正常水平。
Q&A
Q: 什么是 Cloudflare?为什么它的故障会影响这么多网站?
A: Cloudflare 是一家互联网基础设施公司,它提供“内容分发网络”(CDN) 服务。简单来说,它在全球部署了大量服务器,将网站内容缓存到离用户最近的地方,从而让网站加载更快、更安全。全球大约 20% 的网站都使用它的服务。当用户访问一个受 Cloudflare保护的网站时,他们实际上是先连接到 Cloudflare 的服务器。因此,一旦 Cloudflare 自身出现故障,所有依赖它的网站就会同时无法访问,造成大面积网络瘫痪。
你知道吗?
在这次大范围的网络故障中,连专门用来追踪网站宕机情况的网站 Downdetector 本身,也因为依赖 Cloudflare 的服务而一度无法访问。