Synth Daily

AWS DNS 故障导致全球大规模服务中断

· 2025-10-21

周一，亚马逊网络服务（AWS）发生了一次重大故障，其位于弗吉尼亚州北部数据中心的DNS（域名系统）错误导致超过100项服务中断。这次事件波及全球，像 Snapchat、Reddit 这样的社交平台，乃至《堡垒之夜》等热门游戏和部分银行服务都陷入瘫痪。数百万用户受到影响，凸显了现代互联网对少数几家云服务巨头的高度依赖。尽管问题在当天晚些时候得到解决，但它引发了关于技术基础设施中心化风险的广泛讨论。这个看似微小的技术错误，最终演变成一场波及全球的数字风暴，暴露出我们数字生活脆弱的一面。

要点

1故障根源是一个 DNS 错误，发生在全球最大的数据中心集群之一——AWS 弗吉尼亚北部数据中心。
2影响范围极广，超过100项 AWS 服务中断，导致 Snapchat、Reddit、Venmo 等众多网站和应用瘫痪。
3事件暴露了全球互联网对 AWS、微软 Azure 和谷歌云这三大巨头的过度依赖，形成了关键的单点故障风险。
4专家指出，虽然云服务提供了便利，但这种高度集中的架构是不可持续的，一旦出现问题，就会对整个经济造成巨大冲击。

视角

艾伦·伍德沃德教授 (萨里大学)

这次事件凸显了我们的基础设施是多么相互依赖。许多在线服务都依赖第三方，这表明即使是最大的供应商也可能出问题。微小的错误，通常是人为的，却可能产生广泛而重大的影响。

科里·克里德 (技术未来研究所)

这有点像一座桥梁坍塌了。当供应集中在少数几个垄断供应商手中时，一旦其中一个倒下，就会带走经济的很大一部分。这种现状是不可持续的，对我们的安全和经济都是一种风险。

肯·伯曼教授 (康奈尔大学)

部分责任在于使用 AWS 的公司。他们没有采取足够的谨慎措施，为自己的应用程序构建保护系统。我们知道如何让这些系统更强大，问题在于公司是否愿意投入资源来备份关键应用。

技术细节

这次故障的核心是 DNS，即域名系统。你可以把它想象成互联网的“电话簿”。当你输入一个网址时，DNS 会将这个人类可读的地址（如 bbc.co.uk）翻译成计算机能够理解的数字 IP 地址，从而连接到正确的服务器。如果 DNS 失效，浏览器就找不到目标网站，对用户来说，网站就像消失了一样。

DNS 的核心作用是将人类语言的域名翻译成机器语言的 IP 地址。它的失效是导致本次大规模网络瘫痪的直接原因。

争议焦点

这次事件再次点燃了关于“中心化风险”的辩论。全球约 70% 的云计算市场由亚马逊、微软和谷歌主导。这种高度集中的结构意味着，任何一家巨头的失误都可能造成灾难性的连锁反应，影响从社交、娱乐到金融的方方面面。

专家警告称，过度依赖少数几家美国科技巨头，对其他国家的经济安全乃至主权构成了潜在威胁，市场需要更多样化的本地服务来增强韧性。

时间线

故障与恢复过程

1
周一早上 07:00 (BST)
故障开始出现。全球用户开始报告无法访问 Snapchat、Reddit 等多个平台，问题报告数量迅速攀升。
2
周一白天
故障影响范围扩大，全球用户问题报告在高峰期超过 1100 万次，涉及数百个网站和服务。
3
周一晚上 23:00 (BST)
亚马逊宣布，所有受影响的 AWS 服务已恢复正常运行，持续了近一天的全球性网络故障得到解决。

Q&A

Q: 为什么一个地方的数据中心出问题，会影响到全世界？

A: 因为发生故障的 AWS 弗吉尼亚北部数据中心（代号 US-EAST-1）是亚马逊历史最悠久、规模最大的数据中心，是全球互联网的核心节点之一。无数公司，无论大小，都依赖它来托管服务器、处理数据和分发内容。当这个核心节点出现问题时，就会产生多米诺骨牌效应，迅速波及所有依赖其服务的全球客户。

你知道吗？

此次故障发生的弗吉尼亚州北部，被称为“数据中心巷”（Data Center Alley）。这里聚集了数百个数据中心，承载着全球大部分的互联网流量。据统计，仅弗吉尼亚州的数据中心就消耗了该州四分之一的可用电力，引发了当地居民对环境和生活质量的担忧。

来源

一个常见错误引发重大 AWS 故障，导致 Reddit 到 Snapchat 等平台瘫痪

亚马逊故障“已解决”，Snapchat和多家银行受影响