Synth Daily
周一,亚马逊网络服务(AWS)发生了一次波及全球的大规模故障,导致从社交媒体、在线游戏到银行、航空公司等无数网站和应用程序陷入瘫痪。这次事件的根源是亚马逊位于弗吉尼亚州的一个关键数据中心出现技术问题,具体涉及其名为 DynamoDB 的数据库服务。这起事故不仅扰乱了数百万人的工作和日常生活,例如无法进行移动点餐、智能家居设备失灵,甚至引发了玩家对自己游戏连胜记录丢失的恐慌。更重要的是,它暴露了现代互联网在多大程度上依赖于少数几家科技巨头提供的底层基础设施,引发了关于网络服务过度集中化风险的深刻讨论。尽管亚马逊最终修复了问题,但这次宕机事件清晰地展示了当互联网的“隐形支柱”动摇时,会产生多么广泛而深远的影响。
要点
- 1全球性影响:故障波及全球,导致 Snapchat、Roblox、Reddit、达美航空 以及多家银行等大量热门服务中断。
- 2技术根源:问题出在亚马逊位于弗吉尼亚的 US-EAST-1 数据中心,具体是一个名为 DynamoDB 的核心数据库服务出现了 DNS 解析错误。
- 3生活化冲击:此次宕机直接影响了普通人的日常生活,从无法使用星巴克APP点餐、Ring门铃失灵,到 Alexa 闹钟无法关闭,再到 Wordle 玩家因担心失去连胜记录而感到焦虑。
- 4暴露核心风险:事件凸显了全球互联网对少数几家云服务提供商(如亚马逊、微软、谷歌)的高度依赖,一旦它们出现问题,就会产生多米诺骨牌效应。
视角
网络安全专家
“这就像互联网的大部分区域遭遇了暂时性失忆。亚马逊安全地保存着数据,但在几个小时里谁也找不到它,导致应用程序与它们的数据暂时分离。”
Wordle 玩家
“这真的、真的很有压力。当看到我 292 天的 Wordle 连胜纪录突然消失时,我开始感到恐慌。这次经历让我意识到自己对这个游戏有多上瘾。”
亚马逊(AWS)
“我们确认 US-EAST-1 区域的 DynamoDB 端点请求出现显著的错误率。我们正积极采取缓解措施,并努力实现全面解决。”
事件影响
这次 AWS 宕机的影响远远超出了网站无法访问的范畴,它深入到人们日常生活的方方面面。在家庭中,一些用户被持续响铃的 Alexa 闹钟吵醒,却无法通过语音指令关闭它;Ring 智能门铃和摄像头系统失灵,让一些人感到不安。在通勤路上,星巴克的移动点餐应用瘫痪,导致顾客不得不在店内排队点单。对于金融用户来说,Robinhood 和 Webull 等交易平台无法访问,一些日内交易者可能因此错过了交易机会。甚至在工作和学习中,Slack、Zoom 和 Canvas 等协作与教学平台也出现问题,打乱了正常的工作和学习节奏。
一名用户在社交媒体上写道:“我的 Alexa 闹钟响了 30 分钟。我只是想多睡一会儿。” 这条简单的抱怨生动地描绘了技术故障如何直接侵入最私人的生活空间。
技术细节
要理解这次事件,需要了解几个关键概念。AWS (Amazon Web Services) 是亚马逊提供的云计算服务,它就像互联网的“隐形脚手架”,为成千上万的公司提供数据存储、计算能力等后台支持,而不是让每家公司都自建昂贵的数据中心。DynamoDB 是 AWS 提供的一个核心数据库服务,许多应用程序用它来存储和管理用户信息等关键数据。而 DNS (Domain Name System) 则像是一个“地址簿”,负责将我们输入的网址(如 amazon.com)翻译成计算机能读懂的 IP 地址。这次故障的根本原因,就是位于弗吉尼亚州(US-EAST-1)数据中心的 DynamoDB 服务在 DNS 环节出了问题,导致其他应用“找不到”它们需要的数据,从而引发了连锁反应式的服务中断。
时间线
故障发生与恢复的关键节点
- 1
美东时间周一凌晨 3:11
AWS 首次报告其 US-EAST-1 区域的多个服务出现“错误率和延迟增加”。
- 2
美东时间凌晨 4:26
亚马逊确认 DynamoDB 端点存在“显著错误率”,工程师开始积极处理。
- 3
美东时间上午 6:00
AWS 宣布大部分受影响的服务开始恢复,依赖于该区域的全球服务也已恢复。
- 4
美东时间上午 11:43
AWS 公布了对根本原因的更新,指出问题与一个负责监控网络负载均衡器健康状况的“底层内部子系统”有关。
Q&A
Q: 为什么亚马逊的一个问题,会导致这么多看似无关的应用和服务都瘫痪了?
A: 因为 AWS 是全球最大的云服务提供商,占据约 30% 的市场份额。许多公司,无论是大型企业还是初创公司,都选择将其在线服务托管在 AWS 上,而不是自建服务器。这就像许多商店都开在同一个大型购物中心里。当购物中心(AWS)的主供电系统出现故障时,里面的所有商店(各种应用和服务)都会受到影响而无法营业。
Q: 这次事件是黑客攻击吗?
A: 目前没有证据表明这是一次网络攻击。根据亚马逊的声明和专家的分析,这看起来更像是一次“老式的技术问题”。很可能是一次软件更新或内部系统配置错误引发的故障,而非外部恶意行为导致。
你知道吗?
此次故障的中心——亚马逊的 US-EAST-1 区域,位于美国弗吉尼亚州北部。这个地区被称为“数据中心巷”,是全球最大、最重要的互联网流量枢纽之一。据估计,全球每天有高达 70% 的互联网流量会经过这里的服务器。因此,该区域的任何风吹草动,都可能在全球范围内引发网络震荡。
来源
 | 全球大规模宕机波及亚马逊、Snapchat、航空网站等,最新情况一览 |
 | 导致 Wordle 崩溃(以及部分玩家崩溃)的故障 |
 | AWS宕机影响全线,从错过星巴克订单到Alexa闹钟失灵 |
 | 关于亚马逊云服务中断你需要了解的几点 |
 | 亚马逊云服务故障,Snapchat、Ring及众多在线服务受影响 |
 | 亚马逊云服务故障,导致全球网站大面积瘫痪 |