根据2025年的故障数据分析,AWS的北弗吉尼亚区域(us-east-1)依然是其最不稳定的区域。它在故障次数、总停机时间和受影响的服务组件数量上都远超其他区域。分析表明,问题的核心在于该区域极高的用户密度和繁重的负载,而非其基础设施老旧。计算、分析及人工智能相关的服务是故障高发区,同时跨区域故障的趋势也在增加。
区域故障排名:北弗吉尼亚问题突出
数据显示,北弗吉尼亚(us-east-1)再次成为最不可靠的AWS区域。
- 故障总数最多:10次
- 停机总时长最长:接近34小时
- 受影响的组件最多:126个
相比之下,其他区域的故障情况要轻微得多。斯德哥尔摩区域虽然停机总时长位居第二(超过11小时),但仅发生了2次故障。此外,“无区域”(Regionless)类别的故障显著增加,记录了12次故障和32小时的停机,这表明影响多个区域的全局性服务中断事件在2025年变得更加普遍。
哪些 AWS 服务故障最频繁?
除了区域性中断,特定服务的故障也同样具有破坏性。按故障次数排名,以下服务类型问题最突出:
- 计算服务是重灾区,尤其是:
- Amazon EC2(核心计算)
- Amazon ECS(容器)
- Amazon EMR(大数据)
- SageMaker(机器学习服务)的故障次数超出预期,显示出新的可靠性风险。
- 在故障最频繁的服务中,EMR 的累计停机时间最长,达到了21小时39分钟。
停机时间最长或影响最广的服务
一些服务的故障次数不多,但单次中断的持续时间极长或影响范围极广。
- OpenSearch、EMR Serverless 和 CloudWatch 的累计停机时间均超过了 24小时。
- 一些关键任务系统,如 STS、DynamoDB、Lambda 和 ELB,也经历了长时间的中断。
结论是:北弗吉尼亚不仅是故障最多的区域,也是服务中断影响范围最广、持续时间最长的区域。几乎所有涉及 EC2、SageMaker、EMR 等核心服务的重大故障,都会波及到该区域。
为什么北弗吉尼亚依然最不稳定?
我们重新审视了关于 us-east-1 不稳定性的三个常见理论。
假设一:“服务多,所以更容易出问题?” 这个解释有一定道理,但不是根本原因。北弗吉尼亚区域受影响的组件(126个)远超其他区域,说明其服务依赖关系更复杂,故障的“爆炸半径”更大。然而,俄勒冈和爱尔兰等区域提供的服务数量相近,但问题却少得多。
假设二:“用户最多,负载最重?” 这仍然是 最有可能的解释。监控数据显示,使用北弗吉尼亚区域的用户数量几乎是第二名俄勒冈区域的两倍。更多的客户意味着更重的负载和更大的压力,从而导致更多问题暴露出来。
假设三:“设施老旧,架构不同?” 没有证据支持 这个理论。AWS从未表示 us-east-1 的架构有根本不同。而且,一些更古老的区域(如东京和悉尼)的停机时间极短,而一些较新的区域(如苏黎世和海得拉巴)反而出现了数小时的中断。
2025年 AWS 可靠性总结
- us-east-1 (北弗吉尼亚) 仍然是 最不可靠 的AWS区域,在故障次数、停机时间和影响范围上均居首位。
- 计算、分析和AI/ML服务 是故障高发区,特别是 EC2、SageMaker、EMR 和 ECS。
- 部分服务的 中断时间极长,如 OpenSearch、CloudWatch 和 EMR Serverless,累计停机超过24小时。
- 跨区域和全局性故障 的情况有所增加。