Synth Daily

北弗吉尼亚现在还是 AWS 最不稳定的区域吗?

根据2025年的故障数据分析,AWS的北弗吉尼亚区域(us-east-1)依然是其最不稳定的区域。它在故障次数、总停机时间和受影响的服务组件数量上都远超其他区域。分析表明,问题的核心在于该区域极高的用户密度和繁重的负载,而非其基础设施老旧。计算、分析及人工智能相关的服务是故障高发区,同时跨区域故障的趋势也在增加。

区域故障排名:北弗吉尼亚问题突出

数据显示,北弗吉尼亚(us-east-1)再次成为最不可靠的AWS区域。

  • 故障总数最多:10次
  • 停机总时长最长:接近34小时
  • 受影响的组件最多:126个

相比之下,其他区域的故障情况要轻微得多。斯德哥尔摩区域虽然停机总时长位居第二(超过11小时),但仅发生了2次故障。此外,“无区域”(Regionless)类别的故障显著增加,记录了12次故障和32小时的停机,这表明影响多个区域的全局性服务中断事件在2025年变得更加普遍。

哪些 AWS 服务故障最频繁?

除了区域性中断,特定服务的故障也同样具有破坏性。按故障次数排名,以下服务类型问题最突出:

  • 计算服务是重灾区,尤其是:
    • Amazon EC2(核心计算)
    • Amazon ECS(容器)
    • Amazon EMR(大数据)
  • SageMaker(机器学习服务)的故障次数超出预期,显示出新的可靠性风险。
  • 在故障最频繁的服务中,EMR 的累计停机时间最长,达到了21小时39分钟。

停机时间最长或影响最广的服务

一些服务的故障次数不多,但单次中断的持续时间极长或影响范围极广。

  • OpenSearchEMR ServerlessCloudWatch 的累计停机时间均超过了 24小时
  • 一些关键任务系统,如 STSDynamoDBLambdaELB,也经历了长时间的中断。

结论是:北弗吉尼亚不仅是故障最多的区域,也是服务中断影响范围最广、持续时间最长的区域。几乎所有涉及 EC2、SageMaker、EMR 等核心服务的重大故障,都会波及到该区域。

为什么北弗吉尼亚依然最不稳定?

我们重新审视了关于 us-east-1 不稳定性的三个常见理论。

  • 假设一:“服务多,所以更容易出问题?” 这个解释有一定道理,但不是根本原因。北弗吉尼亚区域受影响的组件(126个)远超其他区域,说明其服务依赖关系更复杂,故障的“爆炸半径”更大。然而,俄勒冈和爱尔兰等区域提供的服务数量相近,但问题却少得多。

  • 假设二:“用户最多,负载最重?” 这仍然是 最有可能的解释。监控数据显示,使用北弗吉尼亚区域的用户数量几乎是第二名俄勒冈区域的两倍。更多的客户意味着更重的负载和更大的压力,从而导致更多问题暴露出来。

  • 假设三:“设施老旧,架构不同?” 没有证据支持 这个理论。AWS从未表示 us-east-1 的架构有根本不同。而且,一些更古老的区域(如东京和悉尼)的停机时间极短,而一些较新的区域(如苏黎世和海得拉巴)反而出现了数小时的中断。

2025年 AWS 可靠性总结

  • us-east-1 (北弗吉尼亚) 仍然是 最不可靠 的AWS区域,在故障次数、停机时间和影响范围上均居首位。
  • 计算、分析和AI/ML服务 是故障高发区,特别是 EC2、SageMaker、EMR 和 ECS
  • 部分服务的 中断时间极长,如 OpenSearch、CloudWatch 和 EMR Serverless,累计停机超过24小时。
  • 跨区域和全局性故障 的情况有所增加。