微软 Azure 因一次错误的配置更改,导致其 Azure Front Door (AFD) 和 DNS 服务发生大规模宕机。此次故障使得 Azure 门户、单一登录(SSO)系统以及大量依赖其 CDN 的客户服务无法访问。用户反馈称,从银行到零售商店的众多服务均受到影响,而微软官方的状态更新缓慢且信息不明确。这一事件引发了业界对云服务稳定性的广泛讨论,许多用户表示将加速从 Azure Front Door 迁移到 Cloudflare 等替代方案,并重新审视其多云策略的必要性。
故障核心:一次错误的配置更改
微软官方确认,此次事件的根本原因是 一次无意的配置更改。这个问题直接冲击了 Azure 的两个关键全球服务:
- Azure Front Door (AFD): 一个全球性的内容分发网络(CDN)和应用加速服务。
- DNS: 域名系统,负责将域名解析为 IP 地址。
故障发生后,微软采取了两个并行措施:阻止对 AFD 服务的所有新更改,并同时将系统回滚到上一个已知的稳定状态。为了恢复管理功能,他们还采取了绕过 AFD 的应急方案,以使客户能够直接访问 Azure 管理门户。
我们怀疑一次无意的配置更改是此次事件的触发因素。我们正在采取两个并行行动,即阻止对 AFD 服务的所有更改,同时回滚到我们最后一个已知的良好状态。
广泛的现实影响
这次宕机的影响远远超出了技术圈,波及了大量依赖 Azure 服务的日常应用和商业活动。
- 支付系统中断: 有用户报告称,超市的收银机因无法连接网络而关闭,导致无法收款。
- 消费应用瘫痪: 星巴克的移动点餐和外卖平台 GrubHub 等应用也出现服务中断。
- 企业服务受阻: 依赖
login.microsoftonline.com进行单一登录(SSO)的企业内部系统完全无法访问。 - 网站和 CDN 失效: 使用 Azure CDN 托管前端或静态资源(如 CSS, JS 文件)的网站无法加载,直接导致服务不可用。
许多用户指出,这类事件凸显了现代商业对少数几家云服务提供商的过度依赖。
我注意到星巴克的移动点餐服务挂了,然后想在 Grubhub 上点餐,结果 Grubhub 也挂了。我下一站就是来 Hacker News 找共同点,你们果然没让我失望。
对 Azure Front Door 的长期不满
在讨论中,许多开发者表达了对 Azure Front Door 长期存在的不满,认为它一直是一个不稳定的服务。
- 历史可靠性差: 有用户称 AFD 自推出以来就一直是故障点,并建议直接迁移到任何其他替代方案。
- 性能问题: 一位用户分享了他们被迫将大文件存储从 AFD 迁移的经历,因为下载速度被限制在 2MB/s,导致 Windows 应用商店和 Xbox 下载缓慢。
- 糟糕的客户支持: 针对性能问题的支持请求被告知“这是预期行为,我们不打算做任何改变”。
这次事件成为了许多人决定彻底放弃 AFD、转向 Cloudflare 等竞品的催化剂。用户普遍认为 Cloudflare 不仅性能更好,成本更低,而且其配置界面响应速度也远超 Azure。
关于云服务可靠性的反思
此次 Azure 宕机紧随不久前的 AWS 故障,再次引发了关于云服务集中化风险的讨论。
“一个人常常在他选择避开的道路上,遇见自己的命运。” —— 乌龟大师
许多评论认为,“多云”策略虽然复杂,但在关键时刻能够挽救核心业务。同时,这也引出了一个更深层次的问题:当所有人都依赖少数几家巨头时,所谓的“高可用性”变得脆弱不堪。
- “没人会因为购买 IBM 而被解雇”的新版本: 选择大型云服务商(如 AWS, Azure)可以将故障责任转移给供应商。当它们宕机时,你的客户和竞争对手也可能同时宕机,这反而降低了自身声誉受损的风险。
- 中心化的悖论: 互联网本应是去中心化的,但市场最终整合到了少数几家巨头手中。这主要是因为规模效应、成熟的生态系统以及人才市场的导向。
- 灾难恢复的讽刺: 一些企业在试图“消除单点故障”时,反而引入了更多、更复杂的故障点,最终导致系统更加脆弱。