2025年11月18日,Cloudflare 发生了一次内部服务故障,导致其全球网络中的多项核心服务出现中断或性能下降。受影响的服务包括 Access、WARP、CDN 缓存和防火墙等。经过数小时的紧急修复,工程团队逐步恢复了各项服务,错误率和网络延迟最终回归正常水平。官方确认事件已解决,并建议用户重新启用在故障期间临时关闭的服务。
故障概述
事件始于一次内部服务性能下降,迅速演变为对客户可见的广泛影响。用户在使用多项 Cloudflare 服务时,可能会遇到间歇性的高错误率和延迟。
主要受影响的服务包括:
- Access
- Bot 管理
- CDN 缓存
- 仪表盘 (Dashboard)
- 防火墙 (WAF)
- 网络服务
- WARP
- Workers
关键时间线与修复过程
整个事件从发现问题到完全解决,持续了大约8个小时。团队的应对措施可分为几个关键阶段。
初步调查与临时措施:
- 在故障初期,为协助修复,团队 暂时禁用了伦敦地区的 WARP 接入。
- 工程团队持续进行调查以定位问题的根本原因。
定位问题与部署修复:
- 问题根源被识别后,团队立即开始实施修复方案。
- Cloudflare Access 和 WARP 服务率先恢复,其错误率回到正常水平。
- 随后,通过一次变更部署,仪表盘服务也恢复了正常。
全面恢复与监控:
- 在修复部署后,团队持续监控系统,处理残余问题。
- 在此期间,错误率和延迟持续下降,但仍有间歇性问题报告,例如 Bot 分数受到短暂影响。
- 团队专注于稳定所有服务,并加速全球网络的全面恢复。
最终状态
目前,该事件已得到完全解决,所有服务均已正常运行。
Cloudflare 服务当前运行正常。我们不再观察到网络上出现错误率升高或延迟的情况。
最终结论与建议:
- 所有服务的 错误率和延迟已恢复到正常水平。
- 工程团队将继续监控平台,并对事件原因进行更深入的调查。
- 官方认为,现在可以 安全地重新启用 在故障期间被临时禁用的任何 Cloudflare 服务。