2026年5月,AWS和Azure同时发生了大规模服务中断,导致Heathrow机场、Asda超市、Xbox等众多服务瘫痪。这是两周内的第二次重大云故障。对依赖云服务的站长来说,这件事值得认真分析。
事件经过
根据多个信息源的报道,AWS和Azure几乎同时出现了服务异常。影响范围包括:
- 基础设施:Heathrow机场系统、Asda超市结算系统
- 游戏服务:Xbox Live及相关服务
- 企业SaaS:大量依赖AWS/Azure的SaaS产品出现间歇性不可用
- 网站托管:大量托管在AWS/Azure上的网站和服务不可访问
虽然两个平台的故障原因不同(AWS的问题出在us-east-1区域的网络设备,Azure的问题出在AD认证服务),但它们几乎同时发生,加剧了影响范围。
为什么两个平台会同时出问题
同时宕机不是巧合,有几个结构性原因:
共享基础设施依赖——虽然AWS和Azure是独立的云平台,但它们都依赖相同的底层基础设施:海底光缆、骨干网络、DNS根服务器。当这些共享基础设施出问题时,多个云平台会同时受影响。
级联效应——很多企业会做多云架构(AWS + Azure),但当AWS出问题时,流量会涌向Azure,导致Azure也过载。反过来也一样。这种”避险迁移”反而加剧了故障。
集中化风险——全球互联网对少数几个云平台的依赖程度越来越高。当AWS us-east-1出问题时,影响的不只是该区域的用户,还有所有全局服务(因为很多AWS全局服务的控制面在us-east-1)。
站长应该怎么做
短期措施(现在就做):
- 确认你的服务依赖——列出你的网站/应用依赖的所有云服务。不只是AWS/Azure,还包括CDN、DNS、数据库、第三方API等
- 配置健康检查和告警——用UptimeRobot、Pingdom等工具监控服务状态,故障时第一时间知道
- 备份DNS配置——在Cloudflare等DNS服务商处保留一份DNS记录备份,主DNS出问题时可以快速切换
中期措施(本周内做):
- 静态内容上CDN——如果你的网站有静态资源,确保它们通过CDN分发。CDN的多节点架构天然有容灾能力
- 数据库定期备份到独立存储——不要只依赖云服务商的自动备份。定期导出数据到独立的存储服务
- 准备降级方案——当核心服务不可用时,网站应该展示什么?一个静态的维护页面比空白页面好
长期措施(规划中):
- 多区域部署——如果你用AWS,至少在两个区域部署。us-east-1出问题时,自动切换到其他区域
- 多云架构的关键服务——核心服务(DNS、CDN、支付)不要绑死在一个云平台上
- 离线能力——考虑哪些功能可以在云服务不可用时以降级模式运行
成本考量
多云和多区域部署会增加成本,这是现实。对大多数站长来说,完全的多云架构不现实也不必要。一个务实的方案是:
- DNS用独立服务商(如Cloudflare),不绑定任何云平台
- 静态内容通过CDN分发
- 数据库每天自动备份到独立存储
- 准备一个静态维护页面
这些措施的成本几乎为零,但能在云故障时大幅降低损失。
本次事件的教训
云服务不是万能的。很多站长把”用AWS/Azure”等同于”高可用”,但事实证明,即使是最大的云平台也会宕机。真正的高可用不是靠一个服务商,而是靠架构设计。
本文参考来源:Mirror — AWS & Azure Outage















暂无评论内容