微软Azure宕机事件概述 - 2025年10月29日UTC时间16:00起,微软Azure出现大规模全球性服务中断,故障持续近9小时,预计于UTC时间23:20完全恢复 [5][24] - 故障追踪网站Downdetector在数小时内累计收到全球多个地区上千起服务中断报告 [1] 宕机影响范围 - 微软核心业务服务如Office 365、Minecraft、Xbox Live和Copilot均出现不同程度中断 [8] - 受影响的Azure服务清单广泛,包括App Service、Azure Active Directory B2C、Azure SQL Database、Azure Portal等关键服务 [9] - 依赖Azure的企业服务严重受创,例如阿拉斯加航空和夏威夷航空多项服务中断,导致乘客无法在线值机 [11] - 开源社区工具Helm官网及加拿大魁北克医疗机构Santé Québec的病患访问系统均因宕机而无法使用 [12][13] - 星巴克、克罗格、Costco等零售网站也出现服务中断高峰 [15] 宕机根本原因 - 事故核心源于Azure Front Door服务中一次意外的租户配置变更,导致无效配置状态被引入 [16] - 该配置变更引发大量AFD节点异常,造成健康节点间流量分配严重失衡,甚至影响原本健康的区域 [17] - 根本原因为租户配置部署流程中的软件缺陷,使得用于验证和阻止错误部署的防护机制失效 [22] 微软应对与修复措施 - 公司紧急阻止所有新的配置更改以阻止错误状态传播,并开始在全球部署"最后一次已知正常"的配置版本 [20] - 恢复过程采取分阶段、渐进式策略以确保系统稳定 [21] - 公司已审查相关防护措施并紧急增加新的验证与回滚机制,以防止未来发生类似问题 [23] 行业影响与系统性风险 - 此次Azure宕机发生在一周前亚马逊AWS全球故障之后,凸显了云服务市场高度集中带来的系统性脆弱性 [25][27] - 行业专家指出,此类宕机在几小时内可能导致数千万美元的行业损失,并强调系统韧性必须成为董事会层面的议题 [30] - 云计算在带来便利的同时,也因少数巨头掌控互联网神经中枢而放大风险,一次配置错误即可引发全球性连锁反应 [30] 微软Azure业务表现 - 在2026财年第一季度财报中,Azure及其他云服务收入较去年同期增长40%,是公司增速最快的业务板块 [6]
大半个互联网又崩了!全球第二大云突然宕机,只因微软 1 次错误配置