大半个互联网又崩了！全球第二大云突然宕机，只因微软的一次错误配置

事件概述 - 微软Azure云服务于2025年10月29日UTC时间16:00发生全球性大规模中断，持续近9小时，预计于当日UTC时间23:20完全恢复[6][26] - 故障追踪网站Downdetector在数小时内累计收到全球上千起服务中断报告[2] - 此次宕机事件恰逢微软发布2026财年第一季度财报，财报显示Azure及其他云服务收入同比增长40%[8] 影响范围 - 微软自有核心服务如Office 365、Minecraft、Xbox Live和Copilot均出现不同程度中断[10] - 受影响的Azure服务清单广泛，包括App Service、Azure Active Directory B2C、Azure SQL Database、Azure Portal等关键服务[11] - 阿拉斯加航空因Azure宕机导致在线值机等服务中断，提醒乘客前往机场柜台办理[13] - 开源社区工具Helm官网一度无法访问，返回"ResourceNotFound"错误[14] - 加拿大魁北克医疗机构Santé Québec的部分病患访问系统暂停运行[15] - 星巴克、克罗格、Costco等企业网站均出现服务中断高峰[17] 故障原因 - 事故核心源于Azure Front Door服务中一次意外的租户配置更改[18] - 该更改引入了无效或不一致的配置状态，导致大量AFD节点无法正常加载，引发下游服务延迟增加、超时和连接错误[19] - 故障根本原因为租户配置部署流程中的防护机制因软件缺陷失效，使异常配置绕过了安全校验[24] 应对与修复措施 - 微软紧急阻止所有新的配置更改以阻止错误状态传播，并开始在全球部署"最后一次已知正常"的配置版本[22] - 恢复过程采取分阶段渐进式策略以确保系统稳定[23] - 公司已审查相关防护措施并紧急增加了新的验证与回滚机制[25] - 截至报告发布，客户对AFD的配置修改仍处于暂时冻结状态，大部分错误率与延迟已恢复，但仍有少量尾部问题在修复中[27] 行业影响与系统性风险 - 此次Azure宕机发生在一周前亚马逊AWS因us-east-1区域DNS问题导致全球混乱之后[27][29] - 行业专家指出云服务的高度集中化带来了真实的系统性脆弱性，一次配置错误可能引发全球性连锁反应[30] - Catchpoint公司CEO表示此类宕机在几小时内可能让行业损失数千万美元，并强调系统韧性必须成为董事会层面的议题[32] - 事件引发业内对多云部署、冗余和自主控制权等策略的思考，以应对云计算集中化风险[32]