Workflow
弹性机制
icon
搜索文档
ChatGPT也遭殃,亚马逊服务器故障,半个互联网都崩了
量子位· 2025-10-21 03:38
事件概述 - AWS服务器发生宕机,故障位于美国东部us-east-1区域,该区域是AWS全球服务的核心 [1][2][3] - 故障导致大量互联网服务中断,故障追踪平台当天累计收到超过650万份用户故障报告 [4] 受影响的服务与行业 - **开发者工具**:Docker全线瘫痪,多个核心服务中断;npm、Cursor、Vercel等开发工具同样出现问题 [11][13] - **企业办公**:视频会议软件Zoom、办公平台Slack服务崩溃,亚马逊内部会议因使用Zoom而受到影响 [14][15] - **娱乐与社交**:游戏平台Epic、索尼PlayStation、社交平台Reddit以及流媒体Netflix、Disney+等服务宕机 [5][16] - **在线学习**:多邻国、学生作业平台Canvas无法登录 [17] - **人工智能工具**:ChatGPT以及AI搜索工具Perplexity受到波及 [2][18] - **日常生活与出行**:打车软件、麦当劳、星巴克无法使用;美联航和达美航空无法办理值机和行李托运,有航班因故障无法正常停靠 [23][24][27] - **智能家居与安防**:亚马逊Alexa等智能家居服务罢工,有智能门锁用户因网络问题无法解锁而触发报警 [29][31] - **体育赛事**:英国英超联赛的半自动越位系统故障,被迫改用人工画线方式辅助判定 [32] 故障原因与影响分析 - 故障直接原因是DNS解析问题,起源于EC2内部网络中用于监控和管理网络负载均衡器健康状态的子系统异常 [33][34] - 该监控系统异常导致网络连接不稳定、数据库访问延迟以及部分API请求失败,引发连锁反应 [35] - us-east-1区域是AWS最早建立、服务种类最多的区域,大量企业在此部署核心服务,且许多全球控制面服务集中托管于此,其故障能影响全球 [36] - 此次事件揭示了互联网对大型云服务商的集中依赖,标准化的集中服务虽提升稳定性,但单一故障点可能导致广泛后果 [39] 潜在解决方案 - 为避免类似情况,网站开发者可设置弹性机制,例如通过CloudFront连接多个区域,不将所有服务押注于单一区域 [40][41] - 采用原生多区域、故障转移的部署方式在技术上不复杂,成本也不会显著增加 [43]