Cloudflare(NET)
搜索文档
Cloudflare宕机,互联网世界怎么又断网了?
搜狐财经· 2025-11-21 13:54
事件概述 - Cloudflare一次例行升级因数据库权限调整异常,导致生成的特征文件体积比平时大了一倍,引发全球性技术故障[1] - 故障导致包括X、ChatGPT、Spotify在内的多家海外互联网巨头服务在数小时内几乎瘫痪,用户遭遇"InternalServerError"报错页面[1] - 事故并非外部攻击导致的人为事故,而是由Cloudflare内部引发[1] 故障机制 - 异常特征文件被快速推送至全球数千台边缘节点,核心程序无法解析导致崩溃,形成多国多地区节点相近时刻故障的"全球同步掉线"场景[3] - 系统每隔几分钟自动检查更新,导致节点在旧文件下短暂恢复后,又被新错误文件覆盖再次宕机,出现"恢复—再报错—再恢复"的循环[3] - 工程师最终追踪到特征文件问题,暂停错误文件更新后情况逐渐稳定,并向全球节点重新推送正常版本,错误量在短时间内迅速下降[3] 市场影响与反应 - 事发当日Cloudflare盘前股价一度下跌超过2%[5] - Cloudflare首席技术官公开致歉,承认网络出现严重问题,"辜负了依赖我们的客户和整个互联网"[5] - 此次宕机的影响被记录为近期互联网基础设施事故中"规模最为罕见的之一"[3] 行业结构性问题 - Cloudflare承载着全球大约五分之一的互联网流量,其故障导致依赖其代理层的成千上万家服务在极短时间内同步受到冲击[7] - 此次事故与上个月前AWS的中断类似,当时共有超过两千家服务受影响,累计超过八百万条用户报错被记录[7] - 事件揭示了互联网命运过度依附于少数几家巨头的问题,在云计算领域,全球前三家巨头掌控了超过近七成的基础设施[7][8] - 基于当前行业集中度,类似的故障预计还会再度发生,且问题将越来越无法回避[10]
Cloudflare全球故障,搞瘫了半个互联网!
猿大侠· 2025-11-21 04:11
事件概述 - 全球网络基础设施服务商Cloudflare于北京时间2025年11月18日19:20至22:30发生重大故障,核心故障持续约3小时,完全恢复耗时约6小时 [1][8][9][10] - 故障根本原因非网络攻击,系内部数据库权限变更触发潜伏Bug,导致机器人管理配置文件体积异常膨胀,进而引发全球节点软件崩溃 [8] - 故障引发连锁反应,全球近半数互联网服务受到影响,大量网站出现访问错误或加载失败 [13] 故障时间线 - 19:05:工程师部署关于ClickHouse数据库访问控制的变更 [5] - 19:28:变更生效,故障开始 [6] - 19:32-21:05:Cloudflare团队介入调查 [8] - 21:05:实施第一阶段缓解措施,但核心问题仍存在 [8] - 21:37:团队找到故障根本原因 [8] - 22:24:停止生成异常配置文件,并强制节点回滚到旧版正常文件 [7] - 22:30:核心服务恢复 [8][9] - 次日01:06:所有系统完全恢复正常 [10] 影响范围与表现 - 影响范围为全球性,涉及社交媒体、人工智能平台、在线工具及游戏服务等多个领域 [13][14] - 具体受影响服务包括AI圈的ChatGPT、Claude、Perplexity,社交圈的X (Twitter)、Spotify、Discord、Grindr,以及游戏圈的英雄联盟、Minecraft服务器等 [14] - 用户访问时出现500错误、"Internal Server Error"提示,或卡在"正在验证您是否是人类"的验证页面 [15] - 由于故障发生在北京时间晚高峰时段,国内用户感知较为明显 [15] 公司业务与行业地位 - Cloudflare主要提供CDN服务,通过分布在全球各地的服务器缓存网站内容,使用户能从距离最近、延迟较低的节点获取数据 [17] - 公司在网络基础设施中扮演关键角色,其故障对全球互联网服务有重大影响,有网友调侃"CF一挂掉,全球科研水平下降1000倍" [17] 后续处理 - Cloudflare暂未公布赔付计划 [19] - 根据其官网SLA,对Business和Enterprise计划客户,如果可用性低于99.9%可获部分月费退款,本次约4.5小时中断预计可获得10-20%的信用补偿 [19]
Ramsey Theory Group CEO Dan Herbatschek Shares Six Ways to Prevent Latent Bugs from Crashing Bot Mitigation Systems Following Cloudflare's November 18 Incident
Globenewswire· 2025-11-20 12:50
事件概述 - 2025年11月18日,Cloudflare因一次配置更新激活了其核心机器人防护服务中的一个潜在缺陷,导致全球多个地区出现大范围服务性能下降 [1][2] - 此次事件由支持机器人防护能力的核心服务中的潜在缺陷被触发,影响了全球主要的数字平台及流行的消费者和企业服务 [1][2] 事件根本原因分析 - 事件说明了最被低估的操作风险形式之一:潜在缺陷与正常、预期的配置变更发生碰撞 [3] - 当机器人防护、Web应用防火墙、内容分发网络和API网关这一层出现内部配置推送导致的静默故障时,会拖垮其后的所有系统 [3] 企业防范潜在缺陷的六大措施 - 将机器人防护等视为零级基础设施:为其分配与服务等级目标、错误预算和等同于支付处理及认证层级的执行可见性 [4] - 要求所有配置变更进行分阶段发布:使用金丝雀区域、流量分片和渐进式发布自动化,并内置与错误率和异常检测挂钩的回滚触发器 [5] - 建立镜像生产环境的预生产环境:对配置更新进行负载测试、混沌测试和旨在暴露隐藏缺陷的负面流量场景测试 [6] - 增强围绕配置事件的可观测性:为遥测数据打上配置版本ID、部署时间戳和审计元数据标签,确保团队能在数秒内回答“最近10分钟发生了什么变化” [7] - 设计优雅降级架构:设计清晰的故障开放和故障关闭行为,实施保护边缘网络的断路器,并确保为面向客户的流量存在备用路径 [8] - 加强变更管理和事后学习:要求所有机器人防护和防火墙规则更新进行同行评审,进行无责事后分析,并基于经验教训持续完善测试和发布逻辑 [9] 企业应向第三方服务商提出的关键问题 - 服务商在全球发布前如何分阶段测试机器人防护配置更新 [10] - 哪些自动化保障措施可防止单一配置变更导致区域或租户级系统崩溃 [13] - 当潜在缺陷在负载下被激活时,服务商的回滚协议是什么 [13] - 服务商如何超越公共状态页面进行实时事件进展沟通 [13] 核心观点总结 - 即使基础设施可以外包,但韧性不能外包,客户不会区分是供应商的中断还是企业自身的中断 [11] - 主动的配置治理、可观测性和分阶段发布实践现在是企业必不可少的责任,而非可选的工程增强 [11]
一个网站的更新,让外国人集体断网6小时
虎嗅APP· 2025-11-20 10:18
文章核心观点 - Cloudflare的一次技术配置更新导致全球性服务中断,持续时间近6小时,影响了包括推特、ChatGPT、Canva、英雄联盟及瓦罗兰特等大量知名网站和在线服务[5][6][9][76] - 事件凸显了互联网基础设施高度集中化的脆弱性,少数核心服务商的故障可能引发连锁反应,对全球网络稳定性构成系统性风险[36][43][87][88] - 企业级用户因服务中断面临直接经济损失,但小公司缺乏资源实施多云部署等备用方案,暴露出行业资源分配不均的结构性问题[81][84] Cloudflare服务中断影响范围 - 服务中断导致用户无法访问推特、ChatGPT、Canva等平台,游戏服务如英雄联盟和瓦罗兰特出现服务器连接问题,甚至状态监测网站Down Detector也同时瘫痪[7][9][12] - 全球用户通过社交媒体表达不满,相关推文获得60万次阅读量,反映出事件引发的广泛社会关注[16][17][19][29] - 故障表现为间歇性服务恢复,用户体验出现"时好时坏"的波动状态,增加了问题定位的复杂性[64][68][70] 事故技术原因分析 - 直接原因为数据库权限调整导致Bot管理系统的特征文件生成机制异常:系统请求时多个数据库分片同时响应,使特征数据从正常60条激增至超200条上限,触发系统保护机制崩溃[51][56][58][61][62] - Cloudflare采用分片存储架构(ClickHouse数据库),将数据分布在全球330多个数据中心,但配置变更使查询请求被全部分片接收,造成数据重复[52][54][57] - 系统设计存在容错缺陷:特征文件上限设置为200条,未考虑极端情况下的数据冗余风险[59][60] Cloudflare业务模式与行业地位 - 公司主要提供CDN加速、DDoS防护、Web应用防火墙及DNS服务,全球部署330个数据中心,通过就近访问原则优化网站加载速度[36][38] - 商业模式类似"互联网物业",承担流量过滤、安全防护及缓存优化功能,服务中断时所有经其代理的网站访问均被阻断[36][39][41] - 作为行业龙头曾成功抵御7.3Tbps规模的DDoS攻击,但此次内部配置错误暴露其运维体系的单点故障风险[73][74] 行业系统性风险启示 - 基础设施服务商故障产生放大效应:对比上个月AWS宕机影响60个国家1700万用户、3500家企业,每小时损失超7500万美元,本次事件进一步印证集中化架构的脆弱性[81][82] - 企业用户缺乏有效避险手段,多云部署方案因成本与复杂度难以普及,尤其对中小型企业形成资源壁垒[84] - 行业需加强容错机制建设,但类似事故反复发生(AWS、Cloudflare连续宕机)表明技术保障承诺与实际稳定性之间存在差距[80][85]
Cloudflare outage rocks stock amid sell-off
Yahoo Finance· 2025-11-19 18:33
云服务行业集中度与中断影响 - 主要云服务提供商数量极少,却控制着互联网的大部分[1] - 近期AWS服务中断持续时间远超包括专家在内的普遍预期[1] - 服务中断影响范围广泛,波及Snapchat、Signal等应用以及智能床垫、自动猫砂盆等物联网设备[2] Cloudflare服务中断事件 - 公司在11月18日发生服务中断,导致依赖其服务的X和ChatGPT等主要互联网平台无法访问[3] - 中断原因为用于管理安全威胁的自动生成配置文件过大,导致处理流量的软件系统崩溃[4] - 服务中断已完全恢复[3] Cloudflare股价表现 - 11月18日服务中断导致公司股票当日收盘下跌2.83%,报收196.53美元[3][4] - 此次中断加剧了股票的持续抛售,当前收盘价较10月31日253.30美元的峰值收盘价下跌22.4%[4] - 10月31日的股价峰值出现在公司发布强劲季度财报之后[5] Cloudflare第三季度财务业绩 - 公司第三季度总营收为5.62亿美元,同比增长31%[8] - 毛利润为4.157亿美元,毛利率为74.0%,去年同期为3.341亿美元,毛利率为77.7%[8] - 净亏损为130万美元,去年同期净亏损为1530万美元[8] - 基本和稀释后每股净亏损为0.00美元,去年同期为0.04美元[8] 近期业务动态与市场环境 - 公司将收购AI平台Replicate,使开发者能通过一行代码访问全球任何AI模型[7] - 近期股价抛售并非源于业绩不佳,而是由于股票被纳入因市场对AI持怀疑态度而受冲击的板块[6] - 对AI的怀疑引发了更广泛的科技股抛售,市场认为该板块内多数公司估值过高[6]
腾讯研究院AI速递 20251120
腾讯研究院· 2025-11-19 16:13
谷歌Gemini 3模型发布 - 谷歌正式发布Gemini 3 Pro模型,以1501 Elo分登顶LMSys Arena排行榜,在Humanity‘s Last Exam测试中达到37.5%,在GPQA Diamond测试中达到91.9%,全面超越GPT-5.1和Claude Sonnet 4.5 [1] - 模型推出Deep Think模式以提升推理能力,在ARC-AGI-2测试中取得45.1%的突破性成绩,定价采用基于上下文长度的分级机制 [1] - Gemini 3定位为“通往AGI的重要一步”,在WebDev Arena以1487 Elo排名第一,开创“拒绝奉承”的直接交互风格 [1] 谷歌AI原生IDE产品Antigravity - 谷歌推出AI原生IDE产品Antigravity,将AI代理、代码编辑器和浏览器三大工具集成,构建从编码到部署的完整闭环 [2] - 产品核心创新在于“产物”驱动工作流,通过任务列表、实施计划和演练报告让AI工作过程透明可控,支持用户评论反馈和批准机制 [2] - 产品现已支持Gemini 3.0 pro、Claude 4.5 sonnet、GPT-OSS120B免费使用,提供MacOS、Windows、Linux三个版本 [2] Manus发布Browser Operator浏览器扩展 - AI自动化公司Manus推出Browser Operator浏览器扩展,让任意浏览器无需下载完整应用即可升级为AI浏览器 [3] - 该扩展能读取用户已登录会话、自动执行操作、跨标签页执行任务,将浏览器变成“可编排的工作界面”和“通用UI层” [3] - 演示显示可在LinkedIn中自动搜索符合岗位需求的候选人、解析JD、分析人脉并生成岗位需求文档 [3] 微软推出Work IQ智能层及AI产品升级 - 微软2025 Ignite大会推出Work IQ智能层,可记忆用户风格、偏好、习惯和工作流程,根据提示推荐合适智能体完成任务 [4] - Microsoft 365 Copilot全面升级,支持语音对话、抓取图像和文本,Excel可在Anthropic和OpenAI推理模型间选择,Sora 2接入Create功能 [4] - 推出Agent 365智能体控制平台,提供统一管理、访问控制、可视化、互操作性和安全措施五大核心功能,Windows全面引入智能体 [4] 微软英伟达联手注资Anthropic - 英伟达与微软承诺向Anthropic分别投资100亿美元和50亿美元,Anthropic承诺购买价值300亿美元Azure算力并签约1吉瓦额外容量 [5] - Claude系列模型全面登陆Azure,包括Claude Sonnet 4.5、Opus 4.1和Haiku 4.5,成为全球唯一同时登陆三大主流云服务的前沿模型 [6] - Anthropic将首批使用英伟达Grace Blackwell和Vera Rubin系统,双方展开联合设计与工程协作优化模型性能和未来架构 [6] Cloudflare全球服务宕机事件 - Cloudflare因权限升级导致机器人管理系统特征文件意外膨胀突破200条限制,触发内存溢出保护机制全球服务崩溃3小时 [7] - 故障影响约20%网站,ChatGPT、X、亚马逊、Spotify等服务全线宕机,Downdetector收到超210万条报错反馈,Cloudflare股价盘中重挫7% [7] - 事故暴露AI时代基础设施困境,为对抗AI爬虫而建的复杂防御系统反而导致顶级AI服务商宕机 [7] 斑马口语AI应用案例 - 斑马口语用纯AI外教实现一对一全英授课,孩子前三分钟开口率达98.8%,远超真人外教的85% [8] - 采用“产模一体”模式,基于猿力大模型和海量儿童教育数据微调,AI能针对不同水平孩子个性化沟通并提供高颗粒度的进阶路径 [8] - 团队打破传统流水线分工,教研与产品研发直接协作,形成“神经突触”式网状连接的AI Native组织 [8] Arm与英伟达深化合作 - Arm与英伟达深化合作,通过NVLink Fusion架构推广Neoverse计算平台,有望将Grace Blackwell级性能复制到整个生态系统 [9] - Fusion版本让Neoverse平台通过AMBA CHI C2C协议与英伟达GPU无缝传输数据,基于Neoverse的ASIC或CPU可高效对接英伟达GPU [9] - 合作企图巩固NVLink作为AI芯片互联行业标准地位,AWS、谷歌、微软、甲骨文和Meta等云服务商都在基于Neoverse构建应用 [9] 吴恩达谈AI行业瓶颈与趋势 - 吴恩达指出AI最大瓶颈是电力和半导体而非算法,强调“太多人想多跑推理但没有足够GPU、数据中心和电力”,能源建设差异正在放大国家算力竞争优势 [10] - AI编码助手正重新定义软件生产方式,成为“技能放大器”让更多岗位突破能力边界,未来竞争是“谁能把AI用出十倍效率差距”而非会否被替代 [10] - 企业落地AI最大障碍是组织结构与人的行为惯性而非技术,AI投资逻辑已从“降本工具”转向“速度工具”,正推动经济进入更高“智能密度”形态 [11]
全球网络服务意外中断事件频发,中国运营免受宕机影响
第一财经· 2025-11-19 15:38
近期网络服务中断事件概述 - 2025年11月18日,全球网络服务商Cloudflare发生服务中断,导致X和ChatGPT等主要互联网平台无法访问,服务在当天晚些时候全面恢复 [3] - 服务中断原因为自动生成的用于管理安全威胁的配置文件体积过大,导致负责多个服务流量的软件系统崩溃 [3] - Cloudflare处理着全球约五分之一的网络流量 [3] - 上个月,亚马逊云服务宕机导致包括Snapchat和Reddit在内的数千个热门网站和应用程序无法访问 [3] 服务中断事件原因分析 - Cloudflare表示没有证据表明此次服务中断是由攻击或恶意活动造成的 [4] - 亚马逊云服务故障源头指向其位于美国北弗吉尼亚的大型数据中心设施,该地区承载了全球约13%和美国四分之一的数据中心 [4] 行业影响与核心矛盾 - 网络频繁宕机暴露了现代超大规模网络基础设施的核心矛盾:为追求效率和响应速度而建立的高度自动化系统,其本身可能成为风险源 [5] - 自动化系统无法正确处理其预定义场景之外的意外情况,这为未来自动化系统的完善提出新挑战 [5] - 在自动化智能化趋势下,未来企业需更谨慎地应用相关技术,进行充分风险评估,并采用更弹性的使用策略 [5] - 未来的互联网将是一个由防火墙、主权云和物理隔离带构成的复杂迷宫,价值将更取决于连接的韧性而非仅连接速度 [5] 中国市场运营情况 - 在Cloudflare此次服务中断过程中,中国运营未受宕机影响 [5] - 在中国,Cloudflare采用与京东云等合作伙伴合作的方式建设国内数据中心并提供网络服务,即由合作伙伴承载其中国区业务 [5]
全球网络服务意外中断事件频发,自动化系统竟成风险源
第一财经· 2025-11-19 14:33
服务中断事件概述 - 11月18日,Cloudflare发生服务中断,导致X和ChatGPT等主要互联网平台无法访问,当天晚些时候服务全面恢复 [1] - 上个月,亚马逊云服务发生宕机,导致包括Snapchat和Reddit在内的数千个热门网站和应用程序无法访问,引发全球混乱 [1] 服务中断原因分析 - Cloudflare服务中断原因是其自动生成的、用于管理安全威胁的配置文件体积过大,导致负责流量的软件系统崩溃 [1] - 亚马逊云服务故障源头指向其位于美国北弗吉尼亚的大型数据中心设施,该地区承载全球约13%和美国四分之一的数据中心 [2] - 没有证据表明这两次网络服务中断事件与网络攻击或恶意活动有关 [2] 行业核心矛盾与风险 - 网络频繁宕机暴露了现代超大规模网络基础设施的核心矛盾:为追求效率和响应速度而建立的高度自动化系统,其本身可能成为风险源 [1][2] - 自动化系统无法正确处理其预定义场景之外的意外情况,这带来了网络安全新风险,为未来自动化系统的完善提出挑战 [2] - Cloudflare处理着全球约五分之一的网络流量,并保护网站和应用程序免受流量激增和网络攻击的影响 [1] 行业趋势与应对策略 - 在网络自动化和智能化趋势不可阻挡的背景下,未来企业需要更加谨慎地应用自动化智能化技术,对其风险进行充分评估,并采用更为弹性的使用策略 [2] - 未来的互联网将是一个由防火墙、主权云和物理隔离带构成的"复杂迷宫",价值不再仅取决于连接速度,更取决于连接的韧性 [3] 中国市场运营情况 - 在Cloudflare此次全球服务中断过程中,中国运营未受影响 [3] - 在中国,Cloudflare采用与京东云等合作伙伴合作的方式建设国内数据中心并提供网络服务,即由合作伙伴承载其中国区业务 [3]
Elle Communications is Agency of Record for FDA-Cleared Neurostimulation Device
Accessnewswire· 2025-11-19 14:00
公司动态 - 公司为NET Recovery,其NET Device™是一种获得FDA许可的神经刺激设备[1] - 该设备近期研究显示具备减少阿片类和兴奋剂使用的潜力[1][2] - 一项经同行评审的新研究发表在《精神病学前沿》杂志上,证实该设备在治疗后能显著减少阿片类和兴奋剂使用[1] 行业背景 - 行业面临创纪录的过量用药死亡危机[1] - 目前尚无任何FDA批准的用于治疗兴奋剂成瘾的药物[1]
Cloudflare CEO Apologizes for 'Unacceptable' Outage and Explains What Went Wrong
CNET· 2025-11-19 13:45
事件概述 - Cloudflare在周二发生服务中断,导致包括OpenAI、Spotify、X、Grindr、Letterboxd和Canva在内的许多网站和服务无法访问 [1] - 中断始于太平洋时间凌晨3:30左右,大部分受影响的站点和服务在超过三小时后恢复,当天结束时一切恢复正常 [3] 中断原因 - 中断并非由网络攻击直接或间接引起,最初公司怀疑是“超大规模DDoS攻击” [4] - 实际原因是内部软件故障,Cloudflare一个数据库的变更生成了一个大于预期的功能文件,导致软件无法运行而失败 [5] - 公司在识别问题后,用早期版本替换了有问题的文件,太平洋时间上午6:30大部分流量恢复正常 [5] 影响范围 - Cloudflare被约20%的网站使用,是提供互联网关键基础设施的服务之一 [2] - Downdetector在中断期间收到超过210万份问题报告,其中美国超过43.5万份,英国、日本和德国是其次受影响最严重的国家 [7] - 其他受影响公司收到的报告数量包括:X(320,549份)、英雄联盟(130,260份)、OpenAI(81,077份)、Spotify(93,377份)和Grindr(25,031份) [8] 事件时间线 - Cloudflare在太平洋时间凌晨3:48首次确认中断,并发布声明称正在调查影响多个客户的问题 [10] - 太平洋时间凌晨5:09,公司表示问题已确定,正在实施修复,随后几小时错误开始减少,服务逐渐恢复 [10] - 太平洋时间上午9:14,Cloudflare补充说大多数服务已恢复正常,并将尽快提供完整的事件后调查细节 [11] 行业影响与风险 - 此次中断发生在上个月亚马逊网络服务中断之后,引发了对互联网大片区域依赖少数集中式服务是否明智或安全的质疑 [12] - 分析师指出,这次3小时20分钟的中断,考虑到停机时间和下游影响,可能造成约2.5亿至3亿美元的直接和间接损失 [13] - 重大中断也凸显了人们对日益依赖人工智能的担忧,特别是人工智能日常运行所依赖的基础设施的脆弱性 [13] - 此次问题暴露了数千亿甚至万亿美元的人工智能投资,其可靠性仅等同于其最不受审查的第三方基础设施 [14]