Workflow
AI爬虫
icon
搜索文档
一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”
36氪· 2025-08-22 11:28
AI爬虫流量规模与分布 - AI爬虫占AI机器人总流量的80%,抓取程序占20% [1][2] - 爬虫峰值流量达每分钟39,000次请求,对未防护网站形成超负荷压力 [1][13] - Meta、Google和OpenAI三家占据AI爬虫流量的95%,其中Meta占52%、Google占23%、OpenAI占20% [4] 头部企业具体影响 - OpenAI通过ChatGPT-User和SearchBot占据抓取流量的98%,对网站影响最大 [5] - Perplexity抓取请求量占比1.53%,但影响力逐步上升 [5] - Meta爬虫活动近期持续加速,流量波动可达平常的2-3倍 [8] 实际运营影响案例 - 乌克兰3D模型网站Trilegangers因OpenAI使用600个IP抓取导致服务崩溃 [10] - 爬虫峰值每分钟1,000次请求即可能导致数据库依赖型网站卡顿或超时 [13] - 过量爬虫推高基础设施成本并导致网站数据分析失真 [15] 行业反制措施发展 - 开发者使用工作量证明工具Anubis,通过SHA-256计算挑战增加爬虫成本 [19] - 采用ZIP炸弹策略:返回伪装压缩文件使爬虫服务器解压时崩溃 [20] - Cloudflare每日处理超500亿次AI爬虫请求,通过AI迷宫消耗爬虫资源 [24] - 游戏化验证码(如DOOM挑战)被用于拦截爬虫但可能影响正常用户体验 [21][23] 行业应对建议 - 小型动态网站可通过配置robots.txt减少合规爬虫流量 [25] - 技术能力允许时可部署Anubis等系统进一步控制爬虫行为 [25] - 反爬机制可能误伤正常用户,需平衡防护与体验 [25]
AI全面战争,从爬虫毁灭互联网开始
虎嗅· 2025-03-24 14:13
这是第一次,全世界最大的网络基础设施公司之一,Cloudflare,开始用魔法打败魔法,用AI来对抗AI爬虫。 这事有意思的程度,足以载入AI发展史册。这是一次AI领域的全面战争。 你可能现在还有很多疑惑,Cloudflare是什么,AI爬虫是什么,AI迷宫又是什么,这个事到底有意思在哪。 作为这一切的开始,我想先跟你讲一个故事,一个在今年1月份,发生在一个仅有7人的乌克兰公司的故事。 这个公司叫做Triplegangers,做的业务特别简单,就是卖人的3D数字模型。 AI全面战争,从爬虫毁灭互联网开始 昨天看到一个非常有意思的事情。 Triplegangers专注于销售"人体的数字孪生"模型素材,这些高清3D模型照片来自真实人类扫描,价值巨大。 创始人Tomchuk对自己公司的业务一直很满意,公司虽然不大,但这是他最喜欢的事情。 这个网站一共有65000个产品页面,每个产品的页面至少放着三张高清照片。 每一张图片都细致地标注了年龄、肤色、纹身甚至伤疤。 但是,就在一个普通的周六早上, 这种平静被一场风暴骤然打破。 Tomchuk收到了一条紧急通知:公司的网站崩溃了,因为受到了大量的DDoS攻击。 他懵了,因 ...