robots.txt

搜索文档
AI独角兽视共识于无物,互联网公地悲剧即将上演
36氪· 2025-08-07 11:51
AI数据获取争议 - AI研究公司Epoch AI预测2028年互联网高质量文本数据将耗尽 行业面临数据墙挑战 [1] - AI厂商与数据拥有者博弈加剧 成为互联网领域核心矛盾 [1] Perplexity爬虫违规事件 - 云服务商Cloudflare指控Perplexity无视robots.txt协议 采用伪装Chrome用户代理方式绕过网站拦截 [2][4] - Perplexity被指通过更换用户代理(UA)隐匿抓取行为 在网站返回HTTP 403拒绝访问后仍持续抓取 [2][4] - 公司发言人否认指控 称Cloudflare行为属于商业推广 并否认涉事爬虫归属 [4] 历史违规记录 - AWS去年春季对Perplexity展开调查 涉未经同意抓取数据及违反robots.txt协议 [6] - 英国广播公司BBC今年6月发出法律信件 要求停止未经授权抓取其内容 [6] - 多家机构指控显示Perplexity存在系统性违规抓取行为 [6] 企业博弈策略 - Cloudflare将Perplexity从已验证机器人列表删除 并推出Pay Per Crawl数据交易平台 [4][8] - Perplexity采取"共沉沦"公关策略 指责Cloudflare渲染威胁以推广反爬虫服务 [9] - Cloudflare通过提供AI爬虫阻止机制拓展商业机会 [9] 行业准则冲击 - robots.txt作为互联网基石协议 不具备强制力但维持行业共识 [11] - 协议节省网站带宽和服务器资源 保障内容生态繁荣 [11] - Perplexity破坏共识可能引发公地悲剧 导致内容资源过度使用及创作者流失 [13][14]