Workflow
偷数据的AI公司被抓到了
量子位·2025-08-13 07:02

AI公司利用互联网档案馆获取数据 - AI公司通过Wayback Machine的存档绕过Reddit的数据获取限制,偷偷抓取大量数据用于模型训练 [2][3][4] - Wayback Machine是公益性的数字存档工具,自1996年开始缓存网页,2001年推出时已存档超100亿个页面 [11][14][15] - AI公司利用其开放性特点抓取Reddit历史数据,规避付费和合规协议,获取训练所需内容 [16][17] Reddit对数据滥用的抵制措施 - Reddit对AI公司直接抓取数据行为设置严格限制,仅向付费合作方(如谷歌)开放数据 [5][6] - 2023年Reddit调整API政策以阻止AI公司滥用数据,导致部分第三方应用关闭 [8] - Reddit起诉Anthropic,因其在宣称停止抓取后仍违规获取数据 [9][10] - Reddit宣布限制Wayback Machine对其内容的索引,仅允许抓取主页,禁止访问帖子详情和用户资料 [20] 行业影响与争议 - AI公司的“曲线抓取”行为侵犯平台权益和用户隐私,打破数据使用规则平衡 [18][20] - 除Reddit外,Meta、Twitter等平台也曾限制第三方爬虫抓取用户内容用于AI训练 [20] - 有观点认为Reddit试图通过数据交易获利,但数据所有权与AI需求的冲突正在升级 [23][24] 互联网档案馆的立场 - Wayback Machine负责人表示与Reddit有长期合作,将继续就数据抓取问题进行讨论 [21] - 互联网档案馆的数据由公众上传和网络爬虫自动搜集,旨在提供免费存储服务 [11][13]