偷数据的AI公司被抓到了

AI公司利用互联网档案馆获取数据 - AI公司通过Wayback Machine的存档绕过Reddit的数据获取限制，偷偷抓取大量数据用于模型训练 [2][3][4] - Wayback Machine是公益性的数字存档工具，自1996年开始缓存网页，2001年推出时已存档超100亿个页面 [11][14][15] - AI公司利用其开放性特点抓取Reddit历史数据，规避付费和合规协议，获取训练所需内容 [16][17] Reddit对数据滥用的抵制措施 - Reddit对AI公司直接抓取数据行为设置严格限制，仅向付费合作方（如谷歌）开放数据 [5][6] - 2023年Reddit调整API政策以阻止AI公司滥用数据，导致部分第三方应用关闭 [8] - Reddit起诉Anthropic，因其在宣称停止抓取后仍违规获取数据 [9][10] - Reddit宣布限制Wayback Machine对其内容的索引，仅允许抓取主页，禁止访问帖子详情和用户资料 [20] 行业影响与争议 - AI公司的“曲线抓取”行为侵犯平台权益和用户隐私，打破数据使用规则平衡 [18][20] - 除Reddit外，Meta、Twitter等平台也曾限制第三方爬虫抓取用户内容用于AI训练 [20] - 有观点认为Reddit试图通过数据交易获利，但数据所有权与AI需求的冲突正在升级 [23][24] 互联网档案馆的立场 - Wayback Machine负责人表示与Reddit有长期合作，将继续就数据抓取问题进行讨论 [21] - 互联网档案馆的数据由公众上传和网络爬虫自动搜集，旨在提供免费存储服务 [11][13]