Workflow
企业在AI数据竞赛中如何重新掌控数据?Reddit 诉 Anthropic 的启示
36氪·2025-08-08 09:53

数据抓取机制与演变 - 数据抓取已从边缘策略发展为价值数百亿元的复杂生态系统 由商业数据聚合器驱动 使用自动机器人收集价格数据 产品列表和评论等 速度远超人工操作[1] - 数据抓取定义为通过自动化工具从第三方网站 数据库或社交媒体平台提取信息的行为 核心流程包括数据收集 预处理 存储及模型训练[2] - 当前约70%的AI训练数据集缺乏清晰来源许可信息 例如GPT-3训练数据中超过80%来自Common Crawl等公开网络抓取数据集[2] 数据获取方式 - 网络抓取作为主要手段 可支持学术研究 数字存档或竞争基准测试等合法目的 帮助整合互联网分布式架构下的分散数据资源[2] - 聚合器通过最终用户同意方式规避直接抓取 要求用户提供账户访问权限 利用客户凭证抓取网站数据或通过授权API连接 即使平台未授予许可 因客户同意而可能合法[3] - 这种方式使聚合器能够避开直接执法工具 传统网络安全法规提供的补救措施非常有限[3] 行业影响与法律风险 - 数据抓取用于商业目的时触发法律问题 可能违反服务条款 《反不正当竞争法》和《网络数据安全管理条例》规定的访问授权 或侵犯知识产权[4] - 给服务器带来压力 扭曲网站分析 削弱企业控制或商业化自身信息的能力 最初技术解决方案可能成为商业和法律导火索[5] - Reddit起诉Anthropic案指控非法窃取用户数据训练AI 自2024年7月以来抓取超过10万次 即使在被告知停止后仍继续[6] 案例分析与战略动向 - Reddit以违约 非法侵占动产 侵权干扰和不正当竞争为由提起诉讼 深入探讨在线服务条款可执行性及数字公共资源所有权[5] - Reddit于2025年5月宣布与OpenAI建立合作伙伴关系 允许利用Reddit内容训练AI模型 与谷歌也签署类似协议[6] - 诉讼可能是战略举措 旨在迫使Anthropic达成类似许可协议 凸显诉讼作为商业战略工具而非仅仅争议解决工具的演变[6] 解决方案与管控措施 - 中国《反不正当竞争法》修订法案于2025年10月15日生效 首次明确禁止通过不正当手段未经授权获取或使用其他运营商持有的数据[7] - 企业需要强化使用条款 通过API协议引导访问 提供安全结构化网关 允许第三方在规定条件下访问特定数据字段[8] - 评估访问控制并使用技术壁垒 包括限制访问速率 使用机器人检测工具和分析流量模式 以及使用验证码区分人类用户和机器人[8] - 采用API许可模式限制高价值数据访问 避免通过未经身份验证的API泄露数据 并在适当情况下延迟关键内容加载[9] - 一旦检测到抓取行为 咨询法律顾问了解合法合理补救措施 避免不必要法律和公关危机[9]