AIGC2.0阶段

搜索文档
检索增强生成(RAG)的版权新关注
36氪· 2025-08-14 10:11
AIGC技术演进 - AIGC进入2.0阶段,核心是从依赖模型训练生成内容转向整合第三方权威信息提升准确性、时效性和专业性[3] - 技术实现基于检索增强生成(RAG),结合语言生成模型与信息检索技术,2025年国内厂商普遍应用该功能[3] - 亚马逊2025年5月及7月与《纽约时报》、赫斯特、康泰纳仕等传媒集团达成合作,AI产品可实时展示新闻摘要和片段[2] - OpenAI于2025年4月与《华盛顿邮报》合作,ChatGPT输出内容嵌入文章摘要和原始链接,涉及20余家出版商[2] 检索增强生成崛起原因 - RAG由Facebook AI Research团队2020年提出,解决大模型"幻觉"和"时效断层"缺陷[4] - 大模型存在输出不可靠信息问题,例如2023年6月ChatGPT编造针对主持人Frederick Riehl的虚假信息导致诽谤诉讼[5] - 模型知识受训练数据时间限制,如ChatGPT训练语料截止2021年9月,Gemini 2.0截止2024年6月[5] - RAG无需重新训练模型参数,通过实时外部数据提供答案,类比"开卷考试"模式[6] 版权纠纷案例 - 2024年10月美国首例RAG版权诉讼:道琼斯和纽约邮报控股公司诉Perplexity AI,指控爬取数十万篇版权文章[8] - 2025年2月《大西洋月刊》《卫报》等14家出版商起诉Cohere,指控实时抓取内容并输出完整原文[8] - 2025年4月欧盟法院受理匈牙利新闻商Like诉谷歌Gemini案,涉及新闻出版商邻接权[9] - 2024年8月知网向国内AI检索平台发送侵权告知函,指控未经许可使用知网内容数据[9] 作品收集版权问题 - RAG数据检索阶段涉及长期复制和临时复制,长期复制如固定到硬盘或服务器可能构成侵权[11] - 道琼斯案中原告主张Perplexity AI在输入阶段大规模复制文章已构成侵权[11] - 欧盟知识产权局指出动态检索场景下临时保存内容可能适用文本与数据挖掘例外[11] - 若实时检索后内容被本地化存储,仍可能被认定为长期复制[11] 技术保护措施问题 - 规避技术措施如付费墙或登录验证可能违反著作权法,技术措施分为接触控制和利用控制[12] - 道琼斯案中《华尔街日报》付费墙属于接触控制措施,规避行为违反美国《数字千年版权法》[13] - 知网案中访问权限设置涉及技术措施,第三方绕过限制可能构成违法[12] 作品利用侵权类型 - 直接侵权包括侵犯复制权、改编权和信息网络传播权,如《纽约时报》诉OpenAI案中指控实时搜索引用内容[14] - 复制与改编区分参考北京高院指南:未形成新作品属复制,形成新作品属改编[14] - 间接侵权可能因标注盗版网站来源或用户后续传播行为,需结合模型厂商注意义务判定[15] 合理使用争议 - 使用盗版内容构建知识库不构成合理使用,如2025年6月Anthropic案中法院认定下载盗版书籍侵权[17] - 合法获取作品时市场替代性是关键,欧盟报告指出摘要内容若替代原作品访问可能侵权[17] - 日本文化厅规定输出内容若包含原作品独创性表达则不构成合理使用[17] - 规避技术措施与合理使用认定可能分离,但欧盟和日本法规将遵守技术措施作为前提[17] - 输出阶段合理使用取决于复制比例和注明来源,欧盟允许极短摘录引用[18] - 美国版权局认为输出节略版本而非超链接不太可能构成合理使用[19] - 微软允许网站通过robots元标签控制摘录长度,平衡许可费用和用户访问意愿[19]