时效断层

搜索文档
检索增强生成(RAG)的版权新关注
36氪· 2025-08-14 10:11
AIGC技术演进 - AIGC进入2.0阶段,核心是从依赖模型训练生成内容转向整合第三方权威信息提升准确性、时效性和专业性[3] - 技术实现基于检索增强生成(RAG),结合语言生成模型与信息检索技术,2025年国内厂商普遍应用该功能[3] - 亚马逊2025年5月及7月与《纽约时报》、赫斯特、康泰纳仕等传媒集团达成合作,AI产品可实时展示新闻摘要和片段[2] - OpenAI于2025年4月与《华盛顿邮报》合作,ChatGPT输出内容嵌入文章摘要和原始链接,涉及20余家出版商[2] 检索增强生成崛起原因 - RAG由Facebook AI Research团队2020年提出,解决大模型"幻觉"和"时效断层"缺陷[4] - 大模型存在输出不可靠信息问题,例如2023年6月ChatGPT编造针对主持人Frederick Riehl的虚假信息导致诽谤诉讼[5] - 模型知识受训练数据时间限制,如ChatGPT训练语料截止2021年9月,Gemini 2.0截止2024年6月[5] - RAG无需重新训练模型参数,通过实时外部数据提供答案,类比"开卷考试"模式[6] 版权纠纷案例 - 2024年10月美国首例RAG版权诉讼:道琼斯和纽约邮报控股公司诉Perplexity AI,指控爬取数十万篇版权文章[8] - 2025年2月《大西洋月刊》《卫报》等14家出版商起诉Cohere,指控实时抓取内容并输出完整原文[8] - 2025年4月欧盟法院受理匈牙利新闻商Like诉谷歌Gemini案,涉及新闻出版商邻接权[9] - 2024年8月知网向国内AI检索平台发送侵权告知函,指控未经许可使用知网内容数据[9] 作品收集版权问题 - RAG数据检索阶段涉及长期复制和临时复制,长期复制如固定到硬盘或服务器可能构成侵权[11] - 道琼斯案中原告主张Perplexity AI在输入阶段大规模复制文章已构成侵权[11] - 欧盟知识产权局指出动态检索场景下临时保存内容可能适用文本与数据挖掘例外[11] - 若实时检索后内容被本地化存储,仍可能被认定为长期复制[11] 技术保护措施问题 - 规避技术措施如付费墙或登录验证可能违反著作权法,技术措施分为接触控制和利用控制[12] - 道琼斯案中《华尔街日报》付费墙属于接触控制措施,规避行为违反美国《数字千年版权法》[13] - 知网案中访问权限设置涉及技术措施,第三方绕过限制可能构成违法[12] 作品利用侵权类型 - 直接侵权包括侵犯复制权、改编权和信息网络传播权,如《纽约时报》诉OpenAI案中指控实时搜索引用内容[14] - 复制与改编区分参考北京高院指南:未形成新作品属复制,形成新作品属改编[14] - 间接侵权可能因标注盗版网站来源或用户后续传播行为,需结合模型厂商注意义务判定[15] 合理使用争议 - 使用盗版内容构建知识库不构成合理使用,如2025年6月Anthropic案中法院认定下载盗版书籍侵权[17] - 合法获取作品时市场替代性是关键,欧盟报告指出摘要内容若替代原作品访问可能侵权[17] - 日本文化厅规定输出内容若包含原作品独创性表达则不构成合理使用[17] - 规避技术措施与合理使用认定可能分离,但欧盟和日本法规将遵守技术措施作为前提[17] - 输出阶段合理使用取决于复制比例和注明来源,欧盟允许极短摘录引用[18] - 美国版权局认为输出节略版本而非超链接不太可能构成合理使用[19] - 微软允许网站通过robots元标签控制摘录长度,平衡许可费用和用户访问意愿[19]
检索增强生成(RAG)的版权新关注
腾讯研究院· 2025-08-14 08:33
AIGC 2.0阶段:检索增强生成 - 行业进入AIGC 2.0阶段,从单纯依赖模型训练转向整合第三方权威信息以提升内容准确性、时效性和专业性 [6] - 技术层面称为"检索增强生成"(RAG),结合语言生成模型与信息检索技术,国内大模型厂商已普遍增加该功能 [6] - 典型案例包括亚马逊与《纽约时报》、赫斯特、康泰纳仕等传媒集团合作,OpenAI与《华盛顿邮报》及20多家出版商合作 [3][6] 检索增强生成的崛起原因 - 解决传统大模型"模型幻觉"和"时效断层"两大缺陷,如ChatGPT编造虚假信息导致诽谤诉讼 [8][9] - 无需重新训练模型参数,通过实时外部数据提供准确答案,类似开卷考试模式 [10] - 运行过程分为数据检索收集和内容整合展示两个阶段,涉及海量版权作品利用 [11] 现实版权纠纷案例 - 美国首例RAG版权诉讼:道琼斯和纽约邮报控股诉Perplexity AI,指控其爬取数十万篇付费文章 [14] - 14家全球头部新闻出版商联合起诉加拿大Cohere公司,指控其实时抓取并输出完整原文 [14] - 欧盟法院受理首起生成式AI版权案:匈牙利新闻商Like诉谷歌Gemini侵犯邻接权 [14] - 国内知网与某AI检索平台纠纷,涉及学术文献使用争议 [14] 作品收集涉及的版权问题 - 数据检索阶段可能涉及复制权侵权,分为长期复制和临时复制两种情形 [17] - 构建检索增强数据库时的向量化处理可能构成长期复制,如Perplexity AI案中原告指控 [17] - 实时检索场景下若仅临时保存内容,可能适用文本与数据挖掘例外规则 [17] 技术保护措施问题 - 绕过IP限制或破解动态加载可能违反著作权法"技术措施"规定 [19] - 技术措施分为接触控制措施(如付费墙)和利用控制措施,规避前者构成违法 [20] - 美国《数字千年版权法》第1201条对技术措施提供双重保护体系 [20] 作品利用涉及的侵权问题 - 内容整合展示阶段可能构成直接侵权(复制权、改编权、信息网络传播权)或间接侵权 [22] - 直接侵权认定参考标准:未形成新作品属复制行为,形成新作品属改编行为 [22] - 间接侵权情形包括标注盗版来源扩大传播,或用户后续侵权传播中模型厂商存在过错 [23] 合理使用之争 - 数据检索阶段合理使用认定关键在"市场替代性",盗版内容构建知识库不构成合理使用 [26][27] - 日本区分"非欣赏性利用"和"轻微利用",欧盟要求遵守技术措施作为合理使用前提 [27][28] - 内容展示阶段合理使用核心在于复制比例和注明来源,各国标准不一 [28] - 美国版权局认为提供节略版本而非超链接不太可能构成合理使用 [28]