AIGC2.0

搜索文档
检索增强生成(RAG)的版权新关注
腾讯研究院· 2025-08-14 08:33
AIGC 2.0阶段:检索增强生成 - 行业进入AIGC 2.0阶段,从单纯依赖模型训练转向整合第三方权威信息以提升内容准确性、时效性和专业性 [6] - 技术层面称为"检索增强生成"(RAG),结合语言生成模型与信息检索技术,国内大模型厂商已普遍增加该功能 [6] - 典型案例包括亚马逊与《纽约时报》、赫斯特、康泰纳仕等传媒集团合作,OpenAI与《华盛顿邮报》及20多家出版商合作 [3][6] 检索增强生成的崛起原因 - 解决传统大模型"模型幻觉"和"时效断层"两大缺陷,如ChatGPT编造虚假信息导致诽谤诉讼 [8][9] - 无需重新训练模型参数,通过实时外部数据提供准确答案,类似开卷考试模式 [10] - 运行过程分为数据检索收集和内容整合展示两个阶段,涉及海量版权作品利用 [11] 现实版权纠纷案例 - 美国首例RAG版权诉讼:道琼斯和纽约邮报控股诉Perplexity AI,指控其爬取数十万篇付费文章 [14] - 14家全球头部新闻出版商联合起诉加拿大Cohere公司,指控其实时抓取并输出完整原文 [14] - 欧盟法院受理首起生成式AI版权案:匈牙利新闻商Like诉谷歌Gemini侵犯邻接权 [14] - 国内知网与某AI检索平台纠纷,涉及学术文献使用争议 [14] 作品收集涉及的版权问题 - 数据检索阶段可能涉及复制权侵权,分为长期复制和临时复制两种情形 [17] - 构建检索增强数据库时的向量化处理可能构成长期复制,如Perplexity AI案中原告指控 [17] - 实时检索场景下若仅临时保存内容,可能适用文本与数据挖掘例外规则 [17] 技术保护措施问题 - 绕过IP限制或破解动态加载可能违反著作权法"技术措施"规定 [19] - 技术措施分为接触控制措施(如付费墙)和利用控制措施,规避前者构成违法 [20] - 美国《数字千年版权法》第1201条对技术措施提供双重保护体系 [20] 作品利用涉及的侵权问题 - 内容整合展示阶段可能构成直接侵权(复制权、改编权、信息网络传播权)或间接侵权 [22] - 直接侵权认定参考标准:未形成新作品属复制行为,形成新作品属改编行为 [22] - 间接侵权情形包括标注盗版来源扩大传播,或用户后续侵权传播中模型厂商存在过错 [23] 合理使用之争 - 数据检索阶段合理使用认定关键在"市场替代性",盗版内容构建知识库不构成合理使用 [26][27] - 日本区分"非欣赏性利用"和"轻微利用",欧盟要求遵守技术措施作为合理使用前提 [27][28] - 内容展示阶段合理使用核心在于复制比例和注明来源,各国标准不一 [28] - 美国版权局认为提供节略版本而非超链接不太可能构成合理使用 [28]