检索增强生成(RAG)
搜索文档
AI智能体时代中的记忆:形式、功能与动态综述
新浪财经· 2025-12-17 04:42
记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张 并吸引空前关注,该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作,在动机、实现、假设和评估方案上往往存在巨大差异,而定义松散的 记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。 在这些智能体的核心能力中,记忆 尤为关键,它明确地促成了从静态大语言模型(其参数无法快速更新)到自适应智能体的转变,使其能够通过环境交 互持续适应(Zhang et al., 2025r; Wu et al., 2025g)。从应用角度看,许多领域都要求智能体具备主动的记忆管理能力,而非短暂、易忘的行为:个性化聊 天机器人(Chhikara et al., 2025; Li et al., 2025b)、推荐系统(Liu et al., 2025b)、社会模拟(Park et al., 2023; Yang et al., 2025)以及金融调查(Zhang et al., 2024)都依赖于智能体处理、存储和管 ...
恒生电子助力国元证券打造智能知识中心 大模型赋能知识管理与高效应用
证券日报之声· 2025-12-11 13:38
本报讯 (记者矫月)近日,恒生电子股份有限公司(以下简称"恒生电子")助力国元证券股份有限公 司(以下简称"国元证券")成功上线智能知识中心,通过引入大模型与检索增强生成(RAG)等前沿技 术,实现统一知识管理、实时知识更新、智能化知识问答等一体化服务,提升券商业务人员知识检索效 率和业务场景的问答精准度。 此前,国元证券的知识资产分散于多个独立业务系统中形成"信息孤岛"。员工进行知识检索需要跨系统 反复校验,合规核查依赖人工筛查,效率低下且易出现偏差。大模型在自然语言处理领域的强大能力, 使其不仅能够处理海量文本数据,还能通过深度学习的方法自动提取文本中的关键信息和特征。此外, RAG技术通过将信息检索与文本生成相结合,能够进一步提高模型在特定任务中的准确性和效率。 目前,智能知识中心已在国元证券20多个部门使用,有效解决了长期以来知识管理痛点,精准契合公司 以技术赋能业务、推动高质量发展的核心布局。通过统一知识入口、精细化权限治理与闭环运营机制, 平台让各个部门长久以来沉淀的海量知识资产真正"活"了起来,实现了"降本、增效、控险"的建设目 标,为国元证券未来的业务创新、风险管控和组织提效构筑了高质量的数字 ...
迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间
机器之心· 2025-12-02 09:18
文章核心观点 - 多模态检索增强生成(MM-RAG)是新兴技术领域,旨在将大模型的应用从文本扩展到图像、音频、视频、代码、表格、知识图谱、3D对象等多种模态的组合 [2] - 目前MM-RAG的研究和应用尚处于初级阶段,现有工作主要集中于文本和图像组合,其他模态组合存在大量研究空白 [2] - 由多所高校和研究机构联合发布的综述论文首次全面覆盖了几乎所有可能的输入-输出模态组合,为领域提供了系统性的分类框架和技术参考 [4][5] MM-RAG技术现状与潜力 - 论文揭示了MM-RAG领域庞大的潜在输入-输出模态组合空间,在54种潜在组合中仅有18种存在已有研究,研究覆盖率约为33% [5] - 许多极具应用价值的组合(如“文本+视频作为输入,生成视频作为输出”)仍属待开拓的蓝海领域 [5] - 作者构建了基于输入-输出模态组合的全新MM-RAG分类法,系统性组织了现有研究并展示了不同系统的核心技术组件 [6][7] MM-RAG系统工作流程 - MM-RAG系统工作流程可划分为四个关键阶段:预检索(数据组织和查询准备)、检索(从多模态知识库中查找信息)、增强(将多模态信息融入大模型)、生成(生成高质量多模态输出) [8][9][11][12][13][14] - 论文详细总结了每个阶段的常用方法,并讨论了针对不同模态的优化策略 [15] 技术指南与应用前景 - 该综述提供了构建MM-RAG系统的一站式指南,涵盖工作流、组件、训练、评估等核心技术 [17] - 指南内容包括训练策略(最大化检索和生成能力)、评估方法(指标和Benchmark)以及潜在应用与未来研究方向 [18] - 论文作者提供了持续更新的资源库,方便研究者追踪最新技术进展 [17]
构建LLM:每个AI项目都需要的知识图谱基础
36氪· 2025-11-13 00:49
文章核心观点 - 文章通过律师史蒂文·施瓦茨因使用ChatGPT进行法律研究而提交伪造案例的真实事件,揭示了通用大语言模型在专业领域应用中的根本性缺陷,并提出了将大语言模型与知识图谱相结合的混合架构作为构建可信赖人工智能系统的解决方案 [1][3][4][9][15][18][21] 大语言模型的局限性 - 律师施瓦茨提交了六个伪造的司法判决案例,这些案例包含伪造的引述和内部引用,实际上根本不存在 [3][4] - 施瓦茨承认他此前从未用过ChatGPT进行法律研究,因此并不知道其内容可能不实,误以为ChatGPT是一个超级搜索引擎 [4] - 大语言模型在处理需要权威来源的特定领域查询时可能惨败,例如法律判例、医疗规范、金融法规等,因为精确性至关重要,每一条引文都必须可验证 [5] - 大语言模型存在知识不透明、无法轻易更新、缺乏领域基础、不提供审计追踪等架构挑战 [7][8] - 据Gartner预测,到2027年,超过40%的智能体人工智能项目将因领域知识与投资回报率不匹配而被取消 [8] 知识图谱的优势 - 知识图谱是一种不断演进的图数据结构,由类型化的实体、属性和有意义的命名关系组成,针对特定领域构建 [10] - 知识体系建立在四大支柱之上:演进、语义、集成、学习 [10] - 知识图谱知识是可审计和可解释的,用户可以准确地追踪信息的来源,并对照权威来源进行验证 [12] 智能系统的部署方式 - 智能自主系统能够独立运行,在极少人为干预的情况下代表用户做出决策并执行操作 [13] - 智能顾问系统旨在辅助而非取代人类判断,提供决策支持、情境感知和用户交互,对于法律研究、医疗诊断、财务分析等关键应用至关重要 [13][14] 混合方法:LLM + 知识图谱 - 混合系统结合了知识图谱的结构化、可验证知识和LLM的自然语言处理能力,整体大于部分之和 [15] - 知识图谱提供基础:结构化的经过验证的知识、显式领域规则、审计追踪、动态更新无需模型重新训练 [15] - LLM提供接口:自然语言查询处理、从非结构化数据中自动提取实体、翻译复杂图查询、汇总结果 [15] - 混合系统可以处理自然语言查询,向知识库查询已验证信息,呈现结果并附上背景信息和指向实际来源的验证链接,标记不确定性 [18] - 行业研究表明,混合系统能够通过将LLM反应建立在可验证的事实之上来减轻幻觉,通过动态更新保持知识最新,通过透明信息路径实现可解释性,并通过编码专家知识提高特定领域准确性 [19][20] 构建可信赖人工智能系统的原则 - 部署人工智能的专业人士都肩负着把关责任,系统架构必须支持而非削弱这一责任 [21] - 人工智能在关键应用领域的未来取决于构建智能顾问系统,该系统需将知识图谱的结构化知识和可解释性与语言学习模型的自然语言理解和模式识别能力相结合 [21]
东方材料日本子公司发布天財Model-v1.1,千亿参数财税大模型实现“认知式AI”突破
全景网· 2025-10-31 02:29
文章核心观点 - 东方材料日本子公司发布天財Model-v1 1财税大模型 标志着财税AI从执行自动化迈入认知智能化新阶段 [1] - 该千亿参数模型通过融合多模态理解与检索增强生成等技术 在财税领域实现高准确率与强鲁棒性 展现出接近人类专家的认知能力 [1][2] - 垂直领域大模型技术成功落地财税行业 预示着大模型加专业知识成为推动产业智能化的关键路径 [4] 技术架构与性能 - 模型基于千亿级参数Transformer架构 并针对财税场景进行深度优化 [1] - 采用检索增强生成技术架构 确保每一条建议都具备法规依据与案例支持 克服大模型幻觉问题 [2] - 具备多模态理解能力 可同时处理图像、文本与表格数据 对复杂票据的识别准确率高达99.8% [2] - 系统支持32K tokens上下文长度 平均响应时间控制在2秒以内 每小时可处理1200张票据 [2] 专业知识库与训练数据 - 模型训练融合了海量财税专业语料 包括超过500万张日本真实财税票据图像及结构化数据 [1] - 训练数据涵盖100万组高质量财税问答对 以及跨越50年的日本税法与会计准则文本库 [1] - 知识库包含10万组以上真实企业业务案例与审计轨迹 为模型提供扎实的专业知识基础 [1] 应用场景与技术跃迁 - 模型实现三大技术跃迁:语义理解、情境推理和主动预警 能从识别跨越到决策 [2] - 可理解自然语言问题并关联相关法规 自动匹配适用准则进行会计分录 并主动提示潜在税务风险 [2] - 目前已实现与日本主流财务软件的API级对接 支持云端、私有化与混合部署 [3] 行业影响与未来规划 - 系统被评价为具备专业认知能力的AI会计师 代表垂直大模型在专业服务领域的成熟落地 [2][3] - 公司预计于2026年推出移动端APP与财务BP助手功能 并启动多国版本开发 [3] - 该产品的落地表明大模型加专业知识正成为推动产业智能化的关键技术路径 [4]
中国科学院碳足迹智能核算研究取得进展
环球网资讯· 2025-10-22 02:51
文章核心观点 - 中国科学院青岛生物能源与过程研究所开发出融合大型语言模型的智能碳核算解决方案Chat-LCA,旨在解决传统生命周期评价方法效率低、精度不足的瓶颈问题 [1][3] - Chat-LCA系统通过整合多项前沿AI技术,实现了碳核算从知识获取到报告生成的全流程自动化,显著提升了智能化水平和应用效率 [3][4] - 该系统经多行业验证展现出高准确性与高效性,可将耗时数周的分析任务压缩至数小时,并为实现“双碳”目标提供了可落地的技术工具 [4] 技术方案与创新 - 解决方案命名为Chat-LCA,其原创性体现在首次将检索增强生成、Text2SQL、思维链与代码链等前沿AI技术系统整合于LCA全流程 [3] - 系统构建了支持自然语言交互的一体化碳核算智能系统,有效打通了知识壁垒与数据孤岛 [3] - 系统实现了在“知识获取—数据检索—报告生成”全链条的深度融合 [3] 性能与效果验证 - 问答模块在跨十大行业的专业问题中BERTScore达0.85,Text2SQL模块在真实LCI数据库上的执行准确率达0.9692 [4] - 报告生成系统的填充准确率达0.9832,可读性评分8.42(满分10) [4] - 系统可将传统耗时数周的LCA分析任务压缩至数小时完成 [4] - 以锂硫电池碳足迹评估为例,系统自动识别出原料获取(47.2%)与生产阶段(31.3%)为碳排放热点,并提出清洁能源替代等精准减排建议 [4] 应用价值与影响 - 该方案大幅降低了碳核算的技术门槛,拓展了LCA方法在工业、政策等多场景的适用性 [4] - 为企业绿色决策提供了科学依据,为“双碳”目标的实现提供了可落地的技术支撑与决策工具 [4] - 研究成果发表在《Journal of Cleaner Production》上 [3]
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 00:51
文章核心观点 - 提出名为EviNote-RAG的全新检索增强生成框架,旨在解决现有RAG系统在复杂任务中面临的低信噪比和错误累计两大核心痛点 [4] - 该框架通过引入支持性证据笔记和证据质量奖励两大创新,将传统流程重构为“检索-笔记-回答”三阶段,实现了性能的显著提升和训练稳定性的质的飞跃 [5][14][17] - 在多个权威开放域问答基准测试中取得突破性表现,尤其在多跳和跨域复杂推理任务上提升显著,例如在2Wiki数据集上F1分数相对提升91% [7][25] 研究背景与动机 - 现有RAG系统存在低信噪比问题,即关键信息淹没在冗余文档中,以及错误累计问题,即推理错误在多跳链路中放大,制约了其在复杂任务中的可靠性 [4][10][16] - 过往研究尝试改进检索质量或引入规则缓解问题,但缺乏端到端、稳健且可泛化的解决方案,推动RAG演进需从根本上突破这两大瓶颈 [10] 技术方案与创新 - 核心创新是支持性证据笔记模块,模仿人类做笔记习惯,用结构化方式过滤噪声并标记不确定信息,从源头缓解低信噪比问题 [5][17][20] - 另一核心创新是证据质量奖励机制,通过轻量级自然语言推理模型作为“蕴含判别器”,确保生成的笔记能逻辑上支撑最终答案,减轻错误累计风险 [5][17][20] - 两大创新协同作用,形成“检索-笔记-回答”新范式,取代传统的“检索-回答”范式,为模型提供更密集、高质量的学习信号 [14][17][19] 实验表现与性能 - 在7个主流开放域问答基准数据集上测试,涵盖同分布和跨域任务,评价指标包括F1和精确匹配 [24] - 在HotpotQA多跳推理任务上,F1分数相比基础模型提升0.093,相对提升20%;在Bamboogle跨域复杂问答上F1提升0.151,相对提升40%;在2Wiki多跳跨域问答上F1提升0.256,相对提升91% [7][25] - 综合性能表现超越多种现有先进方法,包括基于提示的代理RAG和基于强化学习的代理RAG [24] 训练稳定性与效率 - EviNote-RAG彻底改变了传统RAG训练不稳定的局面,训练曲线从动荡转向平滑,优化过程更稳健 [27][39] - 关键发现指出稳定性源于结构化指令而非奖励本身,通过“先做笔记、再回答”的流程显式约束推理证据 [28] - 支持性证据笔记在训练早期过滤无关证据,使输出更简洁,显著降低推理时延,提升计算效率 [29][40] 消融实验与机制验证 - 消融实验表明,支持性证据笔记是性能提升的基石,能显著过滤噪声增强答案相关性;证据质量奖励则是质量提升的关键,进一步稳定复杂推理 [38][41][45] - 对比实验证明,强行要求输出总结的策略反而因奖励稀疏导致性能下降,而支持性证据笔记结合证据质量奖励的方案在稳定性和准确性上均达最佳 [38][42] - 结构化证据组织与逻辑监督被验证是突破RAG在噪声环境中性能瓶颈的关键 [43]
Qwen3-Max-Preview 上线,官方称系通义千问系列最强大的语言模型
搜狐财经· 2025-09-06 10:03
产品发布与定位 - 公司推出最新语言模型Qwen-3-Max-Preview 该模型是通义千问系列中最强大的语言模型[1] - 模型基于Qwen3系列更新 相比2025年1月版本在推理、指令跟随、多语言支持和长尾知识覆盖方面有重大改进[1][3] - 在数学、编码、逻辑和科学任务中提供更高准确性 更可靠遵循中英文复杂指令 减少幻觉现象[1][3] 技术特性与性能 - 支持超过100种语言 具有更强翻译和常识推理能力[1][3] - 针对检索增强生成RAG和工具调用进行优化 但不包含专门"思考"模式[1][3] - 支持256000上下文长度 最大输出长度为32800 tokens[5] 商业化定价 - 输入token定价为每百万tokens 120美元 按现汇率约合86元人民币[2] - 输出token定价为每百万tokens 600美元 按现汇率约合428元人民币[2] - 根据token长度分段计价:输入超过128K部分每百万tokens 300美元 输出超过128K部分每百万tokens 1500美元[5] 服务提供商与性能 - 阿里云国际作为主要服务提供商 在新加坡节点延迟为068秒[5] - 支持缓存读写功能 读取价格每百万tokens 240美元至600美元[5]
检索增强生成(RAG)的版权新关注
36氪· 2025-08-14 10:11
AIGC技术演进 - AIGC进入2.0阶段,核心是从依赖模型训练生成内容转向整合第三方权威信息提升准确性、时效性和专业性[3] - 技术实现基于检索增强生成(RAG),结合语言生成模型与信息检索技术,2025年国内厂商普遍应用该功能[3] - 亚马逊2025年5月及7月与《纽约时报》、赫斯特、康泰纳仕等传媒集团达成合作,AI产品可实时展示新闻摘要和片段[2] - OpenAI于2025年4月与《华盛顿邮报》合作,ChatGPT输出内容嵌入文章摘要和原始链接,涉及20余家出版商[2] 检索增强生成崛起原因 - RAG由Facebook AI Research团队2020年提出,解决大模型"幻觉"和"时效断层"缺陷[4] - 大模型存在输出不可靠信息问题,例如2023年6月ChatGPT编造针对主持人Frederick Riehl的虚假信息导致诽谤诉讼[5] - 模型知识受训练数据时间限制,如ChatGPT训练语料截止2021年9月,Gemini 2.0截止2024年6月[5] - RAG无需重新训练模型参数,通过实时外部数据提供答案,类比"开卷考试"模式[6] 版权纠纷案例 - 2024年10月美国首例RAG版权诉讼:道琼斯和纽约邮报控股公司诉Perplexity AI,指控爬取数十万篇版权文章[8] - 2025年2月《大西洋月刊》《卫报》等14家出版商起诉Cohere,指控实时抓取内容并输出完整原文[8] - 2025年4月欧盟法院受理匈牙利新闻商Like诉谷歌Gemini案,涉及新闻出版商邻接权[9] - 2024年8月知网向国内AI检索平台发送侵权告知函,指控未经许可使用知网内容数据[9] 作品收集版权问题 - RAG数据检索阶段涉及长期复制和临时复制,长期复制如固定到硬盘或服务器可能构成侵权[11] - 道琼斯案中原告主张Perplexity AI在输入阶段大规模复制文章已构成侵权[11] - 欧盟知识产权局指出动态检索场景下临时保存内容可能适用文本与数据挖掘例外[11] - 若实时检索后内容被本地化存储,仍可能被认定为长期复制[11] 技术保护措施问题 - 规避技术措施如付费墙或登录验证可能违反著作权法,技术措施分为接触控制和利用控制[12] - 道琼斯案中《华尔街日报》付费墙属于接触控制措施,规避行为违反美国《数字千年版权法》[13] - 知网案中访问权限设置涉及技术措施,第三方绕过限制可能构成违法[12] 作品利用侵权类型 - 直接侵权包括侵犯复制权、改编权和信息网络传播权,如《纽约时报》诉OpenAI案中指控实时搜索引用内容[14] - 复制与改编区分参考北京高院指南:未形成新作品属复制,形成新作品属改编[14] - 间接侵权可能因标注盗版网站来源或用户后续传播行为,需结合模型厂商注意义务判定[15] 合理使用争议 - 使用盗版内容构建知识库不构成合理使用,如2025年6月Anthropic案中法院认定下载盗版书籍侵权[17] - 合法获取作品时市场替代性是关键,欧盟报告指出摘要内容若替代原作品访问可能侵权[17] - 日本文化厅规定输出内容若包含原作品独创性表达则不构成合理使用[17] - 规避技术措施与合理使用认定可能分离,但欧盟和日本法规将遵守技术措施作为前提[17] - 输出阶段合理使用取决于复制比例和注明来源,欧盟允许极短摘录引用[18] - 美国版权局认为输出节略版本而非超链接不太可能构成合理使用[19] - 微软允许网站通过robots元标签控制摘录长度,平衡许可费用和用户访问意愿[19]
检索增强生成(RAG)的版权新关注
腾讯研究院· 2025-08-14 08:33
AIGC 2.0阶段:检索增强生成 - 行业进入AIGC 2.0阶段,从单纯依赖模型训练转向整合第三方权威信息以提升内容准确性、时效性和专业性 [6] - 技术层面称为"检索增强生成"(RAG),结合语言生成模型与信息检索技术,国内大模型厂商已普遍增加该功能 [6] - 典型案例包括亚马逊与《纽约时报》、赫斯特、康泰纳仕等传媒集团合作,OpenAI与《华盛顿邮报》及20多家出版商合作 [3][6] 检索增强生成的崛起原因 - 解决传统大模型"模型幻觉"和"时效断层"两大缺陷,如ChatGPT编造虚假信息导致诽谤诉讼 [8][9] - 无需重新训练模型参数,通过实时外部数据提供准确答案,类似开卷考试模式 [10] - 运行过程分为数据检索收集和内容整合展示两个阶段,涉及海量版权作品利用 [11] 现实版权纠纷案例 - 美国首例RAG版权诉讼:道琼斯和纽约邮报控股诉Perplexity AI,指控其爬取数十万篇付费文章 [14] - 14家全球头部新闻出版商联合起诉加拿大Cohere公司,指控其实时抓取并输出完整原文 [14] - 欧盟法院受理首起生成式AI版权案:匈牙利新闻商Like诉谷歌Gemini侵犯邻接权 [14] - 国内知网与某AI检索平台纠纷,涉及学术文献使用争议 [14] 作品收集涉及的版权问题 - 数据检索阶段可能涉及复制权侵权,分为长期复制和临时复制两种情形 [17] - 构建检索增强数据库时的向量化处理可能构成长期复制,如Perplexity AI案中原告指控 [17] - 实时检索场景下若仅临时保存内容,可能适用文本与数据挖掘例外规则 [17] 技术保护措施问题 - 绕过IP限制或破解动态加载可能违反著作权法"技术措施"规定 [19] - 技术措施分为接触控制措施(如付费墙)和利用控制措施,规避前者构成违法 [20] - 美国《数字千年版权法》第1201条对技术措施提供双重保护体系 [20] 作品利用涉及的侵权问题 - 内容整合展示阶段可能构成直接侵权(复制权、改编权、信息网络传播权)或间接侵权 [22] - 直接侵权认定参考标准:未形成新作品属复制行为,形成新作品属改编行为 [22] - 间接侵权情形包括标注盗版来源扩大传播,或用户后续侵权传播中模型厂商存在过错 [23] 合理使用之争 - 数据检索阶段合理使用认定关键在"市场替代性",盗版内容构建知识库不构成合理使用 [26][27] - 日本区分"非欣赏性利用"和"轻微利用",欧盟要求遵守技术措施作为合理使用前提 [27][28] - 内容展示阶段合理使用核心在于复制比例和注明来源,各国标准不一 [28] - 美国版权局认为提供节略版本而非超链接不太可能构成合理使用 [28]