检索增强生成（RAG） - 财报，业绩电话会，研报，新闻

检索增强生成（RAG）

搜索文档

自动驾驶之心· 2025-08-07 09:52

背景介绍 - RAG（检索增强生成）方法结合了检索模型和生成模型的能力，以提高生成文本的质量和相关性 [1] - 该方法由Meta在2020年提出，让语言模型能够获取内化知识之外的信息，并以更准确的方式回答问题 [1] - 在大模型时代，RAG用于解决幻觉问题、知识时效问题和超长文本问题等大模型本身的制约或不足 [1] RAG的挑战 - 主要面临三个方面的挑战：检索质量、增强过程和生成质量 [2] - 检索质量方面存在语义歧义、用户输入变复杂、文档切分和多模内容提取等挑战 [5] - 增强过程面临上下文集成、冗余和重复、排名和优先级等挑战 [5] - 生成质量方面存在过度依赖检索内容、无关性、毒性或偏见等问题 [5] 整体架构产品架构 - 包含模型层、离线理解层、在线问答层和场景层四层 [11] - 模型层支持自研序列猴子、开源大模型和第三方模型，并优化跨语言Embedding模型 [11] - 离线理解层包括智能知识库和搜索增强模块，负责非结构化文本处理和检索精准度 [11] - 在线问答层支持多文档、多轮次、多模态及安全性与拒识等功能 [11] - 场景层针对不同行业特点预制多种场景类角色 [11] 技术架构 - 分为query理解、检索模型和生成模型三个主要组成部分 [10] - query理解模块包括query改写、扩写和意图识别等，旨在提高召回率 [12] - 检索模型从文档集或知识库中检索相关信息，使用信息检索或语义搜索技术 [12] - 生成模型根据Prompt或上下文生成新内容，包括chat系统和Prompt优化等 [13] Query理解 - 引入query理解模块解决用户query措辞不利于检索和生成结构化查询的问题 [14] - 意图识别模块利用LLM实现决策功能，可应用于选择器模块或查询引擎 [15] - query改写模块利用LLM重新措辞用户query，提高检索效果 [16] - HyDE技术生成假设答案并转换为嵌入，从数据库中检索最接近的实际文档 [17] - query扩写模块将复杂问题拆解为子问题，采用分而治之的方法处理 [22] - Step-Back Prompting通过抽象和推理两步处理复杂任务 [23] - CoVe技术通过验证和完善回答提高大型语言模型答案的可靠性 [25] - RAG-Fusion生成多个query并行执行搜索，使用倒数排名融合重新排序 [27] - ReAct将复杂查询分解成更简单的子查询，结合思维链提示和Action计划生成 [29][31] - query重构模块通过一次请求实现改写、拆解和拓展用户输入 [32] 检索模型挑战 - 依赖于Embedding模型的向量化是否准确 [33] - 相关信息出现在输入上下文开头或结尾时性能最高，中间性能明显下降 [34] 架构 - 包括文档加载器、文本转换器、文本嵌入模型、向量数据库和索引等组件 [35][37] 文档加载器 - 从配置源加载文档数据，支持懒加载和多种来源如txt文件、网页和YouTube视频 [38] 文本转换器 - 将大型文档分割成较小块，适应模型上下文窗口 [39] - 递归分割文本保持相关文本片段在一起 [40] - 常见类型包括HTML、Markdown、Code、Token和Character等 [43] - 使用Chunkviz工具评估文本转换器工作情况 [44] 文本嵌入模型 - 创建文本的向量表示，捕捉语义并支持语义搜索 [45] - 应具备跨语种检索、长原文和短摘要关联、不同表述相同语义关联等能力 [45] 向量数据库 - 支持嵌入式的高效存储和搜索，检索与嵌入查询最相似的嵌入向量 [47] 索引 - 摘要索引将节点存储为顺序链，支持顺序遍历或基于关键词过滤 [51] - 树索引构建层级树状结构，父节点是子节点的摘要 [53] - 关键词表索引提取关键词并构建多对多映射 [55] - 向量索引利用文本嵌入模型将文本块映射成向量并存储在向量数据库中 [57] 排序和后处理 - 基于相似度分数、关键词、LLM重新排序或时间进行过滤和排序 [59] 生成模型 - 回复生成策略包括依次结合相关文本块修正回复或在Prompt中填充多个文本块 [66] - prompt拼接策略包括字符串提示和聊天提示 [61] - 字符串提示连接模板，聊天提示由消息列表组成 [62][63] 插件 - 基于混合演示检索的上下文学习方法融合文本检索和语义检索进行多路召回 [64] - 检索模块包括文本检索和语义检索，分别采用BM25和双塔模型 [70] - 重排模块使用倒序排序融合算法和两端填充排序策略 [71] - 生成模块设计prompt组装模块，融入长期和短期对话记录 [72] 引用或归因生成 - 归因让模型生成内容与参考信息对齐，提供证据来源确保信息准确性 [73] - 模型生成方法直接让模型生成归因信息，依赖模型能力 [75] - 动态计算方法在流式生成时匹配语义单元和参考源 [76] 评估 - Faithfulness评测生成的回答是否忠实于contexts，避免幻觉 [79] - Answer Relevance评测生成的答案是否解决实际问题 [79] - Context Relevance评测检索的上下文是否重点突出且少含无关信息 [79] - RGB基准研究RAG对大型语言模型的影响，分析噪声鲁棒性、拒答等能力 [77] - RAGAS框架对RAG pipeline进行无参考评估，考虑检索系统和LLM能力 [81] - LlamaIndex提供衡量生成结果质量和检索质量的模块 [81] 总结 - RAG技术需要不断实践和研究才能打磨出符合企业应用的精品 [82] - 本文总结了过去一年在RAG实践的关键模块，属于大纲式技术普及文章 [82]

忘掉《Her》吧，《记忆碎片》才是 LLM Agent 的必修课

Founder Park· 2025-07-29 08:05

行业趋势演变 - AI行业叙事从Chatbot（聊天机器人）转向Agent（智能体）成为主流讨论焦点从"意图识别"和"多轮对话"变为"任务分解"、"工具调用"和"自主规划" 行业热度堪比2016年移动互联网爆发期 [4] - 电影《Her》定义了Chatbot范式的终极形态而《记忆碎片》的主角莱纳德被视为Agent的完美隐喻展示系统如何在信息不完整环境下为目标思考与行动 [5] Agent系统架构 - 上下文工程是围绕LLM有限注意力窗口设计的信息管理技术栈目标是为每个决策点提供恰到好处的信息决定Agent成败 [5] - 莱纳德的记忆系统对应LLM三大特征：长期记忆如同训练数据（静态知识库）短期记忆如同上下文窗口（15分钟记忆限制）行动驱动类似Agent任务导向 [9] 上下文工程三大支柱外部知识管理 - 拍立得照片系统对应RAG技术实现知识管理闭环：选择性记录任务关键信息而非存储所有数据避免检索时信息过载 [17][20] - 完整流程包括信息采集固化（拍照）、上下文标注（背面笔记）、按需调用（匹配检索）体现RAG核心价值 [23] 上下文提炼结构化 - 将信息从照片升级到纹身代表信息提炼压缩过程只保留经过验证的核心断言（如"事实5"）并物理结构化确保读取优先级 [22][29] - Agent需成为信息炼金术士对冗长信息进行压缩总结在有限Token预算内最大化信息密度避免"大海捞针"困境 [25] 分层记忆管理 - 三层架构：核心任务层（不可变纹身）、情景工作层（可读写照片）、瞬时处理层（易失性大脑记忆）实现高效记忆调度 [30] - 需明确定义信息层级区分宪法级指令、任务日志和临时缓存防止Agent迷失在海量操作日志中 [28] Agent系统风险 - 上下文投毒风险：外部恶意输入可能导致Agent将错误信息当作真理输出呈现"垃圾进真理出"现象 [32] - 自我强化认知牢笼：Agent在多步任务中可能将前序错误结论当作事实缺乏独立审查机制导致偏差放大 [33][34] 系统优化方向 - 缺失反思模块是当前Agent核心缺陷需建立验证机制比对行动结果与预期差距生成误差报告指导后续行动 [35] - 构建可靠行动系统比单纯追求自主性更重要需防止创造高效但永不怀疑的"莱纳德军队" [36]

Agent（智能体）

上下文工程（Context Engineering）

上下文工程（Context Engineering）

梳理了1400篇研究论文，整理了一份全面的上下文工程指南 | Jinqiu Select

锦秋集· 2025-07-21 14:03

文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域通过系统化框架整合信息获取处理和管理三大组件可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等长序列处理效率低下以及多模态整合不足等核心挑战需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战先进方法采用交叉注意力机制或统一预训练结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析多季度财报推导等长程依赖任务以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化微调方法稳定性高但资源密集提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计如"大海捞针"测试长上下文处理结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类反映真实场景性能差距为创业者指明改进方向 [128][129]

Multi-Agent 协作兴起，RAG 注定只是过渡方案？

机器之心· 2025-07-19 01:31

从 RAG 检索增强到多层级状态演化，AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进，为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构，将对话 memory 分为短期、中期和长期三层，通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想，将固定长度上下文视为主内存，通过函数调用在主上下文和外部存储间分页调度，支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成（RAG）方式，通过向量索引检索用户相关信息并注入模型输入，实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入，依赖向量索引 [2] - AI Memory 注重状态持续性，需维护多层级 memory 架构并管理时序与优先级，结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补，RAG 增强知识性，Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限，AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]

虎嗅APP· 2025-07-18 10:20

行业趋势与格局演变 - 2023年生成式AI领域呈现"百模大战"格局，融资和刷榜是主要特征，但2024年市场迅速收敛至少数玩家的资本与技术持久战 [2] - 行业关注点从模型性能转向落地价值，核心命题转变为如何将大模型能力转化为业务生产力 [2] - Agent成为大模型落地的关键解决方案，AWS将其作为推动千行百业业务重构的核心技术 [3][4] Agent技术崛起驱动因素 - 大模型发布会普遍强调工具调用能力指标，如Kimi K2、Grok 4、Minimax M2和OpenAI最新ChatGPT Agent均聚焦多工具集成 [6] - Agentic AI爆发两大原因：Agent编排框架成熟（CrewAI/LangGraph/LlamaIndex）和标准化协议出现（MCP/A2A） [10] - LangChain调查显示超50%公司已部署Agent，80%正在研发；Gartner预测2028年33%企业软件将采用Agentic AI [10] AWS Agent解决方案架构 - Amazon Bedrock AgentCore提供七大模块降低构建门槛：Runtime（无服务器环境）、Memory（记忆系统）、Observability（可观测性）、Identity（身份管理）、Gateway（网关服务）、Browser（浏览器功能）、Code Interpreter（代码解释器） [15][16][17][18] - 解决方案支持按需组合使用，兼容主流AI框架与协议（MCP/A2A），内置企业级安全管控 [19] - 针对企业级需求推出S3 Vectors向量数据库（成本降低90%）、Amazon Nova模型定制功能、AI IDE产品Kiro（规范驱动开发/智能代理钩子） [22][25][26] 技术落地与商业化进展 - AWS Marketplace已上架上百种AI Agents & Tools，支持自然语言搜索直接部署 [11] - 当前Agent供需存在缺口，通用性Agent难以解决行业独特问题，需解决六大核心挑战：安全扩展、记忆系统、权限细化、复杂工作流工具、资源发现、交互追溯 [12] - S3 Vectors创新性实现冷热数据分层存储（低频存S3/高频存OpenSearch），支持10,000索引/数千万向量规模 [23][24] 行业变革特征 - 本轮AI浪潮区别于历史的关键在于：模型通用能力+基础设施成熟度（框架/数据库/接口/工具链）推动Agent从概念验证走向规模化落地 [29] - 技术革命本质体现为通过AWS等平台降低定制化门槛，使Agent成为各行业企业的专属解决方案 [30]

Amazon Bedrock AgentCore

Amazon Bedrock AgentCore

1万tokens是检验长文本的新基准，超过后18款大模型集体失智

量子位· 2025-07-17 02:43

大模型长上下文性能研究核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%，且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响，其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异：GPT-4.1可能在短文本即出现性能骤降，Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架，通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文，设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率（与人类判断一致性超99%）[18][33] 关键影响因素语义关联性 - 针-问题相似度实验显示：低相似度组在1万tokens时准确率降至40%-60%，比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一，但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案，Claude系列倾向弃权，Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%，打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关，揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码，覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术（如Gemini 1.5 Pro），但实际长文本处理能力仍存瓶颈[12][44]

大模型长文本处理

检索增强生成（RAG）

Artificial Intelligence

Artificial Intelligence

GPT-4.1

Claude 4

Gemini 2.5 Flash

李彦宏说 DeepSeek 幻觉高，是真的吗？

36氪· 2025-05-02 04:29

大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT，成为国产开源大模型的代表，但其"胡说八道"的批评频发，用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%，较前代V3的3.9%提升近4倍，阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%，轻量版o4-mini更达48%，均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出，显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积，导致多米诺骨牌式幻觉放大，例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG（检索增强生成）通过先检索权威资料再生成回答，百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略，训练Critic批判模型筛选长思维链中的逻辑错误，但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确，需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉，后者可能产生"外箱式创意"，例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限，OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度，高风险领域需严格限制，创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入，又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队，但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间，显示该问题具行业普遍性[7]

大模型幻觉

检索增强生成（RAG）

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

ChatGPT

Qwen3

喜报！南方财经金融理财智能大模型算法通过国家网信办备案

21世纪经济报道· 2025-03-14 14:24

文章核心观点 2025年3月12日南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过国家互联网信息办公室备案，该算法集成多种前沿技术，南财理财GPT——南小财能为用户提供智能便捷理财服务，拥有五大功能 [2][3] 分组1：算法备案情况 - 2025年3月12日国家互联网信息办公室发布第十批境内深度合成服务算法备案信息，南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过备案 [2] - 国家网信办备案审核严苛全面，备案通过意味着企业技术能力、数据安全、模型合规性达一定标准，是AI大模型商业化落地“通行证” [2] 分组2：算法及模型介绍 - 南方财经金融理财智能大模型算法集成大模型技术、自然语言处理、检索增强生成、强化学习训练等多种前沿技术，为用户提供智能便捷理财服务体验 [3] - 南财理财GPT——南小财是专注财富管理领域的智能AI金融模型，在南财理财通自主构建的银行理财数据库基础上，融合先进大模型训练技术打造而成，用户与智能助手实时对话可获取理财投资信息、市场行情分析和产品信息 [3][4] 分组3：南小财功能 - 提供智能实时对话交流，凭借前沿自然语言处理技术精准捕捉领会用户疑问需求并给出智能准确回答 [5] - 提供理财投资参考信息，从海量金融数据和市场资讯中评估潜在投资风险，依据用户风险承受能力和投资偏好提供个性化理财投资策略建议 [5] - 实时分析市场行情，凭借实时数据接入与深度多维分析能力捕捉市场态势，前瞻性洞察市场风险 [5] - 提供理财排行榜单，通过接入南财理财通银行理财数据库，综合多维度分析与评价对理财产品分类排名 [5] - 实时提供政策资讯，凭借政策敏感性和广泛数据采集网络追踪汇聚财经政策动向与行业资讯，对政策信息深度剖析与速递解读 [6]