Meta超级智能实验室首篇论文:重新定义RAG
量子位·2025-09-08 07:00
文章核心观点 - Meta超级智能实验室提出REFRAG高效解码框架 重新定义RAG技术 最高可将首字生成延迟加速30倍 [1][13][24] - 该框架通过压缩-感知-扩展流程优化长上下文处理 在保持准确性的同时显著提升推理效率 [14][27][28] - 技术突破解决RAG计算冗余问题 为AI应用规模化部署提供重要解决方案 [9][12][29] RAG技术背景与挑战 - RAG通过外部知识库检索增强LLM回答准确性 但存在推理效率与信息量的权衡问题 [6][7] - 长上下文处理导致计算复杂度呈平方级增长 首字生成延迟显著增加 [8] - 不同文档片段间交叉注意力得分低 标准Transformer架构却进行全局计算造成资源浪费 [12] REFRAG技术原理 - 压缩阶段用轻量编码器将文本块转化为向量表示 使输入序列从数千词元缩减至数百嵌入 [16][17] - 感知阶段通过强化学习策略网络智能识别需保留原始文本的关键信息块 [20][21] - 扩展阶段向LLM输入混合序列 结合压缩嵌入与原始文本实现高效解码 [22][23] 性能表现 - 首字生成延迟最高加速30.85倍 较先进方法提升3.75倍 [24] - 困惑度与下游任务准确率无性能损失 上下文窗口等效扩大16倍 [27][28] - 框架适用于多轮对话和长文档摘要等长上下文处理任务 [29]