Meta REFRAG技术突破 - Meta Superintelligence Labs推出REFRAG框架 彻底重构RAG 实现LLM上下文容量提升16倍 速度最高提升31倍 且准确率零下降[2] - 框架通过四步流程优化解码:压缩(16个token浓缩为块向量)、缩短(输入序列长度减少16倍)、加速(计算开销降低)、选择(RL策略保留关键片段)[5][11] - 在16k tokens场景下实现超过16倍TTFT加速 文本越长优势越明显 加速效果随上下文规模呈指数级提升[7] 长上下文处理挑战 - 传统LLM注意力机制的计算和内存开销随输入长度平方增长 文本长度翻倍速度可能慢4倍 导致系统延迟和内存消耗增加[4] - RAG应用中大量检索段落仅小部分与查询相关 不相关段落造成计算资源浪费[4] - REFRAG通过识别并跳过非相关上下文的无效计算来优化解码过程[4] 性能验证结果 - 在GSM8K基准测试中处理80个chunk(8倍更长上下文) 运行速度提升一倍 成绩从6.71提升至12.08(接近翻倍)[12] - 在多项任务(RAG、多轮对话、长文档摘要)中验证有效性 BoolQ任务精度达68.48[9] - 相比基线方法CEPE和REPLUG REFRAG在长上下文任务中表现显著更优[9] 技术实现细节 - 采用持续预训练(CPT)方法 基于下一段落预测任务对齐编码器与解码器[13] - 引入重建任务和课程学习方案:重建任务鼓励依赖上下文记忆而非参数化记忆 课程学习逐步增加块重建难度[14][15] - 强化学习策略以困惑度为奖励信号 选择性保留关键信息块 避免压缩导致信息丢失[17] 行业应用前景 - 框架使大上下文RAG从理想变为现实 能处理更海量信息[9] - 最终价值需在更广泛实际应用场景中检验[10]
扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
机器之心·2025-09-08 06:22