Workflow
EdgeInfinite算法
icon
搜索文档
手机流畅处理128K长文本,vivo端侧新算法突破内存限制 | ACL 2025
量子位· 2025-05-20 05:12
核心观点 - vivo AI研究院推出EdgeInfinite算法 专为端侧设备设计 可在低于10GB GPU内存的设备上处理长达128K tokens的输入 显著提升长文本处理效率 [1][4] - 该算法通过可训练门控记忆模块集成记忆压缩技术 与原生Transformer架构完全兼容 仅需微调少量参数即可实现高效推理 [4] - 在LongBench数据集测试中 该算法在多文档问答和少样本学习任务上优于其他KV Cache优化方法 部分任务表现超过完整KV Cache的原始模型 [14][15] 架构设计 - 采用结合ROPE的分块注意力模块 将文本切分为片段并加入位置编码 提升小段内token间位置关系计算的准确性 [7][8] - 引入记忆压缩与解压缩模块 将历史KV状态分块存储为固定长度记忆块 在计算注意力时解压缩以近似长序列注意力计算 [7][9] - 集成自适应的门控记忆模块 结合基于记忆和局部片段的注意力 增强长距离依赖处理能力 训练时仅需微调该模块 [7][10] 性能表现 - 在Single-Document QA任务中取得31.67分 显著高于FullKV的21.93分和其他对比方法(SnapKV 22.51分, PyramidKV 22.25分) [15] - 在Multi-Document QA任务中达到26.08分 优于FullKV的26.15分 且远高于StreamingLLM的19.13分 [15] - 少样本学习任务平均得分47.89分 大幅超过FullKV的39.37分 其中TriviaQA任务达79.03分(FullKV为51.98分) [15] - 整体综合得分25.71分 高于FullKV的24.20分及其他对比方法(SnapKV 23.88分, PyramidKV 23.81分) [15] 技术优势 - 推理时保留sink token(序列起始token)和window token(序列末尾token)的kv cache 消融实验显示移除任一token会导致性能显著下降(如移除sink token后综合得分降至23.17分) [13][16][17] - 采用长短文本任务动态路由机制 可灵活结合基础模型 在不影响短文本能力的前提下提升长文本处理性能 [13] - 相比原始BlueLM-3B模型 首词出词时间更短且内存占用更少 内存消耗随文本长度增加保持稳定 [17]