Workflow
MiniCPM4.1
icon
搜索文档
第二代InfLLM开源,同尺寸快三倍,零参数,可训练稀疏注意力
36氪· 2025-10-09 12:12
InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,仅需少量长文本数据即可训练,且性能接近传统稠密模型。通过动态切换短长文本处 理模式,显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」,预填充与解码双阶段加速,释放长上下文的真正生产力。 长序列高效处理已成为大模型应用的关键。 传统稠密注意力在序列变长时计算开销极速增长,直接限制了产品可用性与成本可控性。 为解决这一痛点,清华 、OpenBMB 和哈工大提出 InfLLM-V2:一种零额外参数、训练高效的原生稀疏注意力框架。 InfLLM在短文本场景保持原生高效率,在长文本场景则切换为稀疏模式,带来端到端的显著加速。 该方法仅用5B的长文本词元,即可完成稀疏注意力的训练(而DeepSeek-V3.2-Exp训练了近 1T 词元的数据,才完成稀疏注意力的训练)。 具体而言,InfLLM-V2相比于稠密注意力机制可以实现4倍的速度提升,在长文本理解任务上保持98.1%的稠密模型性能,在深思考任务上保持99.7%的稠 密模型性能。 InfLLM有三个核心优势 1. 低成本训练:仅需5B长文本数据即可完成稀疏注意力能力的训练,训练成本低,适配周期短。 ...