MiniCPM4
搜索文档
第二代InfLLM开源,同尺寸快三倍,零参数,可训练稀疏注意力
36氪· 2025-10-09 12:12
核心技术特点 - InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,通过动态切换短长文本处理模式,显著提升长上下文任务的效率与质量 [1] - 该方法仅需5B的长文本词元即可完成稀疏注意力的训练,而DeepSeek-V3.2-Exp训练了近1T词元的数据 [1] - 核心优势包括低成本训练、短到长无缝切换效率双优、以及硬件友好的高效算子实现 [2] - 采用零额外参数、长短无缝切换的可训练稀疏路径,仅用一套共享键值缓存,与稠密注意力在参数与计算方式上完全对齐 [6] 性能表现 - 相比于稠密注意力机制可以实现4倍的速度提升,在长文本理解任务上保持98.1%的稠密模型性能,在深思考任务上保持99.7%的稠密模型性能 [1] - 在128K长文本中,InfLLM-V2可实现4-9倍算子加速比,端到端评测中在prefill与decode分别实现约2.1×与2.3×加速 [13] - 在RULER、LongBench与LongPPL等长文本理解评测中,InfLLM-V2实现了与稠密注意力模型完全可比的性能 [9] - 在数学、代码深思考任务中,InfLLM-V2能够实现与稠密注意力可比的性能,而NSA方法对模型效果有较大损害 [11] 产品应用与对比 - 基于InfLLM-V2架构发布了首个开源的原生稀疏注意力模型MiniCPM4和混合思考版本MiniCPM4.1 [17] - MiniCPM4.1在LiveCodeBench、AIME等代码、数学推理测试中,推理速度比Qwen3-8B等同尺寸开源模型快3倍以上 [17] - 在众多深思考任务上取得综合平均分同尺寸模型第一,在AIME24达到80.83分,AIME25达到72.08分 [18] - 与传统NSA方法相比,InfLLM-V2解决了三套独立KV缓存与三种注意力分支的设计问题,训练更稳定 [6]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 07:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]