英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

文章核心观点 - 英伟达研究院提出的DLER强化学习训练方法能够显著优化大模型推理过程,在保持准确率的同时大幅减少推理长度和提升效率,代表了推理模型未来的重要发展方向[4][7][14] 大模型推理面临的挑战 - 当前OpenAI o系列、DeepSeek-R1、Qwen等推理模型通过长链思维提升准确性,但导致推理链过长、Token消耗爆炸、响应速度骤降[2] - 长链思维带来的冗长问题是实现AGI路径上亟待解决的瓶颈[3] DLER方法的技术突破 - DLER方法的关键在于采用正确的强化学习优化方法,而非设计复杂的长度惩罚机制[4] - 该方法解决了引入长度惩罚后出现的奖励信号方差增大、熵塌缩、训练信号过度稀疏等强化学习训练问题[7][8] - 通过优势归一化、高熵探索、动态采样和截断惩罚等具体技术手段稳定训练信号并提升效率[8] DLER方法的性能表现 - 新模型产生的推理长度减少70%以上,同时准确率完全保持[7] - 在AIME-24数学基准上,DLER-Qwen-R1-7B模型平均仅用3230个Tokens就达到55.6%的准确率[7] - 在同等推理时间内,DLER模型能并行生成几十条简明推理,最终准确率比DeepSeek-R1高出近50%[10] 行业影响与未来方向 - 研究揭示推理效率提升不取决于惩罚设计的复杂度,而取决于优化算法的选择,颠覆了此前认为强化学习长度惩罚必然降低准确率的观点[15] - DLER方法不仅适用于小模型,在大模型上通过权重选择性合并技术同样有效,能恢复全部准确率并保持近一半的长度压缩[12] - 该方法让模型实现更聪明、更高效的思考方式,以更少Tokens和更短时间达到更高准确率,将成为推理模型实际部署的关键技术之一[14]