LightThinker

搜索文档
EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了
机器之心· 2025-08-28 04:33
文章核心观点 - LightThinker是一种新型大语言模型推理加速方法,通过动态压缩中间思考步骤为紧凑表示(gist tokens),显著降低内存占用和计算成本[6] - 该方法模仿人类认知过程,仅保留关键计算步骤而抛弃辅助性思考内容,实现"生成→压缩→抛弃"的动态循环[6][17] - 在Qwen和Llama系列模型测试中,峰值内存使用减少70%,推理时间缩短26%,同时保持准确度与效率的平衡[22][24][27] 技术实现原理 - 数据重构阶段在思考流程中植入压缩指令,使用换行符划分思维步骤并插入特殊指令符(Cache Tokens和Output Token)[10][11][15] - 注意力改造采用Thought-based Attention Mask技术,分压缩阶段和生成阶段精确控制模型注意力范围[12][13][16] - 动态推理形成"即用即弃"循环:生成思考→压缩为摘要→抛弃原文→基于摘要继续推理[14][17] 实验性能表现 - 在GSM8K数据集上,Qwen2.5-7B模型准确率达90.14%,峰值token占用676,依赖指标1.0M[22] - 在MMLU数据集上,相同模型准确率60.47%,峰值token占用944,依赖指标1.9M[22] - Llama3.1-8B模型在GSM8K准确率88.25%,峰值token占用629,依赖指标0.9M[22] - 相比传统Vanilla方法,Qwen系列峰值内存使用减少70%,推理时间缩短26%[27] 方法比较优势 - 相较于CoT方法:在Qwen2.5-7B上准确率提升4.02个百分点(90.14% vs 86.12%),但依赖指标增加0.9M(1.0M vs 0.1M)[22] - 相较于H2O方法:在相同模型上准确率提升0.22个百分点(90.14% vs 89.92%),依赖指标降低0.2M(1.0M vs 1.2M)[22] - 在GPQA数据集上表现最佳,Qwen2.5-7B准确率达70.30%,依赖指标仅2.7M[22] 技术局限性 - 当前分割思维步骤依赖规则而非语义分析,在数学相关任务上表现不佳[33] - 训练数据规模有限(约16K),对数值敏感度不足,GSM8K数据集中出现信息丢失导致的推理错误[33] - 在Bad Case中观察到压缩过程中数值信息丢失现象,如只压缩部分数值导致后续推理错误[33] 行业应用背景 - 大语言模型推理加速研究主要集中在模型量化、辅助解码、生成更少Token和减少KV缓存四类方法[26] - 减少KV缓存策略分为基于剪枝的离散空间选择和基于合并的连续空间压缩两种类型[30] - 具身智能领域发展迅速,2025年9月将举办专题论坛讨论从泛化到行动的技术突破和产业落地[38][39]