研究背景与核心问题 - 当前大模型的“推理能力”成为行业热点,o1、R1、QwQ等强化学习推理模型展现出强大的多步推理能力[2] - 但现有模型存在“过度思考”问题,推理链条冗长,有时甚至“越想越错”,导致效率低下并可能引入噪声[3][4] 研究视角与核心发现 - 研究团队从信息论视角切入,使用“熵”与“互信息”等底层指标重新衡量模型思考的价值[5][6] - 研究发现,过长的推理链在技术层面会像在噪声信道中添加冗余比特,超过模型“推理容量”后会导致错误积累[19] - 在语义层面,随着推理链延长,单步推理带来的信息增益迅速递减,冗余步骤更多是在制造噪声[19] - 在实践层面,更长的推理链并不总带来更好结果,反而导致边际收益下降、token消耗增加、延迟和算力开销增大[19] - 在GSM8K数据集上的实验表明,错误答案往往伴随更长的推理链和更高的信息偏差(InfoBias)[20] 提出的解决方案:Adaptive Think - 研究团队提出了Adaptive Think机制,其核心理念是通过熵来衡量模型推理过程中的不确定性,并在模型达到足够置信度时主动终止推理[7][28] - 该机制无需训练,可直接在现有模型上部署[8] - 其工作方式是让模型进行“自我监控式推理”,每完成一步推理后计算答案分布的平均熵,当熵低于预设阈值α时即停止推理并输出答案[29] - 该策略使模型能根据任务难度灵活调整思考深度,实现“有必要才深思,无必要就直答”[27][34] 实验验证与性能表现 - 在8个大模型(5个非推理模型和3个推理模型)和6个不同推理类型的基准测试上进行了评估[33] - 在数学任务GSM8K与AIME2025上,Adaptive Think在保持准确率的同时,将平均Token消耗减少了一半以上(40.01%-68.25%)[33] - 例如,在QwQ-32B模型上,相比传统的Vanilla Think模式,Adaptive Think在AIME2025上将Token使用量减少了68.25%,而准确率还提高了0.93%[33] - 在知识、逻辑、常识等任务上,Adaptive Think同样表现优异,在MMLU-Pro、CommonsenseQA、ProntoQA、MuSR等多个数据集上,QwQ-32B的平均准确率提升1.23%,平均token减少42.52%[35] - 在依赖常识直觉的CommonsenseQA任务上,DeepSeek-R1-32B模型采用Adaptive Think后,准确率几乎不变,但Token消耗减少了超过80%[36] 对不同任务推理需求的分析 - 分析揭示了不同任务对推理深度的不同需求:数学题(如AIME2025)需要更深的推理链;常识题(如CQA)模型几乎一开始就知道正确答案;多步软推理(如MuSR)的有效推理集中在前半段[42] - 这意味着真正成熟的推理大模型,应能“自动匹配任务难度”,而非输出固定长度的推理[44] 研究意义与行业启示 - 该研究提出了一个重要理念:AI推理的未来不在“更长”,而在“更聪明”[45] - 未来的大模型应该:1)在需要深度逻辑时能推理得足够严谨;2)在只需直觉判断时不浪费token;3)能动态适应任务难度;4)在推理过程中实时自我评估,随时刹车[45] - 如果说强化学习让模型学会了“怎么想”,那么Adaptive Think让模型学会了“想多久”,这是推理大模型走向成熟的关键一步[47] - 这项工作既解释了“为什么模型会过度推理”,也提供了“如何简单有效地解决”的方案[46]
大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想
机器之心·2025-12-19 06:38