Self - Conditioning

搜索文档
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
36氪· 2025-09-16 07:46
Scaling Law与模型规模扩大的经济价值 - 研究发现虽然单步任务准确率提升幅度减小,但这些微小进步叠加能使模型完成任务长度实现指数级增长,这在现实中更具经济价值 [1][2] - 论文指出模型在现实世界的价值往往源于智能体能够完成任务的长度,从这个角度观察,更大的模型非但没有收益递减,反而能将单步准确率微小提升复合放大,在任务完成长度上实现指数级跃升 [2] - 人类劳动报酬按时间计算,如果智能体经济价值源于能够完成任务时长,那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源所带来收益的可靠参考 [18] 长程任务执行的挑战与突破 - 长程任务执行一直是深度学习的致命弱点,自动驾驶demo很炫酷但要真正上路跑长途用了十多年才实现,AI能生成惊艳图片但拍一段连贯一致的长视频仍是难题 [4] - 研究通过解耦推理或智能体任务中规划和执行需求来解决问题,规划涉及决定检索什么信息或使用什么工具及顺序,而执行是让规划变成现实 [6] - 实验证实即使去除规划和知识要求,长时程任务执行对LLM仍具有挑战性,即使是表现最佳模型Qwen3-32B准确率在15个轮次内也降至50%以下 [23] Self-Conditioning效应的影响 - 研究发现随着任务推进,每步错误率本身会上升,这与人类通过练习进步形成对比,推测模型以自身容易出错历史为条件会增加未来出错可能性 [8] - 实验显示随着历史中错误率升高,后续步骤准确率急剧下降,验证模型会进行self-conditioning,这种性能下降不会通过增大模型规模而得到缓解 [8][26] - 与长上下文问题不同,扩大模型规模不能缓解self-conditioning效应,即使是参数2000亿以上的前沿大型模型仍然容易受到self-conditioning作用影响 [30] 思考模型的关键作用 - 近期思考模型不会受到先前错误影响,能够修正self-conditioning限制,顺序测试时计算量显著提升模型在单轮对话中可完成任务长度 [9] - 在没有思维链情况下,前沿大语言模型如DeepSeek V3连两步执行都无法完成,而具备思考能力版本R1则能执行200步,凸显行动前进行推理的重要性 [9] - 借助思维链,模型在单轮中能够执行步骤数量显著增加,经过强化学习训练的思维模型DeepSeek R1性能显著优于其经指令微调的对应模型DeepSeek-V3 [35] 模型性能基准测试结果 - 对前沿思考模型基准测试发现GPT-5思考版本(代号Horizon)能够执行超过1000步,远超能执行432步的Claude-4-Sonnet [9] - 实验显示开源权重模型在长时程执行方面仍在追赶仅通过API提供的模型,这凸显未来研究的机遇 [35] - 研究发现在显式提供所需知识和规划后,scaling模型大小仍能显著提高模型成功执行轮次数量,说明scaling模型价值不仅体现在让模型记住更多知识或更会寻找问题解答上 [7]