大模型过度思考

搜索文档
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
机器之心· 2025-08-12 03:10
大模型推理能力演进 - 推理大模型和思维链技术使模型具备深度思考能力 显著提升不同任务的泛用性 [1] - 借助思维链 大模型能够对任务进行深入分析并完成规划拆解 从而胜任长周期高复杂度工作 [1] - 深度思考能力使得推理过程更直观 便于发现执行环节问题并针对性调整指令 [1] AI智能体发展现状 - 深度思考的推理模型催生了拥有多种辅助功能与自主能力的AI智能体 [2] - 当前大模型出现偏科现象 对长周期复杂任务的追求影响了其推理模式 [3] - 在编码等工作流中 过度思考的负面效应尤为显著 [4] 过度思考的具体表现 - 大模型在默认状态下表现出过度的自主代理倾向 超出日常使用需求 [6] - 在编码任务中倾向于进行长时间推理 包括全代码库文件搜索和网络反复检索 [6] - 对开发中代码的边缘情况过度分析 甚至在简单查询中也需要数分钟响应时间 [6] - 简单任务如脚本错误检查本不需要复杂分析 但模型仍进行深度思考 [6] 用户应对策略 - 用户经常需要中断LLM进程并使用限制性指令控制其思考深度 [7] - 以GPT-5为例 OpenAI试图通过集成模型自动决定思考深度但问题仍未解决 [8] - 图像编辑任务中 模型经过38秒深度思考仍未调用相应功能 [9][11] - 用户普遍怀念GPT-4o的直接响应模式 [12] 行业需求变化 - 需要建立可精确指定任务紧迫程度的机制 从快速检查到深度分析的多层级选择 [12] - 用户建议内置深度设置功能 避免每次手动指定思考程度 [16] - 基准测试优化导致模型偏向长周期任务假设 影响普通任务响应 [16][18] 问题根源分析 - 过度思考源于模型在长周期任务上的基准测试优化追求 [16] - 模型无法区分简单咨询与高风险考试两种情境 默认采用深度思考模式 [17][18] - 行业发展不能完全以基准测试分数为追求目标 [19]