Workflow
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
36氪·2025-08-12 04:15

大模型能力演进 - 推理大模型和思维链的出现使大模型具备深度思考能力 显著提高不同任务的泛用性 [1] - 借助思维链 大模型能够对任务进行深入分析并完成规划拆解 从而胜任长周期高复杂度工作 [1] - 深度思考能力使AI智能体拥有多种辅助功能与自主能力 [2] 行业应用现状 - 大模型在编码工作流中表现出过度自主代理倾向 包括长时间推理 全代码库文件搜索 反复网络搜索等行为 [6] - 模型对开发中代码的边缘情况过度分析 在简单查询中也需要几分钟才返回结果 [6] - 用户经常需要中断模型进程并使用限制性指令如"停 你想得太多了 只看这一份文件 不要用任何工具 不要过度设计" [6] 技术优化挑战 - OpenAI在GPT-5中采用集成模型方案 试图自动决定何时需要深入思考 [7] - 但实际使用中GPT-5仍存在38秒思考后仍未执行图像编辑功能的情况 [9] - 基准测试优化导致模型过度偏向长周期复杂任务 影响普通任务响应性能 [11] 发展路径反思 - 模型缺乏情境区分能力 无法识别"快速查看"与"深度分析"的区别 [12] - 行业过度追求基准测试分数导致模型默认模式向超深度思考的高代理化状态靠拢 [9][13] - 用户需要更精确的意图传达方式 从"快速看一眼"到"花30分钟彻底确认"的梯度控制 [9]