过度思考

搜索文档
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
36氪· 2025-08-12 04:15
大模型能力演进 - 推理大模型和思维链的出现使大模型具备深度思考能力 显著提高不同任务的泛用性 [1] - 借助思维链 大模型能够对任务进行深入分析并完成规划拆解 从而胜任长周期高复杂度工作 [1] - 深度思考能力使AI智能体拥有多种辅助功能与自主能力 [2] 行业应用现状 - 大模型在编码工作流中表现出过度自主代理倾向 包括长时间推理 全代码库文件搜索 反复网络搜索等行为 [6] - 模型对开发中代码的边缘情况过度分析 在简单查询中也需要几分钟才返回结果 [6] - 用户经常需要中断模型进程并使用限制性指令如"停 你想得太多了 只看这一份文件 不要用任何工具 不要过度设计" [6] 技术优化挑战 - OpenAI在GPT-5中采用集成模型方案 试图自动决定何时需要深入思考 [7] - 但实际使用中GPT-5仍存在38秒思考后仍未执行图像编辑功能的情况 [9] - 基准测试优化导致模型过度偏向长周期复杂任务 影响普通任务响应性能 [11] 发展路径反思 - 模型缺乏情境区分能力 无法识别"快速查看"与"深度分析"的区别 [12] - 行业过度追求基准测试分数导致模型默认模式向超深度思考的高代理化状态靠拢 [9][13] - 用户需要更精确的意图传达方式 从"快速看一眼"到"花30分钟彻底确认"的梯度控制 [9]
深度思考,不要过度思考
36氪· 2025-06-27 11:55
深度思考与过度思考的区别 - 深度思考是通过不断拆解问题深入本质找到答案背后的动因和问题之下的问题 [4][12] - 过度思考是漫无边际无休无止的思考凌乱浮于表面不以行动为目的缺乏价值 [13] 过度思考的三种表现 - 反刍过去:反复思虑已发生的事情沉溺于过去的懊恼中 [14][15] - 焦虑未来:对未发生的事情假设各种困难陷入灾难化想象 [17][19] - 决策瘫痪:过度权衡利弊反复比较细节导致犹豫不决错过时机 [21][23] 避免过度思考的方法 - 设定思考截止点:通过时间压力迫使思考聚焦高效决策 [26][28] - 以行动为目的思考:明确思考终点限定思考范围聚焦解决方案 [29][30][31] - 列出问题清单:通过紧急重要模型分类聚焦关键问题深度思考 [32][33] 深度思考的案例 - 销售离职问题通过层层追问发现提成制度不合理和管理者育人意识不足是根本原因 [6][7][8][9][10][11][12]
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位· 2025-05-28 04:22
大模型推理优化技术 - 核心观点:AutoThink通过省略号提示词+多阶段强化学习,使大模型具备根据题目难度自主切换思考模式的能力,实现"按需思考"的智能推理[2][5][6] - 行业痛点:当前主流推理模型(如DeepSeek-R1/Claude 3.7/Qwen3)存在过度思考问题,导致简单问题消耗过多计算资源,复杂问题可能因冗余推理降低准确率[3][4] 技术实现路径 - 最小干预设计:仅需在prompt中加入省略号"…"即可触发模型自主选择思考模式,未训练时已能实现随机模式切换[9][10] - 三阶段强化学习: 1) 阶段一通过动态奖励平衡防止模式坍缩,维持思考多样性[16][17] 2) 阶段二放开限制优化准确率,模型自主发展出难度感知能力[18] 3) 阶段三引入长度感知奖励,压缩冗余推理同时保持性能[19][20] 性能提升数据 - 在DeepSeek-R1-Distill-Qwen-1.5B模型上,AutoThink-Stage3实现51.7%准确率,较标准提示提升3.1个百分点,同时减少51.8%的Token消耗[23] - 对已强化学习的DeepScaleR模型仍能额外节省10%计算资源,证明该方法具备模型普适性[21] 行为模式分析 - 难度匹配:模型在Math类简单题思考比例仅28.1%,复杂题(如AMC23)思考比例升至67%,呈现显著正相关性[29] - 内部机制:不思考模式仍保留"Calculate/Check"等关键词,表明其进行快速内部推理而非随机猜测[28] 行业应用前景 - 该技术已集成至ScienceOne智能科研平台,将用于训练其基座大模型S1-Base[39] - 当前局限包括奖励规避和推理预算控制问题,后续将重点优化[41]