Workflow
Gemini 2.5 flash
icon
搜索文档
你的AI越来越蠢?因为它学会见人下菜碟了
创业邦· 2025-09-12 03:14
文章核心观点 - AI模型在升级过程中出现计算能力下降现象 但实际是行业为提升效率和降低成本而采用的"自适应计算"策略 通过路由机制让模型根据问题复杂度动态分配计算资源 [6][13][22] - 该技术使主要AI公司的token消耗降低20%-80% 显著减少运算成本 但可能影响用户体验和模型性能一致性 [13][15][28] 行业技术趋势 - OpenAI在GPT-5中采用感知路由器机制 先由轻量级模型评估提示词复杂度 再决定是否调用深度计算模型 使输出token数减少50%-80% [13][22][24] - 美团LongCat模型采用"零计算专家"架构 通过Top-k Router将token分类分配给不同专业能力的神经网络 简单token由低功耗专家处理 [10][26][28] - DeepSeek V3.1和Gemini 2.5 flash均实现类似动态计算分配机制 行业普遍转向"按需计算"模式 [11][12][13] 性能与成本影响 - token消耗量显著下降:OpenAI减少50%-80% DeepSeek降低20%-50% 大幅降低计算成本 [13][15] - 以ChatGPT为例 每日耗电超过50万度 token节省相当于上万户家庭日用电量 [18][19] - 模型响应速度提升 但可能牺牲复杂问题处理能力 LongCat在幽默解析等复杂认知任务上表现不如DeepSeek [28][30] 用户体验问题 - 路由机制存在误判风险 GPT-5曾出现过度简化现象 连"blueberry有几个b"等基础问题都出错 [28] - 用户失去模型选择权 OpenAI强制切换至新模型引发不满 最终被迫为Pro用户重新开放旧模型访问 [29] - 可通过添加"深度思考"等提示词触发深度计算 但多次使用后可能失效 需要等待系统恢复 [34][35] 技术实现原理 - 感知路由器通过数百万道题目的训练 学习将提示词匹配到最优计算模型 通过预测分与标准答案的误差微调参数 [22] - 零计算专家机制将提示词拆分为token后 由路由器根据重要性分配计算资源 无关token交由低功耗专家处理 [26][28] - 技术仍处于发展阶段 存在调试不足问题 OpenAI在发布时路由模型未完全优化 [29][35]
你的AI越来越蠢?因为它学会见人下菜碟了
36氪· 2025-09-11 02:55
行业技术趋势:动态计算分配 - 大型语言模型行业出现“该思考时再思考”的技术趋势,通过让模型自行决定计算资源分配以提高效率[7] - 具体技术路径包括OpenAI采用的“感知路由器”模块,该模块是一个小型语言模型,用于评估用户提示词的复杂度并分配至合适的模型进行处理[16][17] - 另一路径如美团LongCat采用“零计算专家”机制,通过Top-k路由器将输入token分类并分配给不同专长的神经网络专家处理,对不重要token分配至低计算量专家[19][21][23] - 该趋势的核心动机是降低成本,OpenAI的GPT-5通过此方式使输出token数减少50%-80%[7],DeepSeek V3.1新模型的tokens消耗也下降20%-50%[9] 成本效益分析 - 降低计算消耗对运营成本影响显著,据央视报道ChatGPT日耗电超50万度,在庞大基数下节省的能源可供应上万户规模小镇一日用电[12] - OpenAI首席执行官Sam Altman曾表示用户对GPT说“谢谢”产生的计算成本累计达数千万美元,因高级模型会对简单致谢也进行深度思考[14] - 效率提升带来用户端益处,包括模型响应速度加快和使用价格可能降低[23] 技术实施挑战与用户体验影响 - 动态路由机制在初期存在调试问题,GPT-5上线后出现路由器“罢工”现象,用户难以触发其深度思考模式,甚至无法正确回答“blueberry里有几个b”等基础问题[23] - 该机制被部分用户视为剥夺选择权,OpenAI以GPT-5一刀切替代GPT-4o引发用户不满,有用户怀念GPT-4o更具支持性的交互个性并呼吁恢复旧模型[24][25] - 不同模型在效率与能力上存在权衡,美团LongCat响应速度快但在理解语言幽默感等复杂任务上表现不如DeepSeek[27][31] - 用户可尝试在提示词中加入“深度思考”等指令临时调用更强模型,但效果不稳定且可能失效[31] 公司动态与应对措施 - 针对用户反馈,OpenAI已暂时为Plus用户重新提供GPT-4o访问,并允许Pro用户继续使用旧模型[25] - 美团开源模型LongCat强调其通过路由器机制实现的高效率[4] - DeepSeek在V3.1发布时提及模型具备两种思考模式[6] - Google的Gemini 2.5 flash也引入了类似由模型自行决定计算资源的模式[6]