Workflow
AI模型省token优化
icon
搜索文档
你的AI越来越蠢?因为它学会见人下菜碟了
创业邦· 2025-09-12 03:14
文章核心观点 - AI模型在升级过程中出现计算能力下降现象 但实际是行业为提升效率和降低成本而采用的"自适应计算"策略 通过路由机制让模型根据问题复杂度动态分配计算资源 [6][13][22] - 该技术使主要AI公司的token消耗降低20%-80% 显著减少运算成本 但可能影响用户体验和模型性能一致性 [13][15][28] 行业技术趋势 - OpenAI在GPT-5中采用感知路由器机制 先由轻量级模型评估提示词复杂度 再决定是否调用深度计算模型 使输出token数减少50%-80% [13][22][24] - 美团LongCat模型采用"零计算专家"架构 通过Top-k Router将token分类分配给不同专业能力的神经网络 简单token由低功耗专家处理 [10][26][28] - DeepSeek V3.1和Gemini 2.5 flash均实现类似动态计算分配机制 行业普遍转向"按需计算"模式 [11][12][13] 性能与成本影响 - token消耗量显著下降:OpenAI减少50%-80% DeepSeek降低20%-50% 大幅降低计算成本 [13][15] - 以ChatGPT为例 每日耗电超过50万度 token节省相当于上万户家庭日用电量 [18][19] - 模型响应速度提升 但可能牺牲复杂问题处理能力 LongCat在幽默解析等复杂认知任务上表现不如DeepSeek [28][30] 用户体验问题 - 路由机制存在误判风险 GPT-5曾出现过度简化现象 连"blueberry有几个b"等基础问题都出错 [28] - 用户失去模型选择权 OpenAI强制切换至新模型引发不满 最终被迫为Pro用户重新开放旧模型访问 [29] - 可通过添加"深度思考"等提示词触发深度计算 但多次使用后可能失效 需要等待系统恢复 [34][35] 技术实现原理 - 感知路由器通过数百万道题目的训练 学习将提示词匹配到最优计算模型 通过预测分与标准答案的误差微调参数 [22] - 零计算专家机制将提示词拆分为token后 由路由器根据重要性分配计算资源 无关token交由低功耗专家处理 [26][28] - 技术仍处于发展阶段 存在调试不足问题 OpenAI在发布时路由模型未完全优化 [29][35]