Test-time Scaling
搜索文档
更多非共识,Test-time Scaling 能否一直大力出奇迹?
机器之心· 2025-12-07 01:30
Test-time Scaling 的发展现状与争议 - Test-time Scaling 通过在推理阶段动态投入更多计算资源以提升大语言模型性能 已成为当前重要范式 自2024年第三季度起关注度持续攀升[7] - 学术界通过“What How Where How well”四个维度系统梳理了Test-time Scaling方法 其中“What”关注扩展对象如思维链长度 “How”关注扩展方法如搜索或强化学习 “Where”关注适用任务 “How well”关注效果评估[8][9][10][11] - 该范式发展已逾一年 业界对其机制理解加深 但在改进思路上仍存在分歧与反思[12] Sequential 与 Parallel 路线的对比与局限 - 以增加思维链长度为核心的Sequential路线 曾被DeepSeek-R1等“o1-like”模型采用 试图从思考深度提升模型性能[12] - 复旦大学团队研究发现 更长的思维链并不能持续提高准确率 因为正确答案的计算周期通常更短 而长思维链包含更多自我修正 反而可能导致性能下降[12] - 该研究提出了Parallel方法 通过并行推理获取多个推理路径并聚合答案 从思考广度提升性能 作为对Sequential路线的改进方案[13] Test-time Scaling 的未来改进方向 - 随着Sequential路线方法逐渐接近瓶颈 当前External路线方法(如Parallel Hybrid)非常流行[14] - 有观点认为Test-time Scaling的未来或许不在于更多计算 而在于更聪明的搜索[14] - 除了关注推理密集型任务 业界也开始探索Test-time Scaling的能力提升能否适配更多场景[14] Skills与MCP的生态位竞争 - 社区对于模型上下文协议(MCP)的定位仍有争议 目前平均25个用户对应1个开发者 其更多是开发者自娱自乐的产物[2] - Skills被指意在取代MCP 但MCP能做而Skills不能做的功能 目前看来用途不大[2] - MCP的大规模落地可能需等待类似“微信小程序”的下一个入口出现[2] OpenAI的平台战略与行业洞察 - 曾被视作真理的“单模AGI”在商业现实面前已彻底梦碎[3] - 曾被预言即将消亡的“提示词工程” 已演变为更复杂的“上下文工程”[3] - 要真正掌控模型大脑 必须遵从“强化微调”[3] - 在开源模型日益强大的今天 “拥有权重”并不等同于“拥有服务能力”[3] - “按量计费”可能成为AI商业化的最终形态[3]