Test-time Scaling - 财报，业绩电话会，研报，新闻

Test-time Scaling

搜索文档

机器之心· 2025-12-07 01:30

Test-time Scaling 的发展现状与争议 - Test-time Scaling 通过在推理阶段动态投入更多计算资源以提升大语言模型性能已成为当前重要范式自2024年第三季度起关注度持续攀升[7] - 学术界通过“What How Where How well”四个维度系统梳理了Test-time Scaling方法其中“What”关注扩展对象如思维链长度 “How”关注扩展方法如搜索或强化学习 “Where”关注适用任务 “How well”关注效果评估[8][9][10][11] - 该范式发展已逾一年业界对其机制理解加深但在改进思路上仍存在分歧与反思[12] Sequential 与 Parallel 路线的对比与局限 - 以增加思维链长度为核心的Sequential路线曾被DeepSeek-R1等“o1-like”模型采用试图从思考深度提升模型性能[12] - 复旦大学团队研究发现更长的思维链并不能持续提高准确率因为正确答案的计算周期通常更短而长思维链包含更多自我修正反而可能导致性能下降[12] - 该研究提出了Parallel方法通过并行推理获取多个推理路径并聚合答案从思考广度提升性能作为对Sequential路线的改进方案[13] Test-time Scaling 的未来改进方向 - 随着Sequential路线方法逐渐接近瓶颈当前External路线方法（如Parallel Hybrid）非常流行[14] - 有观点认为Test-time Scaling的未来或许不在于更多计算而在于更聪明的搜索[14] - 除了关注推理密集型任务业界也开始探索Test-time Scaling的能力提升能否适配更多场景[14] Skills与MCP的生态位竞争 - 社区对于模型上下文协议（MCP）的定位仍有争议目前平均25个用户对应1个开发者其更多是开发者自娱自乐的产物[2] - Skills被指意在取代MCP 但MCP能做而Skills不能做的功能目前看来用途不大[2] - MCP的大规模落地可能需等待类似“微信小程序”的下一个入口出现[2] OpenAI的平台战略与行业洞察 - 曾被视作真理的“单模AGI”在商业现实面前已彻底梦碎[3] - 曾被预言即将消亡的“提示词工程” 已演变为更复杂的“上下文工程”[3] - 要真正掌控模型大脑必须遵从“强化微调”[3] - 在开源模型日益强大的今天 “拥有权重”并不等同于“拥有服务能力”[3] - “按量计费”可能成为AI商业化的最终形态[3]

Artificial Intelligence

Artificial Intelligence

Test-time Scaling