Code World Model (CWM) - 财报，业绩电话会，研报，新闻

World Model

World Model

首个代码世界模型引爆AI圈，能让智能体学会「真推理」，Meta开源

机器之心· 2025-09-25 03:20

文章核心观点 - Meta AI部门推出名为Code World Model（CWM）的新型大语言模型，这是一个320亿参数的开放权重模型，旨在通过世界建模技术提升代码生成的推理与规划能力[1][7][15] - CWM的核心创新在于其能够模拟代码执行过程，像人类程序员一样在脑海中推演代码行为，从而弥合语言层面推理与可执行语义之间的鸿沟[4][16][17][30] - 该模型在多项编程和数学基准测试中展现出强大性能，特别是在30B参数级别的模型中表现优异，并为代码世界建模的未来研究提供了平台[9][15][30] 模型架构与技术特点 - CWM是一个稠密的、仅解码器结构的大语言模型，支持最长131k tokens的上下文长度[7][8] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练，使其能够模拟Python函数的执行以及Bash环境中的智能体交互[22] - 为提升代码理解能力，团队在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练，并进行了大规模多任务推理强化学习[12] 性能表现 - 在通用编程与数学任务上，CWM在SWE-bench Verified基准测试中pass@1达到65.8%，在LiveCodeBench上达到68.6%[8] - 数学能力方面，CWM在Math-500上取得96.6%的准确率，在AIME 2024上达到76.0%[6] - 在Aider Polyglot基准测试中，CWM采用整文件编辑格式取得35.1%的通过率，与同类模型相比表现具有竞争力[24] - 在BigOBench复杂度预测任务中，CWM在时间复杂度预测上达到41.3%的准确率，在时间复杂度的代码生成任务中pass@1达到76.1%，超越多个基线模型[29] 研究意义与未来方向 - CWM提供了一个强大的测试平台，可探索世界建模在改进代码生成推理与规划能力方面的机会，支持零样本规划、具身的链式思维等未来研究方向[15][30] - 消融实验表明，世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现[30] - Meta团队开放了模型在中间训练、SFT和RL阶段的检查点，以支持进一步的代码世界建模研究[13]

Meta Platforms(US:META)

Code Generation

Code Generation