Code World Model (CWM)
搜索文档
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
具身智能之心· 2025-09-26 00:04
文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型,其采用世界模型架构,旨在通过模拟代码执行过程来提升推理和规划能力,代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型,支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上,CWM表现如下:SWE-bench Verified pass@1为65.8%,LiveCodeBench为68.6%,Math-500为96.6%,AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中,采用整文件编辑格式时,CWM的准确率为35.1%,与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上,CWM与Terminus 1智能体配合使用的准确率为26.3%,优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中,CWM在时间复杂度预测与生成的全部指标上均超越基线模型,例如时间复杂度的Code Only pass@1达到76.1%,优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台,用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟,使模型能够预测自身行为的后果,从而实现更有效的决策 [16][17][31] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
机器之心· 2025-09-25 03:20
文章核心观点 - Meta AI部门推出名为Code World Model(CWM)的新型大语言模型,这是一个320亿参数的开放权重模型,旨在通过世界建模技术提升代码生成的推理与规划能力[1][7][15] - CWM的核心创新在于其能够模拟代码执行过程,像人类程序员一样在脑海中推演代码行为,从而弥合语言层面推理与可执行语义之间的鸿沟[4][16][17][30] - 该模型在多项编程和数学基准测试中展现出强大性能,特别是在30B参数级别的模型中表现优异,并为代码世界建模的未来研究提供了平台[9][15][30] 模型架构与技术特点 - CWM是一个稠密的、仅解码器结构的大语言模型,支持最长131k tokens的上下文长度[7][8] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互[22] - 为提升代码理解能力,团队在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习[12] 性能表现 - 在通用编程与数学任务上,CWM在SWE-bench Verified基准测试中pass@1达到65.8%,在LiveCodeBench上达到68.6%[8] - 数学能力方面,CWM在Math-500上取得96.6%的准确率,在AIME 2024上达到76.0%[6] - 在Aider Polyglot基准测试中,CWM采用整文件编辑格式取得35.1%的通过率,与同类模型相比表现具有竞争力[24] - 在BigOBench复杂度预测任务中,CWM在时间复杂度预测上达到41.3%的准确率,在时间复杂度的代码生成任务中pass@1达到76.1%,超越多个基线模型[29] 研究意义与未来方向 - CWM提供了一个强大的测试平台,可探索世界建模在改进代码生成推理与规划能力方面的机会,支持零样本规划、具身的链式思维等未来研究方向[15][30] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现[30] - Meta团队开放了模型在中间训练、SFT和RL阶段的检查点,以支持进一步的代码世界建模研究[13]