Code Generation
搜索文档
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
机器之心· 2025-09-25 03:20
文章核心观点 - Meta AI部门推出名为Code World Model(CWM)的新型大语言模型,这是一个320亿参数的开放权重模型,旨在通过世界建模技术提升代码生成的推理与规划能力[1][7][15] - CWM的核心创新在于其能够模拟代码执行过程,像人类程序员一样在脑海中推演代码行为,从而弥合语言层面推理与可执行语义之间的鸿沟[4][16][17][30] - 该模型在多项编程和数学基准测试中展现出强大性能,特别是在30B参数级别的模型中表现优异,并为代码世界建模的未来研究提供了平台[9][15][30] 模型架构与技术特点 - CWM是一个稠密的、仅解码器结构的大语言模型,支持最长131k tokens的上下文长度[7][8] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互[22] - 为提升代码理解能力,团队在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习[12] 性能表现 - 在通用编程与数学任务上,CWM在SWE-bench Verified基准测试中pass@1达到65.8%,在LiveCodeBench上达到68.6%[8] - 数学能力方面,CWM在Math-500上取得96.6%的准确率,在AIME 2024上达到76.0%[6] - 在Aider Polyglot基准测试中,CWM采用整文件编辑格式取得35.1%的通过率,与同类模型相比表现具有竞争力[24] - 在BigOBench复杂度预测任务中,CWM在时间复杂度预测上达到41.3%的准确率,在时间复杂度的代码生成任务中pass@1达到76.1%,超越多个基线模型[29] 研究意义与未来方向 - CWM提供了一个强大的测试平台,可探索世界建模在改进代码生成推理与规划能力方面的机会,支持零样本规划、具身的链式思维等未来研究方向[15][30] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现[30] - Meta团队开放了模型在中间训练、SFT和RL阶段的检查点,以支持进一步的代码世界建模研究[13]