真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位·2025-09-30 08:26
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 好好好,都赶着国庆节之前开卷是吧。 前脚DeepSeek更新到了V3.2,现在 智谱 又更新了—— 正式推出 GLM-4.6 ,代码能力直接推到了 国内最强 。 根据智谱的测试结果,他们在Claude Code环境下进行了74个真实场景编程任务测试:GLM-4.6实测超过Claude Sonnet 4,超越其他国 产模型。 类似的结果还出现在了其它测评中。 例如在通用能力评测上,GLM-4.6在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2- Bench、GPQA,这八大榜单中大部分都已经对齐了Claude Sonnet 4,国内第一。 分数高还只是一方面,智谱的GLM-4.6甚至还把 "平均token消耗" 给打了下来——比GLM-4.5节省30%以上,为同类模型最低。 而且智谱这次还大大方方地把全部测试题目与Agent轨迹亮了出来,方便大家复现验证: https://huggingface.co/datasets/zai-org/CC-Bench-traj ...