智谱IPO敲钟前,连夜把开源编程大模型SOTA了
量子位·2025-12-23 00:15

模型发布与核心定位 - 智谱AI于2025年底前发布了新一代开源大模型GLM-4.7,该模型在编程能力上成为新的SOTA(State-of-the-Art)[1] - 此次模型更新主要聚焦于编码(Coding)能力的系统性提升[3] - 模型已通过官网Chatbot和API上线,可供用户立即使用[6] 核心性能表现与基准测试 - 在AIME 2025和人类最后考试(HLE)等基准测试中,GLM-4.7的分数超过了GPT-5.1[4] - 在SWE-Bench Verified基准测试中,GLM-4.7得分达到73.8%,较前代GLM-4.6提升5.8个百分点,创下开源模型新高[4] - 在复杂推理(REASONING)基准测试中,GLM-4.7在多项测试中表现优异,例如:HLE(含工具)得分42.8(较GLM-4.6提升12.4分),MMLU-Pro得分84.3,GPQA-Diamond得分85.7[23] - 在核心编码(CODE AGENT)基准测试中,GLM-4.7在多项测试中显著增强:SWE-bench Multilingual得分66.7(提升12.9分),Terminal Bench 2.0得分41.0(提升16.5分)[23] - 在通用智能体(GENERAL AGENT)工具使用能力基准测试中,GLM-4.7表现提升:BrowseComp得分52.0(提升6.9分),BrowseComp w/ Context Management得分67.5(提升10.0分),τ²-Bench得分87.4(提升12.2分)[23] 具体能力升级与应用展示 - 在前端代码生成质量上,GLM-4.7生成的页面结构更干净、组件层级更清晰,相比GLM-4.6更像现代的Web UI[7][9] - 在复杂几何结构与空间关系的表达上,模型能保持较好的结构一致性与细节稳定性[12] - 在PPT与视觉物料生成方面,模型生成的标题层级更明确、元素尺寸更合理[14] - 模型在对话、创意写作、角色扮演等场景中同样有提升[18] 关键技术特性 - 模型强化了交错式思考(Interleaved Thinking),使其能在工具调用之间及收到工具结果后继续思考,进行更复杂的分布推理,提升指令遵从和生成质量[20][21][22] - 模型引入了保留式思考(Preserved Thinking),在编码等多回合对话中自动保留所有思考快照,复用已有推理,减少信息丢失,更适用于长程、复杂任务,并能节省tokens[20][24][25] - 模型引入了轮级思考(Turn-level Thinking),允许在同一会话的每一轮请求中独立选择开启或关闭思考,从而实现更灵活的成本/时延控制、更顺滑的多轮体验,并更适合智能体/工具调用场景[20][27][28] 定价与市场策略 - GLM-4.7的订阅服务每月最低价格为20元人民币,其提供的用量是Claude Pro套餐的3倍[29][31] 公司发展动态 - 发布GLM-4.7的智谱AI目前已经通过港交所上市聆讯,IPO进程仅剩最后阶段[32][33] - GLM-4.7的发布被视为智谱AI在冲刺IPO上市前最重要的技术证明之一[32][34]