“大模型第一股”打响上市前哨战!智谱GLM-4.7 刷新开源编程SOTA,修复代码、终端操作表现超Claude 4.5
AI前线·2025-12-23 07:29

GLM-4.7模型性能与技术亮点 - 公司发布新一代大模型GLM-4.7,并宣布开源,该模型主打编程与代理式任务能力的提升,同时在推理能力等方面增强[2] - 大模型行业竞争焦点已从“会答题”转向“能干活”,评测体系覆盖真实代码修改、终端操作、多工具调用及长链路任务执行等场景[3] - GLM-4.7在17项基准测试中与GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro等主流模型同台竞技,并在两项测试中刷新公开SOTA记录:在AIME 2025中正确率达95.7%,在BrowseComp-ZH中分数达66.6%[3] - 模型在多项关键基准测试中表现优异,例如在SWE-bench Verified得分73.8%,在LiveCodeBench-v6得分84.9%,超过Claude Sonnet 4.5[4] 模型具体应用能力展示 - 在前端开发方面,GLM-4.7能高效生成普通HTML网页及基于Web的交互式体验页面,布局结构更清晰,配色与组件风格更统一,并能覆盖从简约到复古等多种风格[7][8][9] - 模型在3D艺术作品展示上体现出高级审美能力,在空间层次、透视关系、配色、材质对比及构图上处理出色[16][17] - 在幻灯片制作上,GLM-4.7生成的PPT 16:9适配率从52%大幅提升至91%,页面布局、元素比例及整体观感接近可直接使用的成品[21][22] - 在海报设计上,模型在排版与配色上更加灵活且具备设计感,懂得突出主题并注意文字比例、位置及图片镶嵌,而非死板罗列[23][24] 模型核心推理机制 - GLM-4.7的进步源于对模型思维流程的系统性重构,核心是解决“如何在复杂任务中更稳定地思考与行动”的问题[27] - 模型形成了一套由“交织式思考”、“保留式思考”和“轮级思考”组成的推理机制[28] - 交织式思考指模型在每次响应和工具调用前都会进行内部推理,以提升指令遵循准确性和生成质量,此能力自GLM-4.5引入并在GLM-4.7得到强化[29] - 保留式思考指在编码代理场景中,模型能自动保留多轮对话中的所有思维模块,重用现有推理过程,减少长链路任务中的信息丢失和不一致[30][31] - 轮级思考支持对会话内的推理进行逐回合控制,允许根据任务复杂度(简单或需要精确决策)决定是否启用推理,以平衡性能与成本[32][33] - 这套推理机制使模型在复杂任务中的行为更稳定连贯,为代理式编程和长周期任务执行提供了关键技术基础[35] 公司经营与上市进展 - 公司正在冲刺“大模型第一股”,港交所已于12月19日披露其通过聆讯,IPO招股书同步公开,进入上市冲刺最后阶段[36][37][39] - 按招股书口径,公司最新估值为243.77亿元[40] - 公司收入处于高速放量阶段:从2022年的0.6亿元增长至2024年的3.1亿元,2025年上半年收入跃升至1.9亿元,较2024年同期的0.4亿元增幅超过300%[41] - 收入结构显示近85%来自本地化部署,客户覆盖互联网、公共服务、电信和传统企业[41] - MaaS平台通过降价放大调用规模,2025年上半年云端机构客户增至3061家,并对本地化部署形成引流作用[41] - 公司亏损扩张速度快于收入增长:2022至2024年及2025年上半年,经调整净亏损分别为0.97亿元、6.21亿元、24.66亿元和17.52亿元,亏损主要指向研发投入[42][43] - 同期研发费用从0.8亿元升至22.0亿元,其中算力相关支出占比超过70%[44] - 公司毛利率仍维持在50%以上,但在MaaS价格战中持续承压[44] - 公司成立于2019年,脱胎于清华大学知识工程实验室,是国内最早一批独立大模型公司,战略上持续将资源押注在模型能力本身[45] - 截至2025年,其模型已支持约8000万台设备,服务超过1.2万家机构客户[45]