Workflow
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网·2025-08-12 08:46

产品发布 - 公司推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B 并在魔搭社区与HuggingFace开源[1] - 模型基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线[2] - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 涵盖图像 视频 文档理解及GUI Agent等任务[2] 性能表现 - 在通用VQA任务中 MMBench v1.1得分88.2 MMBench v1.1中文版得分88.3 MMStar得分75.3 BLINK验证集得分65.3[3] - 在STEM领域 MMMU验证集得分75.4 MMMU Pro得分65.2 MathVista得分84.6 MathVision得分65.6[3] - 在GUI Agent任务中 OSWorld得分35.8 AndroidWorld得分57.0 WebVoyagerSom得分84.4[3] - 视频理解方面 VideoMME无字幕版得分74.6 有字幕版得分80.7 MMVU得分68.7 VideoMMMU得分72.4[3] 技术特性 - 模型具备全场景视觉推理能力 包括图像推理 视频理解 GUI任务 复杂图表与长文档解析及Grounding能力[5] - 新增思考模式开关 用户可选择快速响应或深度推理[5] - 支持64K多模态长上下文 通过三维卷积提升视频处理效率 采用双三次插值机制增强高分辨率图像处理能力[6] - 引入三维旋转位置编码3D-RoPE 强化多模态信息的三维空间关系感知能力[6] - 采用三阶段训练策略 预训练阶段使用大规模图文交错多模态语料 监督微调阶段引入显式思维链格式训练 强化学习阶段采用全领域多模态课程[6] 商业化应用 - API调用价格低至输入2元每百万tokens 输出6元每百万tokens 为企业与开发者提供高性价比多模态AI解决方案[5] - 模型在保持高精度的同时兼顾推理速度与部署成本[5] 行业地位 - 多模态推理被视为通向通用人工智能的关键能力 视觉-语言模型是实现多模态推理的核心基础[7] - 公司7月发布的GLM-4.1V-9B-Thinking模型曾登上HuggingFace Trending榜首 累计获得超过13万次下载[7]