文章核心观点 - 智谱公司发布的新一代视觉推理模型GLM-4.6V,在功能、性能与成本上实现显著突破,其强大的多模态处理能力(涵盖文档、图像、视频、代码等)已能高效完成多种专业任务,对内容创作、研究分析、编程开发等领域的工作模式构成潜在冲击 [1][8][70][71] 模型核心功能与应用场景 - 文档智能处理与内容生成:GLM-4.6V的“文档智读”功能可快速解读学术论文、财报等复杂文档,并生成结构清晰、图文并茂的总结、对比分析或公众号文章 [2][4][5][7][14][16][17][22][27] - 跨文档对比分析:模型能同时处理多份文档(如多篇论文或多家公司财报),提取关键数据与图表,进行对比并生成综合性报告 [16][18][19][22] - 视觉界面复刻与前端开发:通过识别网站截图,GLM-4.6V能自动生成高度还原的HTML和CSS代码,并能根据自然语言指令调整样式(如切换深色模式),大幅提升前端开发效率 [28][30][31][33][35][37][38] - 视频内容理解与总结:模型能处理长达10分钟的视频,在几十秒内完成内容总结,并支持全文翻译 [41][42][43][44] - 通用视觉与推理任务:模型能力广泛,包括解答考研数学题、将图表数据转换为表格、OCR识别(支持手机拍照图片和古文手稿)、目标检测等 [46][47][51][54][55][56][58][60][61][63] 模型性能与技术升级 - 版本与参数:GLM-4.6V分为两个版本,面向云端的高性能基础版GLM-4.6V(106B-A12B)和面向本地部署的轻量版GLM-4.6V-Flash(9B) [67] - 上下文长度:视觉推理模型的上下文窗口提升至128K tokens [67] - 评测表现:在MMBench、MathVista、OCRBench等30多个主流多模态评测中取得同级别SOTA结果 [67][68] - 性能对比:9B版本的GLM-4.6V-Flash整体表现超过Qwen3-VL-8B;106B参数12B激活的GLM-4.6V表现比肩参数量达235B的Qwen3-VL-235B [68] - 技术架构创新:首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型,打通从“视觉感知”到“可执行行动”的链路 [69] 定价与成本 - 大幅降价:GLM-4.6V系列相较于GLM-4.5V降价50% [39] - 具体价格:API调用价格低至输入1元/百万tokens,输出3元/百万tokens(针对0-32K tokens上下文长度) [39] - 详细价目表:模型根据上下文长度分段计价,例如输入32-128K tokens价格为2元/百万tokens,输出为6元/百万tokens [40]
看完最新国产AI写的公众号文章,我慌了!
量子位·2025-12-08 12:00