刚刚，智谱开源了他们的最强多模态模型，GLM-4.5V。

模型发布与性能 - 智谱开源了当前最先进的多模态模型GLM-4.5V，采用GLM-4.1V-Thinking技术路线重新训练GLM-4.5-Air实现视觉多模态能力 [2] - 模型规模达106B总参数和12B激活参数，在开源多模态模型中属于较大规模 [3] - 在42个评测基准中取得41个SOTA（State-of-the-art）成绩，表现卓越 [4] - 模型支持"thinking"模式，在通用VQA、STEM、长文档、OCR与图表、视觉定位、空间识别与推理、GUI代理、编码、视频理解等多个领域表现优异 [5] 技术能力与测试 - 在视觉推理任务中表现突出，如游标卡尺读数和小猫摸球问题，能快速给出正确答案 [11][14][17][20] - 具备地理位置识别能力，能准确区分横店明清宫苑与故宫，展示出超越简单模式匹配的视觉推理能力 [25][27][31] - 支持原生视频理解功能，能分析《泰坦尼克号》混剪视频并准确识别关键画面及其时间点 [51][54][61][64][65] - 具备视觉定位功能，能根据指令在图片中精准标记目标，如识别人物或物体 [68][69][71][74][76] - 拥有网页复刻能力，可根据网页截图生成结构相似的网页代码 [79][80][81] 模型可用性与定价 - 模型已在GitHub和Hugging Face平台开源 [7][8] - 由于106B参数规模较大，消费级设备难以部署，建议使用智谱的z.ai平台 [8][9] - API定价具有竞争力，输入2元/M tokens，输出6元/M tokens [84] 行业影响与定位 - 智谱连续开源GLM-4.5和GLM-4.5V两款高性能模型，展示技术实力 [1][87] - 与海外闭源模型形成对比，体现开放精神和对AI民主化的追求 [90][93][94][96] - 在多模态开源模型领域树立新标杆，推动行业技术进步 [86][92]