Workflow
智谱发布GLM-4.6,联手寒武纪,摩尔线程推出模型芯片一体解决方案

9月30日,国产大模型"六小龙"之一的智谱发布GLM-4.6新模型。 作为GLM系列最新版本,GLM-4.6在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面能力有所提升。 官方信息显示,此次升级表现在公开基准与真实编程任务中,GLM-4.6代码能力对齐Claude Sonnet4;上下文窗口由128K提升至200K,适应更长的代码和智 能体任务;新模型提升推理能力,并支持在推理过程中调用工具;搜索方面增强模型的工具调用和搜索智能体。 另外,"模芯联动"是此次新模型发布的重点,GLM-4.6已在寒武纪国产芯片上实现FP8+Int4混合量化部署,这也是行业首次在国产芯片上投产的FP8+Int4模 型芯片一体解决方案,在保持精度不变的前提下,降低推理成本,为国产芯片在大模型本地化运行上探索可行路径。 具体到模型适配过程中,占总内存的60%-80%的大模型核心参数通过Int4量化后,可将权重体积直接压缩为FP16的1/4,大幅降低芯片显存的占用压力;推理 环节积累的临时对话数据可以通过Int4压缩内存的同时,将精度损失控制在"轻微"范围。而FP8可重点针对模型中"数值敏感、影响推理准确性" ...