Workflow
智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
机器之心·2025-08-11 07:12

GLM-4.5模型发布与市场反响 - 智谱开源新一代旗舰模型GLM-4.5及轻量版GLM-4.5-Air 首次在单个模型中实现推理、编码和智能体能力的原生融合 并在12项全球测试中综合成绩排名全球第三 国产和开源模型中均位列第一 [2] - 模型发布后引发海内外AI圈热议 官方推文浏览量突破120万 GLM-4.5连续7天登顶Hugging Face趋势榜单 [2] - 与OpenAI开源的gpt-oss系列对比测试中 GLM-4.5整体表现保持领先优势 [6] 技术架构创新 - 采用MoE混合专家架构 通过"瘦高"结构设计(减少宽度增加深度)提升推理能力 隐藏维度5120配备96个注意力头(常规模型的2.5倍) [21] - 引入Muon优化器加速收敛 配合QK-Norm技术增强注意力稳定性 加入MTP层实现推测解码提升推理效率 [24] - 参数规模达3550亿 激活参数320亿 包含89层MoE和1层MTP 在同类模型中计算效率显著提升 [23] 训练方法论突破 - 采用多阶段训练方案:15T通用语料预训练+7T代码/推理语料训练 中期训练将序列长度从4K扩展至128K [25][27] - 预训练数据覆盖网页/社交媒体/学术/代码等多源信息 第二阶段重点上采样编程与科学数据强化推理能力 [28] - 中期训练分三环节:代码仓库级训练(32K序列)、合成推理数据训练、长上下文与智能体训练(128K序列) [30] slime强化学习框架 - 专为大模型RL训练设计的开源框架 支持同步/异步混合训练模式 GitHub已获1200星 [31][32] - 核心模块包括训练(Megatron)、rollout(SGLang+Router)和Data Buffer 实现环境交互与训练解耦 [35] - 采用FP8混合精度推理加速数据生成 同时保持BF16训练精度 显著提升智能体任务训练吞吐量 [34][48] 性能基准测试表现 - 智能体任务:TAU-bench表现接近Claude Sonnet4 BFCL-v3总分第一 BrowseComp优于Claude Opus4 [44][45] - 推理能力:AIME24/SciCode超越OpenAI o3 七项基准平均表现优于Claude Opus4 接近DeepSeek-R1 [47][50] - 代码能力:SWE-bench Verified超越GPT-4.1 Terminal-Bench超过Claude Sonnet4 成为其最强竞品 [52][53] 行业影响与意义 - 技术报告完整披露从架构设计到训练方法的实现路径 为国产开源大模型发展提供重要参考 [56] - 首次在单一模型中实现ARC(智能体/推理/代码)能力统一 推动LLM向通用问题求解器进化 [18][19] - 开源生态建设成效显著 模型与框架同步开放 形成完整技术闭环 [14][32]