Workflow
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
机器之心·2025-09-17 09:37

核心观点 - 蚂蚁百灵大模型团队开源MoE大模型Ling-flash-2.0 以总参数100B、激活仅6.1B的轻量级配置 在多个权威评测中展现出媲美甚至超越40B级别Dense模型和更大MoE模型的卓越性能 [1] - 通过极致的架构设计与训练策略 在推理速度、任务性能、部署成本之间找到新平衡点 为当前大模型参数膨胀趋势提供高效、实用、可持续的新路径 [1] 架构与性能优势 - 采用MoE架构 通过稀疏激活机制实现1/32激活比例 每次推理仅激活6.1B参数 计算量远低于同性能Dense模型 [4][6] - 实现7倍以上性能杠杆 6.1B激活参数带来约40B Dense模型的等效性能 [4][10] - 推理速度提升3倍以上 在H20平台上实现200+ tokens/s的高速生成 输出越长加速优势越明显 [9] - 通过专家粒度调优、共享专家机制、sigmoid路由+aux-loss free策略等技术优化架构设计 [6] 任务性能表现 - 在AIME 2025、Omni-MATH等高难数学推理任务中展现出稳定的推理链路与多步求解能力 [14] - 在LiveCodeBench、CodeForces代码生成任务中表现优于同规模模型 部分任务超越GPT-OSS-120B [14] - 前端研发能力通过大规模RL训练+视觉增强奖励机制 在UI布局、组件生成、响应式设计等任务中实现功能与美学双重优化 [14][19] - 在金融建模、工业调度、供应链优化等数学优化任务中展现实际解决问题能力 [38] 训练与数据体系 - 基于统一数据湖宽表设计的AI Data系统 支持样本级血缘管理 完成40T+ tokens高质量语料处理 [31] - 精选20T+ tokens最高质量语料用于预训练 分为三个阶段:10T高知识密度语料夯实基础、10T高推理密度语料提升推理能力、扩展至32K上下文引入思维链类语料 [31][36] - 词表从128K扩展至156K 新增大量多语言token 引入30个语种高质量语料提升跨语言理解与生成能力 [34] - 采用自研Ling Scaling Laws优化超参数配置 使用WSM调度器替代传统WSD调度器提升下游任务表现 [32] 后训练创新 - 通过解耦微调设计 同时学习即时回答与深度推理两种模式 覆盖数理科学、创意写作、情感对话、社科哲思等多个领域 [38] - 提出ApexEval评测方法 聚焦知识掌握度与推理深度 筛选最具探索潜力模型进入强化学习阶段 [39] - 采用演进式RL技术 以简洁思维链为起点 根据问题复杂度动态解锁更深层推理能力 [40] - 构建组内竞技场奖励机制 结合RubriX多维度评价标准 提升模型人性化与情感共鸣能力 [40] 开源与部署 - 开源Ling-flash-2.0对话模型和Base模型 为研究者和开发者提供灵活使用空间 [47] - Base模型在多个榜单展现强劲性能 具备良好知识压缩与推理能力 适用于下游任务微调与定制 [48] - 支持CLI接入 可方便融合到Qwen Code等服务中 [28]