模型发布与核心性能 - 蚂蚁正式发布百灵大模型的第一款旗舰模型Ling-1T,该模型拥有万亿参数 [1] - 模型在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项复杂推理基准中取得SOTA表现 [1] - 在竞赛数学榜单AIME 25上,Ling-1T超越一众模型获得最优表现 [3] - 模型展现出高效思考与精准推理的优势,推理速度惊艳,能快速响应并保持流畅输出 [4][60] 技术架构与训练方法 - Ling-1T沿用了Ling 2.0的架构设计,将总参数量扩展至1万亿,其中每个token激活约500亿参数 [38] - 模型基础版本在超过20万亿token的高质量、强推理语料上完成预训练,支持最长128K的上下文窗口 [39] - 研究团队采用“中训练+后训练”相结合的演进式思维链方法,极大提升了模型的高效思考和精准推理能力 [40][59] - 在预训练阶段,团队整理了超过40万亿token的高质量语料,并挑选出最优部分用于训练 [43] - 预训练分为三个阶段:第一阶段使用10万亿token高知识密度语料,第二阶段使用10万亿token高推理密度语料,中间训练阶段扩展上下文窗口到32K token并加入思维链推理内容 [45] - 团队使用自研的WSM学习率策略替代传统的WSD策略,通过预热、稳定和合并三步提升模型性能 [47][48] - 在后训练阶段,研究团队创新性地提出LPO方法,首次将句子作为中间粒度进行策略优化,在训练稳定性和模型泛化能力方面具有明显优势 [52][54] 实际应用与能力展示 - 在解决“7米长甘蔗通过2米高1米宽的门”问题时,Ling-1T提出了分段切割、弯曲通过、门框改造和流体化运输四种方案,并对每种方法进行了物理可行性验证和风险分析 [7][8][9][11][12][13][14][15] - 在解答“外星人分裂”数学问题时,模型迅速分析推理并得出正确答案√2-1 [17][18][19] - 在代码能力方面,模型能生成结构清晰的网站,例如介绍诺贝尔奖的网站,内容分为概览、奖项类别、历史时间线等模块 [20][21][24][25] - 模型还能用于规划出行路线,按特色分类景点并规划时间安排、费用、交通工具和美食推荐 [26] - 在ArtifactsBench前端能力基准上,Ling-1T以明显优势成为开源模型中的第一名 [30] - 研究团队提出了“语法–功能–美学”混合奖励机制,使生成的代码不仅正确、功能完整,还兼顾界面和视觉美感 [29] 行业影响与定位 - Ling-1T的发布使蚂蚁正式加入“万亿参数开源俱乐部”,与Qwen、Kimi并肩站在开源生态的第一梯队 [61] - 中国开源大模型力量持续增强,从DeepSeek到Qwen家族,国产开源模型在全球榜单上站到C位 [56] - 尽管2025年只剩83天,但中国大模型厂商的开源节奏并未放缓,Qwen和DeepSeek在近期均有重要版本发布,蚂蚁此次开源延续了这一势头 [62] - 模型创新的非思考模型架构与高效推理优化设计,为业界探索高性能思维模型提供了新的技术范式 [61]
更高智商更快思考!蚂蚁开源最新万亿语言模型,多项复杂推理SOTA
量子位·2025-10-09 04:52