技术突破与架构创新 - 公司发布DeepSeek-V3.2和Speciale两款模型,推理性能对标GPT-5,在数学、逻辑和多轮工具调用中表现强势,成功刷新国内开源模型在推理能力上的最高纪录[1][2] - 突破核心在于引入稀疏注意力机制(DSA),通过“闪电索引器”快速预判关键token对,将核心注意力机制的计算复杂度从平方级降至近线性,在128K超长上下文中保持稳定计算负担[2][3] - 采用“密集预热—稀疏过渡”的双阶段训练策略,实现架构渐变式演进,在Fiction.liveBench、AA-LCR等长文本任务测试中信息召回、上下文一致性和压缩表达能力得分显著上升[3] Agent能力与战略转向 - 公司将“Agent能力”与“推理能力”并列为核心指标,视Agent为模型能力释放与产业落地的桥梁,而非附属模块[6] - 为打造Agent训练体系,合成了超过1800个智能体环境,设计了约85,000条高复杂度任务提示,通过自研的GRPO策略进行强化学习闭环训练[7][8] - 引入“Thinking in Tool-Use”工具使用范式,将执行链条改为交错逻辑,并设计上下文管理策略,使推理轨迹在工具调用过程中被完整保留,实现“状态延续机制”[4][8] 后训练策略与效率提升 - 采用“后训练三件套”策略:专家蒸馏、多轨强化学习、工具思维机制融合,通过六类专家模型生成高质量训练样本反哺主模型[10][11] - 后训练阶段算力投入占比超过预训练预算的10%,强化学习过程通过任务环境自带反馈机制与rubric自动评分,形成闭环学习路径[11] - 设计冷启动系统提示和上下文状态管理,显著降低token冗余,提升“单位token的智能密度”,实现在资源受限前提下提升模型效能[12] 行业竞争格局与路径选择 - 在规模红利见顶后,行业竞争焦点从“参数多少”回归到“思维组织力”与“能效比”[5] - 公司对Agent的理解从“任务执行插件”上升至“模型操作系统”组成部分,试图主导“交错式思维+工具使用”的统一范式,争夺平台话语权[9] - 与闭源阵营追求“更大、更快、更强”的路径不同,公司代表了一种“更轻、更稳、更聪明”的新路径,以更强的推理组织力和更高效训练范式重构开源模型竞争秩序[13]
DeepSeek杀出一条血路:国产大模型突围不靠运气