DeepSeek新年炸场!梁文锋署名论文发布
Seek .Seek .(US:SKLTY) 第一财经·2026-01-01 13:44

给AI"水管"加智能阀。 1月1日消息,DeepSeek赶在新年前发送了"贺礼",在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中 的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。 新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而 解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。 近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的经典连接范式),靠拓宽神经网络的"信息传输通道"、 增加通道间的连接,让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。 因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架构,这类似于给超连接的"信息通道"加了一套"交通规 则",在保留性能优势的同时,又恢复了信息原样传递的特性,让模型训练更稳定 ...