mHC(流形约束超连接)架构
搜索文档
DeepSeek新年炸场!梁文锋署名论文发布
第一财经· 2026-01-01 13:44
给AI"水管"加智能阀。 1月1日消息,DeepSeek赶在新年前发送了"贺礼",在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中 的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。 新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而 解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。 近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的经典连接范式),靠拓宽神经网络的"信息传输通道"、 增加通道间的连接,让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。 因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架构,这类似于给超连接的"信息通道"加了一套"交通规 则",在保留性能优势的同时,又恢复了信息原样传递的特性,让模型训练更稳定 ...
今日财经要闻TOP10|2026年1月1日
新浪财经· 2026-01-01 12:33
1、DeepSeek元旦发布新论文 开启架构新篇章 DeepSeek在元旦发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究 旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。这篇论文的 第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是, DeepSeek创始人&CEO梁文锋也在作者名单中。 2、商务部新闻发言人就欧盟碳边境调节机制有关问题答记者问 问:欧盟碳边境调节机制(CBAM)于2026年1月1日起正式实施,欧盟近日密集发布CBAM相关立 法提案与实施细则,请问商务部对此有何评论? 答:中方注意到,欧盟近日密集发布CBAM相关立法 提案与实施细则,包括设定碳排放强度默认值、计划扩大产品覆盖范围等内容。其中,欧方无视中国绿 色低碳发展取得的巨大成效,对中国产品碳排放强度设定显著偏高的基础默认值,并将在未来三年内逐 年提高,这不符合中国当前实际水平和未来发展趋势,对中方构成不公平、歧视性待遇。欧方有关做法 不仅涉嫌违反世界贸易组织"最惠国待遇"和"国民待遇"等原则,也有悖于《联合国气候变 ...
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
新浪财经· 2026-01-01 12:24
IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超 连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。 这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单 之列。 IT之家附摘要部分大意如下: 最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无 处不在的残差连接范式。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒 等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。 为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接 空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。 经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预 计,mHC 作为 HC 的灵活 ...
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 08:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]