Workflow
流形约束超连接(mHC)架构
icon
搜索文档
刚刚,DeepSeek 扔出大杀器,梁文锋署名!暴力优化 AI 架构
程序员的那些事· 2026-01-01 13:15
核心观点 - DeepSeek在2026年发表重磅论文,提出名为“流形约束超连接”的新架构mHC,该架构通过将矩阵投影到约束流形上优化残差连接空间,能在仅增加约6.7%训练时间开销的情况下,显著提升模型性能,并可能颠覆以ResNet为代表的传统AI架构 [3][4][5][8][12][17][36] 技术创新与架构 - mHC的核心目标是在Hyper-Connections的拓扑设计下恢复身份映射属性,从而在大规模训练中体现实际价值 [25] - 与传统残差连接和HC的根本差异在于:mHC将Hyper-Connections的参数空间约束到特定的流形上,以恢复身份映射结构,在保证稳定性的同时保留表达能力 [25] - 技术上将残差映射约束为双随机矩阵,该矩阵集合构成Birkhoff多面体,具有保L2范性、组合闭包性等严格理论性质,能有效缓解梯度爆炸并在整个模型深度范围内保持稳定性 [26][27][28][29] - 通过Sinkhorn-Knopp算法实现流形投影,在实验中迭代20次作为实用近似 [34][35][60] 性能表现与实验结果 - 在27B参数模型的系统级基准测试中,mHC在绝大多数基准测试中持续超越基线模型并优于HC [22] - 具体性能提升数据:在BBH任务上,mHC得分为51.0,较基线的43.8提升7.2个点,较HC的48.9提升2.1个点;在DROP任务上,mHC得分为53.9,较基线的47.0提升6.9个点,较HC的51.6提升2.3个点 [23][52][54] - 在GSM8K、HellaSwag、MATH、MMLU等多项基准测试上,mHC均表现出优于基线和HC的性能 [23][54] - mHC有效缓解了HC中观察到的训练不稳定性,相比基线最终降低了0.021的损失,梯度范数分析也证实了其稳定性与基线相当 [49] - 在扩展性评估中,mHC在不同模型规模下相比基线保持稳健的性能优势,仅轻微衰减 [55][56] 工程优化与基础设施 - 通过一系列严格的工程优化,成功将mHC部署到大规模模型中,训练开销仅增加约6.7% [36] - 实施了内核融合优化,重新排序计算操作并采用混合精度策略,将多个算子融合为统一计算内核以降低内存带宽瓶颈 [37][38][39] - 针对n路残差结构引入的显著内存开销,采用了重计算技术,通过丢弃中间激活并在反向传播时重新计算来缓解内存压力,并推导了最优的块大小L_r* [43][45] - 在大规模训练中,对DualPipe调度策略进行扩展,实现了流水线阶段边界更高效的通信与计算重叠,将MLP层内核置于独立高优先级计算流,并解耦重计算过程与流水线通信依赖 [46][48] 行业影响与公司动态 - mHC架构的提出被视作对同行的一次“温和降维打击”,展现了公司在数学洞察力与硬件极致优化方面的典型风格 [16][20][21] - 该技术将原本学术圈小众尝试的超连接升级为基础架构的核心设计要素,直击残差流通道宽度这一扩展模型的瓶颈 [14][15][19] - 有观点认为,顶级大语言模型中的ResNet结构或许即将被淘汰 [17] - 内部大规模训练实验进一步验证了mHC在大规模应用中的有效性,公司对此技术信心十足 [22][57] - 该技术被认为有很大可能进入DeepSeek的下一代模型V4 [24]