人工智能架构
搜索文档
DeepSeek上新mHC,R2还远吗?
钛媒体APP· 2026-01-04 06:05
文章核心观点 - DeepSeek于2026年初发布名为mHC的新型神经网络架构优化方案,该方案旨在解决其前身Hyper-Connections在大模型训练中的稳定性与可扩展性问题,通过引入“流形约束”实现更稳定、快速且经济的训练,可能引发AI底层架构的连锁反应并对AI芯片生态产生影响 [1][5][9] mHC架构的技术原理与创新 - mHC架构建立在字节豆包团队2024年11月发布的Hyper-Connections基础上,核心创新在于引入Manifold-Constrained,通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上,为信号传播加上稳定器,确保信号均值不变、总量守恒 [5] - 该方案旨在解决HC在大模型训练中因残差连接通道间交互导致的信号爆炸或消失、训练不稳定、可扩展性降低及成本升高的问题 [5] mHC架构的性能表现 - 在270亿参数级别的训练演示中,HC在训练至约1.2万步时信号放大倍数暴增至3000倍导致训练崩溃,而mHC在同等训练下信号放大倍数仅为1.6倍,全程平稳运行 [6] - 相较于传统架构,mHC训练时损失显著下降,在BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上 [6] - 在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%,体现了高性价比和效率优先的特点 [8] - 实验证明mHC在大规模训练中表现稳定、性能优越且具备良好可扩展性 [8] 对AI行业与架构发展的潜在影响 - mHC被视为一种底层创新,可能引发AI领域的连锁反应,竞争对手可能着手开发类似架构 [9] - 在DeepSeek发布论文次日,普林斯顿和UCLA的研究团队即提出了名为Deep Delta Learning的架构,同样旨在更新ResNet基本架构 [9] - 接连涌现的新研究提升了业界对2026年大模型架构产生重大范式更新和迭代的期待 [10] - 相关研究成果预计会在DeepSeek后续的新模型(如备受期待的R2或通用模型V4)中有所体现 [10] 对AI芯片生态的影响 - mHC架构依赖FP32高精度计算格式,对内存带宽和高速互联带宽提出更高要求,尤需高端芯片支持 [11] - 目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,对国产芯片兼容性较弱 [11] - 若该架构规模化铺开,英伟达的生态短期内会得到优势强化,而国产芯片需着力强化编译层适配 [11] - 长期来看,供应mHC架构的AI芯片需要提升存储带宽并转向更精细化设计 [11] - 2025年英伟达等美国AI芯片淡出中国市场后,国产芯片替代加速,华为昇腾、摩尔线程等已宣布适配DeepSeek大模型,但其精度格式仍与英伟达有差距 [12] - 在国产芯片生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要 [12] 公司背景与研究实力 - 论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者为清华大学高等研究院博士,DeepSeek创始人兼CEO梁文锋名字列于最后 [8] - 自2024年1月的LLM论文至今,DeepSeek在HuggingFace上共发布23篇重要论文,其中11篇有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果 [8]