ResNet(残差网络)
搜索文档
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 05:27
2026年的第一天,DeepSeek 在 arXiv 上发布了一篇新论文《mHC: Manifold-Constrained Hyper- Connections》,提出了名为 mHC(流形约束超连接) 的宏观架构的创新。 听名字就很抽象,但若简单总结,这是 Transformer最底层组件残差连接(Residual Connection)的一次 重要改进。 这不只是一个技术细节的优化,如果把它放到更大的背景下,事情会更有意思,残差连接是2015年何恺 明提出的,此后十年间几乎没有根本性的改动。DeepSeek这次动的,是Transformer架构中最古老、也 最基础的那块砖。 另外值得注意的是,DeepSeek创始人梁文锋也出现在论文的19位作者名单中。 2017年,Transformer 问世,残差连接成为标配。从 GPT 系列到 Claude,从 Llama 到 DeepSeek,几乎 所有主流大模型都建立在这个基础之上。 ResNet、Hyper-Connections(无约束)和 mHC(流形约束)的架构对比图。 2024年9月,字节跳动发表Hyper-Connections(超连接)论文。 研究者 ...