行业共识转向:从全栈自研到系统协同 - 算力产业竞争焦点正从单点芯片性能转向整体系统效率,从全栈路线转向多方协同的系统工程[1] - 这一转向是大模型时代真实工程约束下的必然结果,万亿级参数模型使依赖单一芯片性能提升的“暴力计算”模式触及物理与效率极限[1] 单点性能突破失效与系统效率挑战 - 大模型对算力的要求已非单一芯片算力,而是整个系统能否长期、稳定、高效运行[2] - 随着模型规模向万亿级参数演进,挑战延伸至互连带宽、存储层级、供电制冷、系统稳定性等系统性指标[2] - 传统集群在节点规模扩大后,通信开销往往占用30%~50%的资源,导致算力无法被充分利用[3] - 即便芯片性能提升,若互连协议不统一、系统软件不兼容、运维可靠性不足,整体算力效率仍会被稀释[3] - 行业共识正转向通过超高速总线将不同GPU焊接形成高密度计算单元的超节点和超集群模式[3] 全栈自研模式的弊端与生态挑战 - 全栈自研模式导致厂商“内卷”加剧,各家想做全套却在每一层都难以做到极致,形成多个封闭的小生态[5] - 生态割裂给用户带来巨大困扰,面对众多芯片路线,用户需投入高额成本进行重复适配和优化,极大降低开发效率[5] - 算法和算子往往锚定特定生态,移植过程短则数月,浪费时间和人才资源[5] - 相比英伟达积累数年的生态,国产算力在硬件与软件的无缝衔接上仍有差距,生态丰富度是发展瓶颈[6] - 国产芯片种类的快速增加给用户带来新负担,每种芯片都需要单独适配、优化和维护,性能不能直接转化为用户实际收益[3] 开放计算成为新路径及其挑战 - 开放计算意味着从“一家通吃”转向多厂商各司其职、相互协作、共赢,核心在于分层解耦[7] - 开放要求厂商让渡一部分控制权和利润空间,并建立可执行的协调机制,难点在于组织和协作分配而非技术[7] - 执行层面需对产业链分层解耦,各环节由多家厂商并行推进,并通过统一标准重新紧耦合,这对平台方提出更高要求[8] - 需要有具备公信力的平台承担协调角色,确保制度与资源保障,在供需对接、标准制定和冲突调解中发挥作用[8] - 开放架构为AI产业进化提供了一种路径选择,若继续各自为战,开放架构之外的生态容易跟不上时代[8] - 由场景驱动的协同赋能正在降低不同行业适配AI的成本,例如垂直小模型在本地工作站部署的需求激增让硬件与应用实现咬合[8] 未来竞争格局 - 紧耦合的封闭体系与开放协同的体系,在国内丰富的应用场景中仍将长期并存[9] - 在大模型和超集群成为常态后,能否构建高效、可协同、可持续演进的系统,将成为决定厂商生存空间的关键变量[9]
“暴力计算”模式触及极限,算力进入系统工程时代