超节点万卡集群
搜索文档
中国算力方案:如何用有限资源做出无限可能?|甲子引力
搜狐财经· 2025-12-12 07:15
文章核心观点 - 中国算力产业面临先进制程受限、高端GPU供应收紧等外部约束,正处于从“堆叠算力”到“高效协同”的关键“拐点”[2] - 产业通过找准应用场景、构建差异化技术路线、推动端云协同等策略,应对算力不足、互联受限、生态薄弱的“三重困境”[2] - 中国算力方案的独特优势在于场景驱动的创新模式,利用完整的产业链、庞大的市场和应用场景,以应用反哺技术迭代[2][24] 关键瓶颈:从制程到生态的多维挑战 - 软件生态是当前最关键的瓶颈,CUDA生态经过近20年积累,覆盖长尾场景,国产算力芯片公司需要时间追赶[5] - 制程问题制约芯片算力密度和卡间互联带宽,需要AI上游产业在国产化上取得突破[7] - 系统化工程能力至关重要,需通过有机调度和协同,形成从上层应用到底层硬件的调优闭环,而非依赖单点能力[7] - 找准特定应用场景是突破软件栈和制程限制的有效策略,并非所有场景都需要顶级算力[9] - 算力支撑是根本性卡点,算力不足导致需要通过大量国产卡堆叠来提升性能,进而对卡间互联和液冷技术提出更高要求[11] 超节点与集群:万卡级算力的系统工程 - 集群规模从千卡扩展到万卡或十万卡时面临非线性挑战,性能并非单卡性能的简单叠加,卡间互联的带宽、时延和丢包会极大影响性能,训练中丢包可能导致任务推倒重来[14] - 超节点形态的出现旨在优化集群内部通信,避免所有流量通过网卡转换导致的性能降低和时延增加[14] - 超节点不仅适用于训练场景,在推理场景中也有应用价值,其本质是降低单个Token的生成成本,不应成为昂贵的方式[14] - 海光信息选择GPGPU通用架构路线,旨在使DCU成为数据中心人工智能通用解决方案,以覆盖未来不断发展的新模型、算法和场景需求[14][16] - 海光DCU通过高兼容性软件栈降低客户使用门槛,支持从Github下载代码直接运行,无需复杂适配过程[16] 端云协同:算力分布的未来图景 - 存算一体技术已进入商业化量产阶段,后摩智能第二代M50芯片已获得头部AIPC、语音厂商及运营商的商业化采购[17] - 端侧大模型应用尚未出现类似GPT的“Killer APP”,这是产业链尚未爆发的主要原因[17] - AI计算需求向端侧转移,端侧需承担至少50%以上的计算任务,因为即使全球海底光缆总带宽也无法满足多模态AI时代所有用户的需求[17] - 端侧AI的核心优势在于隐私性,能够本地处理照片、视频、工作文件等敏感数据,从源头杜绝数据泄露风险[18] 互联与液冷:突破物理极限的关键 - 超节点更强调Scale-up(南向互联),旨在通过更短距离、更大带宽(未来或采用光互联)来提升节点内部GPU间的互联性能并降低延迟[20] - Scale-out(北向互联)更为常见,主要包括英伟达迈络思的IB网络和RoCE网络,其优势在于灵活性,便于灵活扩容缩容[20][21] - 液冷技术已成为高密度节点(如超节点)的必然选择,风冷无法解决高密度散热问题[20] - 液冷技术能带来显著的节能效果,大约节能30%,并且降噪表现优异[21] - 技术路线选择需结合业务场景考量,Scale-up性能更优但成本更高,需评估投入产出比[21] 工程化实践:从纸面到落地的鸿沟 - 产品需要经过多代迭代和真实客户环境的“磨砺”才能成熟,后摩智能第一代产品在部署中发现了许多纸面未预见的问题,编译器工具链经过数次迭代才得以完善[23] - 国产算力卡普遍需要适配调优,新华三与杭州萧山共建“芯模社区”生态平台,联合产业链伙伴进行研发、测试和验证[23] - 深度优化需针对具体应用场景,新华三要求每款芯片在其测试环境中跑满至少3个月,以发现各种边界条件下的问题[23] - 多场景测试至关重要,同一张卡在不同模型、批次大小和序列长度下的性能表现差异可能很大,需建立全面测试矩阵以找到最佳使用场合[23] 中国算力方案的独特优势 - 端侧芯片和生态创新:中国拥有完整的产业链优势,可利用应用反哺模型和芯片迭代,在AIPC、智能会议、陪伴机器人等场景有独特的应用创新[23] - 系统化工程能力:中国具备集中力量办大事的体制优势,能快速协调资源,且在大规模集群建设方面积累了独树一帜的调度与工程经验[24] - AI应用领域优势:中国在尖端科技民用普及方面擅长,庞大的市场和丰富的应用场景为算力技术提供了最佳试验田和迭代环境[24] - 细分场景市场优势:中国市场的多样性和规模优势,使得能在不同细分领域找到足够大的市场来支撑技术迭代,形成场景驱动的创新模式[24]