国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026
量子位·2025-12-18 02:34

文章核心观点 - 评判AI芯片实力的标准已从单纯算力转向能否稳定支撑从百亿到万亿参数、从稠密到MoE架构、从单模态到多模态的完整模型谱系训练,并在万卡乃至更大规模集群上实现高效扩展[1] - 国产AI芯片在大规模训练场景中真正落地难度极大,替代是一个渐进式过程,推理场景已基本解决,但大规模训练是真正的挑战[5][6] - 即便对于参数激增的MoE模型,“小芯片搭大集群”的路径依然可行,关键在于极致的通信优化与系统级协同设计[2] 大规模训练的核心挑战与攻坚路径 第一大挑战:集群稳定性 - 大规模训练是上万卡的同步系统,任何一张卡中断都可能导致任务重启,例如在100张卡时有效训练时间为99%,但当线性扩展到一万张卡时,1%的中断时间就可能导致整个集群不可用[7] - GPU天生是高故障率器件,晶体管数量多、算力高、功耗大,且监控能力弱,整体故障率比CPU高出多个量级[7] - 解决集群稳定性需从两方面入手:一是事前精细化监控与验证,通过系统级手段提前定位可能的故障(如运行变慢、精度异常、数据不一致),尤其是在静默错误场景中需精准定位故障节点[8];二是构建故障后的透明Checkpoint和快速恢复机制,避免大规模重算[9] 第二大挑战:让集群真正扩展起来 - 一个万卡集群必须实现线性扩展,否则只有千卡、两千卡的规模意义不大[10] - 扩展过程大致经历三个阶段:在百卡集群上验证技术可行性,关键在于RDMA通信技术的适配与优化[11];在千卡集群上,由于网络不再对等,需要做好网络亲和性调度等复杂优化[11] - 实现大规模扩展的核心逻辑是“XPU驱动的any to any的通信”,即以XPU为核心,在通信过程中绕过CPU影响,直接用XPU驱动网络,并针对不同流量设置不同优先级以优化任务[14] 第三大挑战:模型生态与精度体系 - 英伟达最强的护城河是其过去十多年沉淀的模型生态,包括成千上万种模型变体、算子体系、框架适配,这使其在训练精度上保持绝对稳定性[15] - 在大模型时代,由于Transformer架构相对统一,国产芯片迎来了机会[16] - 当前的Scale维度已转变为模型参数的Scale(如十亿、百亿、千亿)和任务训练规模的Scale(如百卡、千卡、万卡),这两个维度的Scale带来了整个系统层面的Scale,映射到硬件上会有不同的size、形状、切分策略和并行策略[5][17] - 算子映射到不同硬件平台时,在精度和性能上都会存在挑战,精度上的微小差异可能导致长时间的训练白跑[19] - 为此,公司构建了高度泛化的算子体系,针对不同算子的size做了高强度泛化,并在泛化基础上进行小规模验证精度,避免每次都使用万卡对比,从而保证大规模训练的可靠性[19] MoE模型与多模态模型的新挑战 - MoE模型能在不提升激活参数规模的情况下扩展模型参数,延续Scaling Law,但给系统架构带来新挑战:模型参数变大、输入序列变长,导致通信占比显著提升,从而需要改变整个模型架构[12][20][21] - 适配MoE系统需要极致的通信优化,以及显存的协同与计算overlap[22] - 结论是,即便是MoE模型,“小芯片搭大集群”的方式依然可行[24] - 多模态模型带来另一类挑战,不同模态具有不同的训练强度和计算需求,若沿用原来的同构拆分方法会导致训练效率极低,典型情况下MFU(模型浮点运算利用率)可能都不到10%[24] - 针对多模态模型,需要进行异构数据均衡的调度,适配异构并行策略,使系统能够根据workload动态调整并行策略,为不同模型找到最优的运行策略[26] 国产芯片的实践与衡量标准 昆仑芯的大规模实践案例 - 公司已在百度Qianfan VL、百度蒸汽机等自研模型上取得较领先的效果,并实现了全栈基于昆仑芯的训练[12][31] - 具体实践案例包括: - Qianfan-VL-70B模型:多模态模型,在5千卡集群上训练,在通用基准测试中表现出色,并在OCR、文档理解和数学推理等特定领域任务中达到了SOTA性能,支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景,主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异[28] - Qianfan-VL-8B模型:多模态模型,在2千卡集群上训练[28] - 百度蒸汽机模型:多模态模型,在6千卡集群上训练,是全球首个中文音视频一体化生成模型,在VBench-I2V榜单上位列全球第一,支持“无限时长”生成,突破了传统AI视频生成10秒左右的时长限制,行业首次实现AI长视频实时交互生成(即边生成边调整),目前生成速度超越国内主流视频模型[28] 衡量国产芯片“能否真正用起来”的关键维度 - 模型覆盖能力:需覆盖大语言模型、多模态、文生视频等完整模型体系[30] - 集群规模能力:需实现从百卡到千卡再到万卡的全覆盖[30] - 公司目前在模型覆盖上基本达到主流大模型体系,在规模上已能跑万卡任务,未来还会向数万卡推进[27] - 如同Google用Gemini证明TPU的训练能力一样,硬件需要绑定优秀的自研模型才能真正被市场接受[28][29]