文章核心观点 - AI产业正经历关键拐点,推理算力消耗首次超过训练算力,行业进入“用电”而非“发电”阶段 [2][24] - 中国AI发展路径强调通过应用渗透和千行百业落地来反哺生态,与美国侧重占据技术制高点的策略形成差异 [29][31] - 国产AI芯片面临的核心挑战与机遇在于融入主流生态、降低推理成本以及构建系统级能力,以实现普惠AI [6][8][12] AI产业趋势与拐点 - 推理超越训练:2025年出现重要拐点,推理算力消耗预计将首次超过训练算力 [2][23][24] - 迭代速度极速提升:大模型兴起后,产业迭代节奏从“月/季度”缩短至以“周”甚至“小时”为单位,市场推理需求从去年到今年增长近百倍 [8][18] - 成本成为核心矛盾:模型参数规模扩大导致单位推理成本呈几何级数增长,产业应用必须通过稀疏化、蒸馏、量化等方式降低推理成本 [20][25] - Token消耗量暴增:国内企业Token消耗量在2024年同比增长超过100倍,字节跳动日Token调用量据称可能已突破40万亿,增速惊人且未放缓 [28] 中国AI发展路径与策略 - 政策驱动应用落地:中国推出“人工智能+”计划,核心是通过应用渗透及千行百业落地推动AI繁荣,与美国侧重技术制高点和经济增长的策略不同 [30][31] - 国产算力占比提升:预计到2025年底,国内AI芯片出货/部署结构中,国产AI芯片占比有较大概率超过50%,整体份额超过非国产高端GPU [28] - 发挥市场与应用优势:中国在基础数字化、行业应用、应用人群及热情上具备明显优势,将推动以AI推理芯片为核心的资本投入增长 [31] - 工程化追赶与降本:头部企业通过更大规模训练集群和工程化方式,追赶闭源模型差距并降低未来的训练与推理成本 [31] 国产芯片的挑战与应对 - 生态融入是生存关键:市场加速度迫使国产芯片必须主动兼容并融入以CUDA为代表的主流开发生态,否则客户迁移与适配成本会显著上升 [8][9] - 构建系统级能力:技术瓶颈从算力扩展到内存、带宽乃至服务器间互联,芯片公司必须提供全栈的系统工程能力,不止于设计芯片 [7] - 参与标准与生态共建:需要参与如中移动OISA体系等产业合作,围绕芯片互联、超节点等系统级方向攻关,提升规模化推理场景下的互联效率与互通性 [12] - 软件与生态是最大挑战:当前国内芯片产业最大的挑战在于软件与生态建设,需要持续投入 [31] 推理芯片的技术路线与成本目标 - 技术路线融合:云端大算力推理芯片趋向于GPNPU(GPGPU+NPU+3DM)架构,兼顾通用计算、高效能效与大容量高带宽存储 [35][36] - 突破存储与带宽瓶颈:大模型推理性能瓶颈突出体现在显存容量、互联带宽及节点间互联带宽,在HBM供应受限下,3D Memory(3DM)是国产化突破的关键方向 [35][42] - 明确降本目标:目前国内云厂商百万Token调用成本普遍在10元以上,无服务水平协议保障的甚至超过20元,未来三到五年必须降至1元人民币以内,才能支撑“人工智能+”的渗透率目标 [41] - 计算与访存分离:大模型推理需做预填充(P)和解码(D)阶段分离,因P阶段是计算密集型,D阶段算力多在等待数据搬运 [39] 云天励飞的公司实践与布局 - 公司定位与历程:云天励飞成立于2014年,是一家同时押注算法与芯片的深圳本土AI芯片企业,经历了中国AI产业从萌芽到竞争的全过程 [5][16] - 技术路径演进:公司坚持“算法+芯片”双轮驱动,芯片已迭代至第四代,第五代将全面转向GPNPU架构,并向通用推理方向演进 [42] - 产品线布局:围绕“端边云”体系布局三条芯片产品线:“深穹”面向云推理,“深界”专注端侧NPU,“深擎”是面向AI的SoC芯片 [43] - 制造与工艺国产化:2020年全面转向国内工艺体系,是国内最早实现D2D Chiplet技术的企业之一,并坚持推进3DM等国产突破性工艺 [42]
云天励飞罗忆:推理超越训练,国产算力的真正战场在生态与成本丨GAIR 2025