行业趋势:AI产业从训练转向推理的范式革命 - 2025年被业界视为AI应用大爆发的元年,智能体正从概念走向现实,应用爆发的背后是百倍增长的推理算力需求与高昂成本之间的矛盾 [2] - 人工智能产业发展分为三个阶段:2012-2020年为“智能感知”时代;2020-2025年为“AIGC”时代;2025年进入“Agentic AI”时代,核心特征是应用爆发,所需算力从以训练为主转向以推理为主 [3] - 从训练到推理是根本性转折,训练追求极致性能和迭代速度,而推理要大规模商业化必须追求极高的性价比 [3] - 这一转变打破了英伟达凭借CUDA生态和GPGPU在训练时代建立的垄断格局,为全球参与者提供了新机遇 [4] 市场机遇:中国在推理芯片赛道的“超车”机会 - 推理芯片赛道是中国实现“超车”的关键,中国第一次与全球站在相近的起跑线 [2] - 在训练赛道上,由于先进制程受限和CUDA生态壁垒,中国追赶英伟达差距较大,但在推理赛道上全球都刚刚起步,游戏规则不同 [5] - 推理更接近应用场景,需要为用户提供更高性价比的产品,这正是中国产业所擅长的,推理芯片的崛起将是中国科技复兴的巨大机遇 [5] - 市场规律证明了推理赛道的不可替代性,谷歌在TPU战略中明确“训推分离”,博通为Meta、OpenAI定制推理芯片,都证明了独立推理赛道的崛起与巨大潜力 [5] 技术挑战与解决方案:降低推理综合成本 - 面对推理时代的需求,一味模仿英伟达的GPGPU架构并非出路,推理任务的计算范式发生根本变化,“Prefill”和“Decode”两个阶段对算力和带宽的需求截然不同 [6] - 公司提出了新的“GPNPU”架构,旨在融合三大核心能力:结合GPGPU的SIMT编程范式以兼容CUDA生态;结合指令集微架构设计优化矩阵计算硬件;基于国产工艺和先进封装技术打破内存瓶颈 [6] - GPNPU目标是在计算算力、存储带宽、存储容量三者间实现更优配比,通过高能效、低功耗等技术降低运营能源成本,全方位降低用户的总体拥有成本 [6] - 为支撑AI规模化产业化,需要在较短周期内把“百万token”的推理综合成本降低到“一分钱”级别,这需要通过架构革命和工艺创新实现 [7] 市场需求与规模:推理算力需求呈爆炸性增长 - 以豆包大模型为例,其日均Token处理量已达50万亿且增速惊人,即便以此为基础不再增长,大规模在线推理的资本与运营开支也非常可观 [7] - 有媒体报道称字节跳动2026年AI基建相关资本开支预算约1600亿元,反映出头部厂商对推理基础设施的投入强度显著抬升 [7] - 若token规模短期继续上行,明年上半年可能触及100万亿,在单位能效无显著改善的情况下,电力与散热等基础设施压力可能出现“千倍级”的数量级跃迁 [7]
专访云天励飞董事长陈宁:AI推理时代已至,推理芯片崛起将是中国科技复兴巨大机遇