文章核心观点 在算力成为基础设施的时代,产业各界正从芯片架构、软件生态、商业应用等多维度探索能够穿越周期、占据价值链顶端的技术路径与战略 核心在于通过软件定义、生态协同、应用驱动和系统级创新来突破硬件限制,构建自主可控的AI算力体系 [1][3][35] 技术路径与架构创新 - 算力芯片发展面临核心矛盾:摩尔定律放缓导致传统处理器迭代变慢,而生成式AI对算力的需求呈指数级增长 [7] - 应对矛盾的主流方向是推动“异构计算”,但带来了编程复杂度激增和软件兼容性差的新瓶颈 [7] - 反对指令系统碎片化,认为现有指令系统足以支撑架构创新,RISC-V应成为产业统一标准,其包容性可整合CPU、GPU及AI处理器特性 [9] - 计算芯片产业呈现螺旋式发展,未来将回归融合异构特性的CPU中心化架构 [9] - 在工艺受限背景下,需依靠新的技术路径超越国际领先者,国内创新企业路径呈现多元化特征 [32] - 数据中心AI芯片部分企业摒弃对单卡算力的盲目追求,转而构建更高效的系统,例如TPU路线通过打造大规模超节点、省去交换机和HBM,在集群层面追求更高性价比 [33] - 大算力芯片正在向三维架构变革,先进封装及其检测设备成为决定性能和良率的核心,光电合封被认为是下一代AI算力的基石,能以数量级优势提升集成度、降低功耗 [33] 软件生态的关键作用 - 软件生态对算力芯片产业具有决定性作用,生态是绕不开的命题,X86架构历经四五十年沉淀的软件生态壁垒极高 [7] - 用户选择的核心在于软件优化的积累,而非单纯硬件性能 [8] - 当前算力性能突破需跨学科交叉与软件深度优化双轮驱动,通过软硬件协同优化,在现有制程限制下实现算力效能最大化 [8] - 中国半导体受全球趋势及制程限制,必须通过软件定义算力,打破传统软硬件隔阂 [8] - 软件生态是GPU硬件行业的胜负手,其竞争已超出硬件性能本身 [16] - 软件层面需要深度拥抱开源软件生态,如DeepSeek,Qwen,ChatGLM3等,借助生态的力量充分释放硬件的算力 [17] - 破局国产算力技术生态需要拥抱开源,构建开放、统一的技术体系,避免“烟囱式”发展 [18] - 国产AI推理芯片的发展方向之一是软件生态兼容,以平衡算法迭代与算力利用率 [28] 产业发展趋势与挑战 - 2025年,AI芯片消耗将迎来重要转折,推理芯片消耗量或将超过训练芯片,源于企业端推理需求的爆发,例如谷歌日调用量已达43万亿Token,字节跳动近期或突破40万亿 [27] - 全球算力投资资本支出预计将超过4600亿美金,超过美国登月计划的总投入,中国市场中BAT等互联网大厂占据了68%以上的份额 [16] - AI商业化主战场包括AIGC在数字人、游戏、影视行业,今年国内产值预计超1000亿,全球数字内容生成市场规模已近500亿美金,加上AI编程领域、虚拟交互 [16] - 国产算力行业将迎来淘汰赛,由于系统级产品研发需海量资金投入,今年国内算力企业正全力冲击资本市场,预计未来一年A股和港股至少6家公司冲刺上市,资金技术储备不足、生态布局薄弱的企业或将加速出局 [17] - 大模型发展有从“百模大战”向“十模争锋”的收敛趋势 [12] - 模型发展正逐渐走向集约化路线,不是只比谁规模大,而是看谁能用最少的数据、最少的算力、最少的能耗做出好用的模型 [13] - 中国已成为大模型领域的开源生态领导者,HuggingFace Top10模型中,9个来自中国公司,在实际商业化场景中,中国开源模型生成的Token量已超过全球其他开源模型总和 [16] - 中国AI发展路径为“数据飞轮”模式:应用生产数据-数据训练算法-算法定义芯片-芯片赋能规模化应用,区别于美国通过政策强推技术突破的路径 [27] 企业实践与解决方案 - 燧原科技得益于丰富的商业化应用场景,产品迭代获得了坚实支撑,国民级爆款应用已经用到了燧原的算力 [17] - 鹏城实验室作为国家实验室定位“保底线”,致力于保障国产算力主权和模型的自主可控 [13] - 鹏城实验室发布了2000亿参数的大语言模型后,又推出了33B和2B参数的中小尺寸模型,并将2B参数模型全过程开源,包括所有数据和数据配比、权重和训练环节 [13] - 鹏城实验室正与气象、金融、文博、生态环境、智能制造等行业合作,推动大模型在典型场景中的示范应用 [13] - 摩尔线程提供了从Model Studio一站式平台、深度融合的MT-MegatronLM与DeepSpeed框架,到底层MUSA计算库及KuaE集群平台的全栈软件支持 [23] - 摩尔线程构建了贯穿训练前、中、后期的智能工具体系,包括SimuMax支持训练资源规划与时间估算,慢节点检测系统,分布式Profiling系统等 [23] - 对于特定大模型,千卡集群需耗时173天,而在万卡集群上,即便模型浮点运算利用率会从40%降至30%,训练时间也能被大幅压缩至23天 [21] - 大模型训练完成时间越短越好,最好不要超过1个月 [21] - 云天励飞已完成芯片架构升级,实现全流程国产工艺转型,构建起覆盖端边云的产品矩阵 [29] - 国产AI推理芯片的发展方向包括突破存储技术瓶颈支持3D memory技术,以及通过异构计算优化性价比,目标在未来三到五年内让百万Token成本降至1元以内 [28] 边缘与端侧算力创新 - 随着桌面级AI应用井喷,专为这些场景设计的LPU架构等应运而生,它们通过3D DRAM堆叠等技术,在有限功耗和成本下实现惊人的内存带宽 [33] - 在端侧AI芯片方向,存算一体与近存计算成为关键,例如将计算单元嵌入存储芯片的3D-CIM架构,或在LPDDR内存中集成处理能力的PIM方案,目标是在手机有限的面积和功耗预算内,流畅运行数10亿参数的大模型 [33]
AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025
雷峰网·2025-12-13 12:05