文章核心观点 - 北京大学团队成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片,在全球范围内首次将模拟计算的相对误差从1%降低至千万分之一(10^-7),精度提升至24位定点精度,相当于数字计算的浮点32位(FP32)[1][7][12] - 该芯片采用模拟计算范式,利用物理定律直接进行计算,无需二进制编码和逻辑门操作,在能效和算力上相比数字计算有显著优势,能效提升百倍,算力吞吐量提升千倍[5][9] - 该技术可在28纳米及以上成熟制程量产,绕开先进光刻机限制,为应对AI算力与能耗挑战、降低对单一技术路径依赖提供了新的可能性[1][4][10] 技术原理与突破 - 计算范式:模拟计算是一种不同于当前主流数字计算(GPU/TPU/CPU/NPU)的范式,它通过物理定律直接对物理量进行运算,省去了数字计算中二进制编码和逻辑门操作的“翻译”环节,因此速度更快、能耗更低[3][5] - 精度突破:研究团队通过器件、电路和算法协同创新,将模拟计算的相对误差从1%量级大幅压降至千万分之一(10^-7)量级,解决了长期制约模拟计算应用的精度瓶颈,使其精度首次能够满足AI训练等高精度计算场景的刚性需求[7][9][12] - 核心创新:1) 器件层面,首次采用可量产的阻变存储器作为核心器件,形成“现代模拟计算”范式;2) 电路层面,设计全新反馈电路,在不显著增加能耗与延时的前提下实现高精度;3) 算法层面,引入迭代优化及“位切片”算法,高效实现高精度矩阵方程求解[9][15] 性能优势与比较 - 能效与算力:相较于数字计算,该模拟计算芯片能效提升百倍,算力吞吐量提升千倍[9] - 硬件效率:数字计算完成一次“1+1”需要28个晶体管,完成两个10位数的乘法需要约1万个晶体管,而模拟计算在电子尺度通过物理定律直接完成,硬件资源开销与能耗下降数个量级[3][5] - 工艺优势:芯片可在28纳米及以上成熟工艺节点量产,无需依赖最先进的制程和EUV光刻机,利用现有芯片生产线即可[1][9][22] 应用场景与前景 - 目标领域:芯片面向矩阵计算,是AI大模型训练(尤其二阶训练)、6G大规模MIMO、具身智能、超级计算(如气象预报、量子力学模拟)等前沿领域的核心运算的理想载体[1][9][10][20] - 当前阶段:目前处于实验室原理验证阶段,矩阵规模为16x16,更适用于中等规模场景,在小规模任务上性能优势不明显,尚未进行大规模应用[9][18] - 二阶训练潜力:当前主流AI训练为一阶方法,二阶方法迭代次数更少但计算量巨大,该技术擅长快速求解矩阵方程,理论上非常适合加速AI二阶训练[18][19] 发展路径与规划 - 规模扩展:团队计划在2年内将芯片阵列规模从16x16提升至128x128,并力争扩展至512x512,以达到在具身智能、6G通信等中等规模场景产生实际效用的水平[10][24] - 产业化路径:芯片制造流程与数字芯片相同,可委托现有代工厂生产流片,产业化路径清晰,但走向消费端仍需大量工程化、可靠性验证和商业推广工作[10][22][23] - 战略意义:该技术为中国算力发展提供了一条“换道超车”的可能性,有望降低对先进制程和英伟达GPU的单一依赖,团队在该赛道上处于全球领先位置,但距离真正“摆脱依赖”还有很长的路要走,需要持续投入进行技术储备[10][25] 技术载体与扩展性 - 核心载体:当前研究以阻变存储器为硬件载体实现高速、低功耗矩阵方程求解,但模拟计算的核心是数学到物理的映射,原则上其他非易失存储器(如相变、磁性、铁电存储器等)也可承载该电路[16][17] - 规模扩大逻辑:对于超算等需要求解“百万×百万”级别大规模矩阵方程的场景,可通过算法设计实现“以小博大”,例如用512x512的硬件求解1024x1024的方程[21]
绕开光刻机“卡脖子” 中国新型芯片问世!专访北大孙仲:支撑AI训练和具身智能 可在28纳米及以上成熟工艺量产
每日经济新闻·2025-12-30 00:36