浮点运算能力

搜索文档
这颗芯片,还有机会吗?
半导体行业观察· 2025-09-05 01:07
文章核心观点 - 高性能计算在GenAI推动下走向主流 AI服务器加速器占全球系统支出的一半 GPU因通用性成为首选但非唯一选择 [1] - Pezy Computing专注研发高能效数学加速器 采用独特架构与GPU竞争 获日本NEDO资助 与富士通Monaka Arm CPU并行发展 [2] - Pezy-SC4s芯片采用5nm工艺 2048核心 24.6 TFLOPS FP64性能 3277 GB/s内存带宽 600W功耗 集成RISC-V主机核心 实现能效比41 GFLOPs/W [4][8][30] - 在基因组分析GATK测试中 Pezy-SC3性能达Nvidia H100的2.25倍 SC4预计达2.8倍 高精度能效比媲美Nvidia GPU [29][31] - 日本通过资助Pezy保障技术自主 应对GPU潜在供应风险 未来FugakuNext系统可能采用Pezy加速器 [31][32] Pezy Computing公司发展 - 公司成立15年 专注替代GPU的数学加速器 名称PEZY代表peta/exa/zetta/yotta度量级 体现HPC/AI领域雄心 [2] - 获日本新能源和工业技术发展组织(NEDO)资助 与富士通Monaka Arm CPU开发同属国家战略项目 [2] - 产品线从2011年Pezy-1持续迭代至2026年SC4s及2027年SC5s 工艺从40nm演进至3nm [4] 芯片技术演进 - Pezy-1(2012年): 40nm工艺 512核心 0.64 TFLOPS FP64 45W功耗 [4] - Pezy-SC(2014年): 28nm工艺 1024核心 0.75 TFLOPS FP64 100W功耗 首用于Top500/Green500超算 [4][5] - Pezy-SC2(2017年): 16nm工艺 2048核心 4.1 TFLOPS FP64 180W功耗 L3缓存增至40MB 增加FP16支持 [4][6] - Pezy-SC3(2020年): 7nm工艺 4096核心 19.7 TFLOPS FP64 470W功耗 增加HBM2显存 带宽1228 GB/s [4][7] - Pezy-SC3s(2021年): 7nm工艺 512核心 2.0 TFLOPS FP64 95W功耗 HBM2显存614 GB/s带宽 [4][7] - Pezy-SC4s(2026年): 5nm工艺 2048核心 24.6 TFLOPS FP64 600W功耗 HBM3显存3277 GB/s带宽 集成RISC-V主机核心 [4][8] - Pezy-SC5s(2027年): 3nm工艺 4096核心 41.2 TFLOPS FP64 900W功耗 HBM3E显存6144 GB/s带宽 FP8性能329.6 TFLOPS [4][30] 架构设计特点 - 采用SPMD(单程序多数据)架构变体 支持细粒度多线程 每个PE含8线程 通过显式线程调度避免分支预测和乱序执行 [11][12] - 缓存层次设计: PE具L1指令/数据缓存(各4KB)和暂存器(24KB) 四个PE组成"村落"共享缓存 十六个村落组成"城市"共享L2缓存(32KB指令/64KB数据) 八个城市组成"州"共享64MB L3缓存 [18][22] - 自定义交叉总线提供12 TB/s读取带宽和6 TB/s写入带宽 连接所有处理单元 [22] - 集成RISC-V"Rocket"核心运行Linux系统 减少对外部X86主机依赖 [8][23] 系统与软件生态 - SC4s系统板采用AMD Epyc 9555P主机 配备400Gb/s NDR InfiniBand 四个SC4加速器通过PCIe连接 计划构建90节点测试系统 总计737280个PE 8.6 petaflops FP64性能 [25] - 自研软件堆栈支持PyTorch框架 已移植Google Gemma3、Meta Llama3、阿里巴巴Qwen2、Stable Diffusion 2和Hugging Face HuBert模型 [27][28] 性能对比与竞争优势 - GATK基因组分析: 四块SC3芯片33分钟/样本 八块Nvidia H100 GPU 37分钟/样本 SC3单芯片性能为H100的2.25倍 SC4预计达2.8倍 [29] - 能效比: SC4s达41 GFLOPs/W(FP64) 与Nvidia H200的47.9 GFLOPs/W(FP64)和B200的33.3 GFLOPs/W(FP64)相当 远高于B300的0.89 GFLOPs/W(FP64) [30][31] - 支持多精度计算: FP64/FP32/FP16/BF16(SC4s)及FP8(SC5s) 在非AI HPC模拟中提供比GPU更灵活编程模型 [8][31] 行业战略意义 - 日本政府通过NEDO资助保障技术自主 应对GPU需求过高或出口限制风险 [31] - 未来FugakuNext超算(2029年)可能采用Pezy加速器作为Nvidia GPU的补充或替代 [2][32]