Blackhole P150加速器
搜索文档
Jim Keller的RISC-V工作站实测
半导体行业观察· 2025-11-28 01:22
公司产品定位与市场策略 - Tenstorrent是一家专注于人工智能基础设施的芯片初创公司,其产品已从实验室走向市场,与依赖风险投资和争夺英伟达市场份额的其他AI芯片初创公司不同[1] - 公司提供基于RISC-V架构的加速器,已推出三代产品,旨在支持开源社区,并以低成本提供高性能计算解决方案,成本仅为AMD或Nvidia同类GPU设备的一小部分[1] - Tenstorrent的Blackhole QuietBox AI工作站售价11,999美元,重80磅(36公斤),是即将发布的Blackhole Galaxy服务器的精简版,设计用于开发平台,帮助用户学习架构、移植代码和优化模型[1] - 该工作站使用与Tenstorrent Galaxy服务器相同的芯片、内存和互连技术,性能可无缝扩展到整个系统,这与大多数AI工作站不同,后者性能特征与生产系统(如GB200机架或MI350服务器)不匹配[2] - 公司提供多种加速器选项,包括售价999美元的风冷版本(性能稍低,无芯片间联网功能,内存28 GB)和售价1,399美元的风冷或液冷版本,以降低用户进入门槛[18] 硬件架构与性能规格 - Blackhole QuietBox搭载四颗Tenstorrent Blackhole P150加速器,每颗芯片功耗300瓦,集成752个"迷你"RISC-V处理器核心,构成140个Tensix处理器核心,并配备16个SiFive Intelligence x280核心,可运行Linux系统[11][16] - 系统总计算性能超过3 petaFLOPS的FP8密集运算性能,FP16密集性能为776 TFLOPS,块FP8密集性能为1.5 PFLOPS,总内存带宽为2 TB/s,互连带宽为12.8 Tbps[11] - 每个P150加速器配备四路QSFP-DD插槽,支持以太网互连,总带宽为3,200 Gbps(约400 GB/s),与Nvidia H100的450 GB/s互连带宽接近,但依赖非标准以太网接口,仅用于芯片间通信[21][23] - 系统采用液冷设计,底部和顶部各有一个400毫米散热器,通过四个Noctua 200毫米风扇散热,功耗约1,200瓦,加速器温度不超过70摄氏度,运行安静但非完全无声[6][7] - 硬件配置包括AMD Epyc 8124P CPU(16核心,125瓦)、512 GB DDR5内存、4TB NVMe存储和1,650瓦铂金电源,支持10 GbE以太网连接[9][11][13] 软件生态与开发生态系统 - Tenstorrent软件栈完全开源,包括底层内核环境(TT-LLK)、类似CUDA的API(TT-Metal)和高级编译器(TT-Forge),支持PyTorch、JAX和Onnx模型,与多数AI芯片初创公司仅提供LLM推理服务器不同[37][39] - 公司提供TT-Inference-Server和TT-Metalium等工具,用于运行LLM推理和模型演示(如ResNet50、BERT、稳定扩散1.4),但软件栈尚不成熟,文档分散在多个GitHub代码库中,缺乏优化内核[32][35][61] - 软件栈依赖手动编写自定义内核支持新模型,导致模型兼容性受限;编译器TT-Forge处于测试阶段,旨在通过多级中间表示(TT-MLIR)自动编译模型,但性能可能不及手动优化内核[39][40] - 当前LLM推理性能未达预期,测试显示为早期Wormhole加速器编写的内核在Blackhole上运行效率低,仅利用部分核心(如76个Tensix核心闲置),内存带宽利用率受限,解码性能人为限制在288 GB/s,远低于理论值[56][57] 扩展性与未来发展 - Tenstorrent架构支持从单卡扩展到32芯片系统(如Blackhole Galaxy),甚至机架级配置(192个加速器),理论上可扩展到数千个加速器,接近谷歌TPU和亚马逊Trainium集群的扩展方式[25][26] - Blackhole Galaxy预计提供25 petaFLOPS的FP8性能、1TB GDDR6显存和16TB/s带宽,对比Nvidia DGX H100(FP8性能低于16 petaFLOPS),但Tenstorrent系统成本更低,扩展性更优[25] - 公司面临软件优化挑战,缺乏针对关键工作负载(如LLM推理)的优化内核,影响性能发挥;未来需通过开源社区和教程改进文档,以提升开发者体验和市场吸引力[60][61]