每秒110万个token!微软(MSFT.US)和英伟达(NVDA.US)联手刷新AI推理纪录
微软微软(HK:04338) 智通财经网·2025-11-04 11:18

技术性能突破 - Azure ND GB300v6虚拟机在Llama2 70B模型上实现每秒110万token的推理速度,创下行业新纪录 [1] - 性能验证在18台ND GB300v6虚拟机上使用NVIDIA TensorRT-LLM引擎完成,一个NVL72机架达到总计110万token/秒 [1] - 新记录较之前基于NVIDIA GB200NVL72机架实现的86.5万token/秒成绩有显著提升 [1] 硬件配置升级 - Azure ND GB300虚拟机采用英伟达Blackwell Ultra GPU,具体为NVIDIA GB300NVL72系统 [1] - 系统配置72个NVIDIA Blackwell Ultra GPU和36个NVIDIA Grace CPU,采用单机架构设计 [1] - 该虚拟机专为推理工作负载优化,具有50%的GPU内存提升和16%的热设计功率提高 [1] 性能效率提升 - Azure ND GB300相较于上一代NVIDIA GB200在推理性能上提升27% [2] - 性能提升的同时功率规格仅增加17% [2] 行业意义与合作 - 该成就被视为突破了每秒百万token的障碍 [2] - 技术里程碑在一个能满足现代企业动态使用和数据治理需求的平台上实现 [2] - 微软首席执行官强调此成就是公司与英伟达长期合作及在生产规模运行人工智能方面专业知识的结晶 [1]