Workflow
Nvidia B200
icon
搜索文档
Up 300% in 2025, Should You Buy This Red-Hot AI Data Center Stock Here?
Yahoo Finance· 2025-09-25 16:10
IREN’s newly acquired GPUs are scheduled for delivery in the coming months and will be deployed at the Prince George campus in British Columbia. Another key point is that IREN is diversifying its portfolio by adding AMD’s (AMD) top-end generation. The company stated that combining AMD’s hardware with Nvidia (NVDA) GPUs enhances its AI infrastructure capabilities and expands its addressable market.On Monday, IREN stock jumped more than 8% after the company reinforced its ambitions to become an AI infrastruct ...
华为新技术,挑战英伟达
半导体芯闻· 2025-08-28 09:55
核心观点 - 华为推出UB-Mesh技术 旨在通过单一协议统一AI数据中心内外部节点的所有互连 取代PCIe/CXL/NVLink/TCP/IP等协议 以降低延迟 控制成本并提高可靠性 并计划开源该协议[2][5][25] 技术细节 - UB-Mesh使任何端口无需协议转换即可直接通信 减少转换延迟并简化设计 同时保留以太网向后兼容性[5][7] - 技术将数据中心转变为SuperNode架构 支持最多1,000,000个处理器统一协同 每芯片带宽从100Gbps提升至10Tbps(1.25TB/s) 跳跃延迟降低至约150纳秒[7] - 网络拓扑采用混合模型:顶层CLOS结构连接机架 下层多维网格连接机架内节点 避免传统设计在数万节点规模下的高成本问题[17][22] 性能与成本优势 - 传统互连成本随节点数量线性增长 而UB-Mesh成本扩展呈亚线性 容量增加时成本不会相应增加[22] - 华为提出8192节点实用系统作为可行性证明 其可靠性设计通过热备用机架自动接管故障 将平均故障间隔时间延长数个数量级[22] 技术挑战与解决方案 - 长距离光纤传输错误率高于电气连接 华为提出链路级重试机制 光模块备份通道及多模块交叉连接设计以确保持续运行[13] 行业竞争与标准化 - 华为通过UB-Mesh减少对西方标准(如PCIe/NVLink/TCP/IP)的依赖 专注于数据中心级解决方案而非单一硬件竞争[25][26] - 技术将开源供全球评估 若部署成功且第三方兴趣充足 可能推动其成为行业标准[2][26]
万字解读AMD的CDNA 4 架构
半导体行业观察· 2025-06-18 01:26
AMD CDNA 4架构核心升级 - CDNA 4是AMD最新面向计算的GPU架构,专注于提升低精度数据类型下的矩阵乘法性能,这对机器学习工作负载至关重要[2] - 架构采用与CDNA 3相同的大规模芯片组设计,包含8个加速器计算芯片(XCD)和4个基础芯片,通过Infinity Fabric技术实现一致内存访问[4] - 相比CDNA 3的MI300X,CDNA 4的MI355X减少了每个XCD的CU数量但提高了时钟速度,整体性能差距不大[5] 性能参数对比 - MI355X采用TSMC N3P工艺(计算芯片)和6nm工艺(基础芯片),时钟速度2.4GHz,比MI300X的2.1GHz和Nvidia B200的1.965GHz更高[5] - MI355X配备8个HBM3E堆栈,提供288GB内存和8TB/s带宽,优于MI300X的192GB/5.3TB/s和B200的180GB/7.7TB/s[5] - 在FP6精度下,CDNA 4的每CU矩阵吞吐量与B200 SM相当,但在16位和8位数据类型上B200仍保持优势[6] 计算单元改进 - CDNA 4重新平衡执行单元,专注于低精度矩阵乘法,许多情况下每CU矩阵吞吐量翻倍[6] - 矢量运算方面,CDNA 4保持MI300X的优势,每个CU有128条FP32通道,每周期提供256 FLOPS[8] - LDS(本地数据共享)容量从CDNA 3的64KB提升至160KB,读取带宽翻倍至每时钟256字节[14][15] 系统架构优化 - MI355X升级使用HBM3E内存,计算带宽比提升至每FP32 FLOP 0.05字节,优于MI300X的0.03字节[25] - 二级缓存新增"回写脏数据并保留行副本"功能,优化内存子系统带宽使用[20] - 架构采用两个IOD(输入输出芯片)而非上代的四个,简化了Infinity Fabric网络,延迟降低14%[52] 产品规格与性能 - MI355X GPU提供1400W直接液冷版本,FP8稀疏计算峰值达10PFLOPS,FP6/FP4达20PFLOPS[74] - 相比MI300X,MI355X在FP16/BF16矩阵运算性能提升1.9倍,FP8/INT8提升1.9倍,并新增FP6/FP4支持[47] - 内存分区支持NPS1(全内存交错)和NPS2(144GB分池)两种模式,后者可减少跨IOD通信开销[60][61] 软件生态系统 - ROCm软件堆栈支持Kubernetes编排,提供PyTorch和JAX等框架优化[70] - 针对生成式AI优化了vLLM和SGLang等推理框架,提供Llama系列等流行模型的Day 0支持[72] - 包含分布式训练框架如Maxtext(JAX)和Megatron LM(PyTorch),支持Flash Attention v3等关键技术[71]
台积电,颠覆传统中介层
半导体芯闻· 2025-06-12 10:04
台积电CoWoS封装技术崛起 - 人工智能热潮推动GPU需求激增,台积电CoWoS封装技术成为关键支撑力量,英伟达CEO黄仁勋表示在CoWoS领域"别无选择"[1] - 台积电凭借CoWoS技术超越日月光成为全球最大封测厂商,并持续扩张产能[1] - 英伟达Blackwell系列产品将主要采用CoWoS-L封装,替代部分CoWoS-S产能,因B100/B200 GPU需10TB/s互连带宽[3] CoWoS技术演进与瓶颈 - 芯片尺寸增大至80x84毫米导致12英寸晶圆仅能容纳4颗芯片,超大封装面临基板尺寸(100x100mm至120x120mm)和散热挑战[4] - 助焊剂残留问题影响CoWoS良率,台积电正测试无助焊剂键合技术,预计2024年底完成评估[5] - 中介层尺寸计划从2023年80x80mm(3.3倍光罩)扩展至2026年5.5倍光罩,2027年推出9.5倍光罩版本[8] 下一代封装技术布局 - 台积电开发SoW-X技术,性能较CoWoS提升40倍,模拟完整服务器机架功能,计划2027年量产[8] - CoPoS技术将圆形晶圆改为310x310mm矩形面板,芯片容量提升数倍,计划2029年量产,英伟达或为首个客户[9][10] - CoPoS采用玻璃中介层替代硅,具有更高成本效益和热稳定性,TGV技术实现更低功耗和更高带宽密度[12] 技术路线对比 - FOPLP无需中介层,适合中端ASIC;CoPoS保留中介层,更适合高端AI/HPC系统[11] - 玻璃芯基板在互连密度、信号布线和热膨胀系数等方面优于传统有机基板[12] - 方形封装工艺需解决翘曲、均匀度和RDL线宽缩小至1µm等技术难题[14]
传华为开发新AI芯片
半导体芯闻· 2025-04-28 10:15
华为AI芯片进展 - 公司正在测试最新AI处理器Ascend 910D 计划取代英伟达部分高端产品如H100 [2] - 已与中国科技公司接洽进行技术可行性测试 首批样品预计5月底交付 [2] - 计划最早5月向中国客户大规模出货910C芯片 [2] 中美技术竞争背景 - 美国限制中国获取英伟达最先进AI产品包括B200和H100芯片 [2] - H100芯片在2022年未上市即被禁售 [2] - 华为等中国公司长期致力于开发替代方案以突破技术封锁 [2] 行业动态 - 英伟达H100芯片性能成为行业对标基准 [2] - 训练模型用高端芯片需求旺盛 涉及算法决策等核心AI应用 [2]