RX 9070 - 财报，业绩电话会，研报，新闻

RX 9070

搜索文档

半导体行业观察· 2025-09-14 02:55

核心观点 - AMD RDNA4架构在光线追踪和机器学习效率方面实现显著提升，同时优化光栅化性能，并增强媒体与显示功能，整体采用单片设计以平衡性能与成本 [2][4][54][55][58] 架构效率改进 - 光线追踪单元和BVH节点结构优化，结合动态寄存器分配模式，减少波间内存依赖问题 [16] - 标量单元新增浮点指令（延迟4周期），较矢量指令（延迟5周期）效率更高，支持整数运算卸载以提升能效 [17][18][20] - 二级缓存容量增至8MB，较RDNA3（6MB）和RDNA2（4MB）提升显著，减少对Infinity Cache的依赖 [23][25] - 透明压缩技术扩展至全SoC（包括显示和媒体引擎），降低带宽需求并提升能效 [29][33][42] 媒体引擎增强 - 高端型号（如RX 9070XT）配备双媒体引擎，支持H.265和AV1编解码器，优化低延迟编码模式 [5][7] - 在《上古卷轴OL》测试中，低延迟VBR模式下Netflix VMAF质量评分更高，文本处理能力优于前代 [9][10][12] - 编码速度从RDNA3.5的190 FPS提升至200 FPS，VBV缓冲区限制为3帧以平衡延迟与质量 [12] 显示引擎优化 - 新增"Radeon图像锐化"硬件滤镜，独立于GPU着色器运行，不影响性能且能效更高 [13] - 利用FreeSync可变刷新率动态调整像素率，降低多显示器空闲功耗 [14][15] - RX 9070在双显示器高刷新率场景下（如1080P 60Hz + 1440P 360Hz）功耗仅12W，较RX 6900XT（36W）显著降低 [15] 内存与缓存系统 - Infinity Fabric内存子系统包含16个CS块，每块配对4MB缓存，支持1.5-2.5 GHz动态频率调节，理论带宽达2.5 TB/s [49][51] - 取消中级L1缓存，重点扩大L2容量以应对光线追踪等高压工作负载 [28] - GDDR6内存控制器支持256位配置，通过压缩技术弥补Infinity Cache容量缩减 [42][58] 计算与同步改进 - 引入分拆屏障指令（s_barrier_signal/s_barrier_wait），替代传统s_barrier，减少线程等待时间 [21][22] - 工作组处理器针对光线追踪优化，提升BVH遍历效率 [16] SoC集成与功能 - 强化RAS（可靠性、可用性和可服务性）功能，支持错误检测与部分模块重初始化 [43] - 安全模块采用MP0/MP1架构，与CPU端设计协同，支持DRM和SEV功能 [45] - 通过Infinity Fabric实现多路一致性系统，支持大型末级缓存 [46][47] - 采用单片设计，基于性能目标、成本及封装效率综合考量 [54]

半导体行业观察· 2025-06-30 01:52

Nvidia Blackwell架构核心特点 - 采用750平方毫米巨型芯片设计，集成922亿个晶体管，拥有192个流多处理器(SM) [1] - GB202芯片的SM与GPC比例为1:16，相比前代Ada Lovelace的1:12比例可更低成本增加SM数量 [5] - 取消了子通道切换机制，允许在同一队列中混合不同类型工作负载，提高着色器阵列填充效率 [8] - 采用128位固定长度指令和两级指令缓存设计，L1指令缓存容量提升至约128KB [7][10] - 每个SM分区可跟踪12个波段，寄存器文件容量保持64KB/分区不变 [16] 性能参数对比 - RTX PRO 6000 Blackwell配置188个SM，96GB GDDR7显存，理论带宽1.8TB/s，功耗600W [2] - 相比RTX 5090(170个SM)和AMD RX 9070(28个WGP)，在核心数量和显存带宽上具有明显优势 [2][21] - FP32执行流水线重组为32位宽设计，可同时处理INT32和FP32操作避免卡顿 [18] - 每个SM分区每周期可执行16次INT32乘法，是AMD RDNA4的两倍 [18] - 光线追踪性能提升，每个SM的光线三角形相交测试速率提高一倍 [23] 内存子系统 - 采用128KB SM级存储块设计，可在L1缓存和共享内存间灵活分配 [25] - L2缓存延迟130ns，带宽8.7TB/s，相比前代Ada Lovelace有所增加 [49][53] - 显存延迟329ns，L2命中延迟约200ns，略逊于AMD RDNA4的254ns [52] - 总计拥有24MB L1/共享内存容量，是AMD RX 9070(6MB)的四倍 [35] - 地址生成效率优于AMD，单条指令即可完成数组索引转换 [37] 行业竞争格局 - 在高端消费市场缺乏直接竞争对手，AMD RDNA4和Intel Battlemage定位中端 [61] - RTX PRO 6000的FP32吞吐量接近AMD MI300X数据中心GPU [62] - 采用"大核心+高带宽"双重策略，同时增加SM数量和显存带宽 [62] - 芯片面积和功耗达到消费级GPU极限(750mm²/600W) [62] - 尽管面临L2性能等挑战，但凭借规模优势保持市场领先地位 [63][64]

英伟达(US:NVDA)

GPU Architecture

Semiconductors

RTX PRO 6000 Blackwell

RTX PRO 6000 Blackwell

RX 9070

GB202

FluidX3D