Adreno GPU

搜索文档
Qualcomm launches Snapdragon 8 Elite Gen 5 with Big Gains in CPU, GPU, and AI
The Economic Times· 2025-09-24 20:30
At its core, the Snapdragon 8 Elite Gen 5 introduces the 3rd Generation Qualcomm Oryon CPU, which the company describes as the fastest mobile CPU ever built. The chipset also brings a new Adreno GPU architecture and an upgraded Hexagon NPU, together delivering significant generational gains: up by 20% improved by 23% increased by 37%Boosting Everyday ExperiencesThe new platform focuses on amplifying the features smartphone users rely on daily. Qualcomm highlights lightning-fast multitasking, seamless app s ...
用RISC-V打造GPU?太行了
半导体行业观察· 2025-06-05 01:37
核心观点 - 嵌入式GPU (e-GPU) 是一个专为超低功耗边缘设备 (TinyAI) 设计的开源可配置RISC-V GPU平台 通过硬件可配置性和轻量级Tiny-OpenCL软件框架解决了传统GPU在功耗、面积和编程兼容性方面的限制 [1][4][5] - e-GPU在台积电16nm工艺下实现300MHz频率和0.8V电压工作 最高配置可实现15.1倍性能加速和3.1倍能耗降低 同时面积开销仅2.5倍且功耗控制在28mW以内 [2][46][49] - 该平台通过与X-HEEP主机集成形成加速处理单元(APU) 采用统一内存架构和定制缓存设计 优化了数据并行处理效率 特别适用于生物信号处理等TinyAI应用场景 [24][26][47] 硬件架构 - 计算单元基于乱序RISC-V架构 支持可配置并行线程(2-8线程/CU)和并发Warp(4个/CU) 通过自定义SLEEP指令实现时钟门控节能 移除浮点单元专注整数运算以降低功耗 [25][45] - 内存层级采用统一架构共享主机物理内存 每个计算单元配备私有指令缓存(2KiB/CU) 共享数据缓存(16KiB)支持多存储体(2-8个)和行交错寻址 最大带宽32位/周期 [26][46][53] - 专用控制器管理电源域和中断 通过OBI总线协议与主机通信 支持精细化的时钟门控和电源门控机制 [29][40] 软件框架 - Tiny-OpenCL框架提供轻量级编程环境 包含SIMT RISC-V扩展API、启动函数和调度函数 通过代码转换将OpenCL内核编译为标准C函数 兼容RISC-V GNU工具链 [31][33] - 运行时执行分为三阶段:启动阶段初始化堆栈指针 调度阶段根据全局/本地大小分配工作项 处理阶段直接执行内核算法 支持动态资源激活/停放以优化能效 [36][37] - 主机端运行时基于Newlib C库实现OpenCL API子集 支持单二进制文件执行 无需操作系统依赖即可完成缓冲区管理、内核调度和同步操作 [42] 性能表现 - 在GeMM基准测试中 对于256×256以上矩阵规模 调度开销占比低于1% 传输开销稳定在总执行时间20%以上 缓存行大小随线程数增加(8B-32B)提升数据预取效率 [46][53][54] - TinyBio基准测试包含FIR滤波(加速15.1倍)、峰值检测(加速13.1倍)和FFT计算(加速14.0倍) 整体应用性能提升达14.3倍 能耗降低2.9倍 [58][59] - 面积范围0.24-0.38mm² 漏电功耗130.13-305.32μW 计算单元面积随线程数增加近翻倍 数据缓存面积因多存储体架构略有增加 [50][51][52] 行业对比 - 商用GPU(如Adreno/Mali/PowerVR)功耗达数百毫瓦至瓦级 缺乏开源性和功耗优化 不适用于毫瓦级TinyAI场景 [11] - 学术GPU解决方案中 Vortex功耗46.8mW但依赖PC级主机 Virgo面向数据中心负载 Ventus专注FPGA部署 均未针对SoC集成优化 [15][16][17] - e-GPU作为首个开源RISC-V GPU平台 提供完整的RTL代码和ISA扩展支持 填补了超低功耗领域可配置GPU的空白 [12][13]