Workflow
PowerVR GPU
icon
搜索文档
iPhone曾经的心脏,现在更以Pixel形态出击
36氪· 2025-08-28 07:02
Google Pixel 10系列与Tensor G5芯片 - Google发布Pixel 10系列,搭载由台积电代工的Tensor G5芯片,标志着其首次采用纯自研架构,告别三星工艺和Exynos基础设计[1][3] - Tensor G5的GPU部分采用Imagination的PowerVR架构,这是该架构自Apple A10X芯片后再次重返高端智能手机市场[5][39] Imagination Technologies历史与技术创新 - 公司前身VideoLogic于1985年成立,早期专注于PC和Mac的多媒体拓展卡开发,积累视觉计算经验[6] - 1992年技术总监Hossein Yassaie推动战略转型,开发革命性PowerVR架构,采用TBDR(分块延迟渲染)技术,通过HSR(隐藏面移除)显著提升渲染效率并降低功耗和内存带宽需求,相比主流IMR架构具有显著优势[7][9][13] - 1993年PowerVR架构在SIGGRAPH会议展示,1994年VideoLogic上市融资支持技术研发[13] 商业化与市场扩张 - 公司通过与NEC、意法半导体等合作,将PowerVR技术授权用于PC显卡产品,例如Kyro II芯片在3D Prophet 4500显卡上以更低价格实现优于NVIDIA GeForce 2的性能[14][16] - 1998年PowerVR Series 2 GPU被世嘉Dreamcast采用,总销量超1000万台,NEC出货超100万颗芯片,巩固行业地位[16][18] - 1999年公司更名为Imagination Technologies,转型为IP授权模式,类似ARM商业模式,专注于GPU设计授权给德州仪器、三星等半导体公司[19] 重大商业风险与转型 - 2001年世嘉Dreamcast停产导致公司年利润暴跌30%,暴露对单一超级客户的过度依赖风险[20][22] - 2007-2017年与Apple合作成为核心收入来源,A4至A10X芯片均采用PowerVR GPU,但Apple贡献超一半营收,形成依赖[26][28][29] - 2017年Apple宣布停止使用Imagination技术,导致公司股价单日暴跌70%,市值蒸发数亿英镑,随后被私募基金Canyon Bridge收购[31][33][34] - 公司通过出售MIPS业务给美资基金,规避地缘政治风险,确保收购完成[35] 当前业务与市场策略 - 公司聚焦四大战略支柱:汽车电子、数据中心与桌面计算、移动设备GPU及边缘侧AI计算,推行多元化降低客户依赖风险[37] - 2020年与Apple重新达成多年授权协议,表明Apple自研GPU仍依赖PowerVR技术基础[39] - 2021年公司推出RISC-V架构Catapult CPU内核,但因市场反馈不佳于2024年初停止开发,重新专注于GPU和AI业务[41] - PowerVR GPU当前应用于智能电视(如LG U+ TV Soundbar)、开发板(如Retroid Pocket 3)和边缘计算设备,但在手机市场缺乏高端用例[41][43][44] 市场机遇与挑战 - Google Tensor G5采用PowerVR DXT-48-1536 GPU,小米玄戒芯片也计划采用DXT-72-2304 GPU,但性能表现不及上代Tensor G4,且Android生态对Adreno和Mali优化更成熟[46][49][50] - Android GPU Inspector工具优先支持Adreno和Mali,游戏兼容性优化不足,限制PowerVR在移动市场竞争力[50] - 三星与AMD合作Xclipse GPU失败,可能回归Mali架构,为PowerVR提供潜在市场机会[52] - Google Pixel采用PowerVR可能推动Android系统层优化和生态支持,借助Pixel销量增长为公司提供研发资金[54] 公司未来展望 - 2024年初传闻Canyon Bridge计划出售Imagination,公司展现技术韧性和商业模式适应性,但未来方向仍不确定[56]
用RISC-V打造GPU?太行了
半导体行业观察· 2025-06-05 01:37
核心观点 - 嵌入式GPU (e-GPU) 是一个专为超低功耗边缘设备 (TinyAI) 设计的开源可配置RISC-V GPU平台 通过硬件可配置性和轻量级Tiny-OpenCL软件框架解决了传统GPU在功耗、面积和编程兼容性方面的限制 [1][4][5] - e-GPU在台积电16nm工艺下实现300MHz频率和0.8V电压工作 最高配置可实现15.1倍性能加速和3.1倍能耗降低 同时面积开销仅2.5倍且功耗控制在28mW以内 [2][46][49] - 该平台通过与X-HEEP主机集成形成加速处理单元(APU) 采用统一内存架构和定制缓存设计 优化了数据并行处理效率 特别适用于生物信号处理等TinyAI应用场景 [24][26][47] 硬件架构 - 计算单元基于乱序RISC-V架构 支持可配置并行线程(2-8线程/CU)和并发Warp(4个/CU) 通过自定义SLEEP指令实现时钟门控节能 移除浮点单元专注整数运算以降低功耗 [25][45] - 内存层级采用统一架构共享主机物理内存 每个计算单元配备私有指令缓存(2KiB/CU) 共享数据缓存(16KiB)支持多存储体(2-8个)和行交错寻址 最大带宽32位/周期 [26][46][53] - 专用控制器管理电源域和中断 通过OBI总线协议与主机通信 支持精细化的时钟门控和电源门控机制 [29][40] 软件框架 - Tiny-OpenCL框架提供轻量级编程环境 包含SIMT RISC-V扩展API、启动函数和调度函数 通过代码转换将OpenCL内核编译为标准C函数 兼容RISC-V GNU工具链 [31][33] - 运行时执行分为三阶段:启动阶段初始化堆栈指针 调度阶段根据全局/本地大小分配工作项 处理阶段直接执行内核算法 支持动态资源激活/停放以优化能效 [36][37] - 主机端运行时基于Newlib C库实现OpenCL API子集 支持单二进制文件执行 无需操作系统依赖即可完成缓冲区管理、内核调度和同步操作 [42] 性能表现 - 在GeMM基准测试中 对于256×256以上矩阵规模 调度开销占比低于1% 传输开销稳定在总执行时间20%以上 缓存行大小随线程数增加(8B-32B)提升数据预取效率 [46][53][54] - TinyBio基准测试包含FIR滤波(加速15.1倍)、峰值检测(加速13.1倍)和FFT计算(加速14.0倍) 整体应用性能提升达14.3倍 能耗降低2.9倍 [58][59] - 面积范围0.24-0.38mm² 漏电功耗130.13-305.32μW 计算单元面积随线程数增加近翻倍 数据缓存面积因多存储体架构略有增加 [50][51][52] 行业对比 - 商用GPU(如Adreno/Mali/PowerVR)功耗达数百毫瓦至瓦级 缺乏开源性和功耗优化 不适用于毫瓦级TinyAI场景 [11] - 学术GPU解决方案中 Vortex功耗46.8mW但依赖PC级主机 Virgo面向数据中心负载 Ventus专注FPGA部署 均未针对SoC集成优化 [15][16][17] - e-GPU作为首个开源RISC-V GPU平台 提供完整的RTL代码和ISA扩展支持 填补了超低功耗领域可配置GPU的空白 [12][13]