Arm C1 CPU集群

搜索文档
Arm发布全新Lumex CSS,破局端侧AI
半导体行业观察· 2025-09-12 01:14
行业趋势与痛点 - AI技术正从云端集中式计算向端侧分布式部署转型 移动终端成为智能体验核心载体[1] - 端侧AI需求日益迫切 已从附加功能跃升为产品竞争力核心底座 要求低延迟 高流畅和长续航[1] - 传统架构难以承载高密度AI任务 存在语音助手延迟 大模型推理卡顿和游戏画质与续航失衡等痛点[1] - 芯片设计复杂度飙升导致开发周期拉长 厂商难以兼顾性能兑现与快速上市[1] Arm Lumex CSS平台概述 - Arm推出全新Lumex计算子系统平台 集成搭载SME2技术的高性能CPU GPU及系统IP[2] - 平台专为旗舰级智能手机及下一代个人电脑打造 旨在全面优化端侧AI性能[7] - 通过硬件架构深度革新与软件生态无缝协同 构建面向下一代智能终端的全栈解决方案[34] - 预计到2030年 SME与SME2技术将为超30亿台设备新增超100亿TOPS计算能力[37] CPU性能突破 - Arm C1 CPU集群采用Armv9.3架构 全系列CPU内置SME2技术[7] - 实现端侧AI性能最高5倍提升 能效最高3倍优化[8] - C1-Ultra单线程峰值性能较Cortex-X925提升25%[10] - C1-Premium实现35%的面积优化[10] - C1-Pro较Cortex-A725能效提升12% 持续性能提升16%[10] - C1-Nano能效较Cortex-A520提升26% 面积极小[10] - 配合C1-DSU实现最高26%功耗降低[12] - 语音类工作负载延迟降低4.7倍 经典大语言模型任务性能提升4.7倍 音频生成速度提升2.8倍[12] GPU性能突破 - Mali G1-Ultra GPU相较前代Immortalis-G925实现多重突破[18] - 光线追踪性能提升两倍 启用硬件光追的游戏帧率提升40%[18] - 主流图形基准测试性能提升20%[18] - AI与机器学习网络推理速度提升20% 能效优化9%[22] - 搭载Arm GPU的芯片出货量已逾120亿颗[16] 软件生态创新 - KleidiAI软件库无缝集成至PyTorch ExecuTorch Google LiteRT 阿里巴巴MNN和微软ONNX Runtime等主流AI框架[26] - 在ONNX Runtime上实现最高2.6倍AI推理提速 在Stable Audio音频生成模型上实现2.8倍速度提升[29] - 开发者无需修改代码即可激活SME2加速能力[29] - 通过libyuv库集成SME2内核 图像处理性能提升3倍[29] 实际应用案例 - vivo计算加速平台VCAP全面支持SME2指令集 在全局离线翻译等场景实现额外20%性能提升[41] - 支付宝在vivo新一代旗舰手机上完成基于SME2技术的大语言模型推理验证 prefill阶段性能超40%提升 decode阶段超25%提升[41] - 谷歌上千款应用 微软365 Copilot等已完成适配[32] 市场前景与战略意义 - 全球端侧AI市场规模预计从2025年3219亿元增长至2029年12230亿元 复合年增长率达39.6%[44] - Arm从传统IP供应商向全栈解决方案提供商跨越[44] - 平台具备从智能手机到平板 笔记本电脑的跨设备扩展性[34] - 合作伙伴可直接采用Arm交付平台或选用RTL形式进行设计配置[44]