Workflow
稀疏注意力模型
icon
搜索文档
苹果虽迟但到,端侧AI加速爆发,AI新势力抢先圈地突围
36氪· 2025-06-11 23:56
苹果WWDC与端侧AI生态 - 苹果在WWDC宣布向所有App开放权限 允许开发者直接访问设备端大语言模型 推出Foundation Models框架[1] - Foundation框架让开发者无需支付云端API调用费用 用户无需承担额外成本 打破"成本-隐私-延迟"三角制约[6] - 苹果智能正加速融入系统各功能 端侧AI生态覆盖智能手机、笔记本、汽车等多类终端场景[1][6] 面壁智能MiniCPM4技术突破 - MiniCPM4推出0.5B和8B两种参数规模 0.5B模型性能超Qwen-3-0.6B及1B参数的Llama3.2/Gemma3[1][10] - 8B模型以22%训练开销比肩Qwen-3-8B 0.5B模型以2.7%训练开销实现性能翻倍[10] - 采用原生QAT技术实现INT4量化 推理速度达600 Tokens/秒 长文本场景缓存空间仅需1/4[10] 端侧模型技术革新 - 首创原生注意力稀疏模型InfLLMv2 稀疏度降至5% 计算量仅为传统1/10[14][16] - 自研CPM.cu推理框架实现5倍加速 ArkInfer解决多平台适配问题[16][18][20] - 128K长文本场景下实现5-220倍加速 量化版模型瘦身90%[10][13] 端侧AI行业趋势 - 端侧部署已成行业趋势 但面临推理速度、功耗控制、上下文理解等挑战[5][7][8] - 设备硬件受限导致模型需压缩规模 影响长序列建模能力[9] - 行业需突破"增量困境" 技术创新成核心驱动力[5][24] 产业影响与未来展望 - 端侧基模决定上层应用天花板 当前水平类比19世纪蒸汽机[22][23] - MiniCPM4开源下载量破1000万 参数/数据/框架全面开放[27] - 端侧智能将推动AI普惠落地 开启人机协同新时代[28][29]