端侧大模型

搜索文档
面壁智能完成新一轮亿级融资
搜狐财经· 2025-05-21 02:37
融资动态 - 公司完成新一轮数亿元融资 由洪泰基金、国中资本、清控金信和茅台基金联合投资 [1] - 2024年以来已连续完成3轮融资 显示资本市场对其技术路线的高度认可 [1] 技术突破 - 2024年9月发布MiniCPM 3 0模型 4B参数性能超越GPT-3 5 [1] - 2024年8月发布MiniCPM-V 6模型 8B参数实现20B以下多模态理解3项SOTA 达到GPT-4V水平 [1] - 2025年1月发布MiniCPM-o 2 6模型 8B规模实现全模态实时交互 [1] - 形成全模态/多模态/基座模型完整矩阵 持续刷新端侧大模型能力边界 [1] 市场表现 - MiniCPM系列获评2024年Hugging Face"最多下载、最受欢迎中国大模型" [1] - 平台累计下载量突破1000万次 [1] 商业化落地 - 推出全球首个车端纯端侧智能助手"小钢炮超级助手cpmGO" [2] - 参与研发最高人民法院"法信法律基座大模型" [2] - 与清华大学合作推出AI学生成长助手"清小搭" 覆盖全校本科生 [2] 战略规划 - 本轮融资将用于构筑技术/产品壁垒 加速行业赋能与生态拓展 [2] - 推动"端侧大脑"在千行百业规模化应用 [2]
手机流畅处理128K长文本,vivo端侧新算法突破内存限制 | ACL 2025
量子位· 2025-05-20 05:12
核心观点 - vivo AI研究院推出EdgeInfinite算法 专为端侧设备设计 可在低于10GB GPU内存的设备上处理长达128K tokens的输入 显著提升长文本处理效率 [1][4] - 该算法通过可训练门控记忆模块集成记忆压缩技术 与原生Transformer架构完全兼容 仅需微调少量参数即可实现高效推理 [4] - 在LongBench数据集测试中 该算法在多文档问答和少样本学习任务上优于其他KV Cache优化方法 部分任务表现超过完整KV Cache的原始模型 [14][15] 架构设计 - 采用结合ROPE的分块注意力模块 将文本切分为片段并加入位置编码 提升小段内token间位置关系计算的准确性 [7][8] - 引入记忆压缩与解压缩模块 将历史KV状态分块存储为固定长度记忆块 在计算注意力时解压缩以近似长序列注意力计算 [7][9] - 集成自适应的门控记忆模块 结合基于记忆和局部片段的注意力 增强长距离依赖处理能力 训练时仅需微调该模块 [7][10] 性能表现 - 在Single-Document QA任务中取得31.67分 显著高于FullKV的21.93分和其他对比方法(SnapKV 22.51分, PyramidKV 22.25分) [15] - 在Multi-Document QA任务中达到26.08分 优于FullKV的26.15分 且远高于StreamingLLM的19.13分 [15] - 少样本学习任务平均得分47.89分 大幅超过FullKV的39.37分 其中TriviaQA任务达79.03分(FullKV为51.98分) [15] - 整体综合得分25.71分 高于FullKV的24.20分及其他对比方法(SnapKV 23.88分, PyramidKV 23.81分) [15] 技术优势 - 推理时保留sink token(序列起始token)和window token(序列末尾token)的kv cache 消融实验显示移除任一token会导致性能显著下降(如移除sink token后综合得分降至23.17分) [13][16][17] - 采用长短文本任务动态路由机制 可灵活结合基础模型 在不影响短文本能力的前提下提升长文本处理性能 [13] - 相比原始BlueLM-3B模型 首词出词时间更短且内存占用更少 内存消耗随文本长度增加保持稳定 [17]
AI原生手机之战:三大阵营的对决
36氪· 2025-05-07 12:23
行业趋势 - 2024年中国AI手机出货量同比激增591%,渗透率从2023年的3%跃升至22%,预计2025年将突破1.18亿台,占整体市场的40.7% [4] - 全球600美元以上高端机型占比突破30.9%,其中AI功能贡献了75%的溢价能力 [4] - 头部厂商研发投入占比攀升至12%-15%,远超传统硬件创新周期 [4] - 行业面临硬件创新枯竭、用户换机周期拉长至51个月的困境,集体押注AI [5] 技术演进 - AI手机需具备端侧大模型算力、系统级AI融合、场景化主动服务等特征,与早期仅搭载语音助手或美颜算法的「伪AI手机」不同 [8] - AI在手机中的表现类似于自动驾驶技术在新能源汽车上的应用落地,分为辅助驾驶和高阶辅助驾驶 [9] - 影像革命从传统比拼主摄范围转向AI驱动的视频创作,涉及芯片、算法、光学重构等全新技术方案体系 [10] - 交互升级体现在智能体的任务调度与复杂处理,如荣耀Magic7的「YOYO智能体」可全流程执行购买咖啡等任务 [10] 厂商动态 - OPPO Find X8系列推出AI一键闪记功能,荣耀x70i具备AI拍照聚焦、任意门等功能,华为畅享80主打AI通话 [2] - vivo X200系列搭载「蓝心大模型」,夜景动态范围提升3倍,OPPO Find系列采用「AI导演模式」自动剪辑15秒短视频 [10] - 华为通过鸿蒙系统与麒麟芯片的软硬协同实现预判能力,如通勤时自动预加载导航App [11] - 苹果首次披露「Apple Intelligence」体系,将大模型能力深度嵌入iOS 18,支持自然语言调用跨应用服务 [13] 硬件与生态 - 2025年Q1智能硬件AI芯片出货量同比激增420%,未硬件AI化的机型均价同比下跌12% [16] - 高通骁龙8 Gen4预留「AI算力池」,华为向第三方开放「盘古大模型」接口,吸引超2000家应用接入鸿蒙生态 [17] - 联发科天玑9400通过NPU能效优化,AI摄影功耗下降80%,荣耀Magic7系列搭载专业通信芯片HONOR C2,弱网信号提升20% [16] 竞争格局 - 苹果坚持自研和本地化合作,端侧闭环,但被批评在AI方向过于保守 [17][19] - 华为主打端云协同,通过自主研发芯片与云端盘古大模型处理复杂任务 [20] - 小米、OV、荣耀为代表的开放派拥抱第三方大模型,构建「智能体商店」生态 [20] - 华为因鲲鹏、异腾等算力平台及20%的研发投入强度,被认为最有机会领跑AI手机市场 [22] 未来挑战 - 厂商需在算力、生态和场景的平衡中获得优势,仅聚焦传统场景将陷入同质化泥潭 [22] - 未来5年无法构建AI原生能力的品牌可能被动退场 [22] - AI手机是否是终极命题仍存疑,未来智能终端设备形态可能颠覆现有手机概念 [23]
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
机器之心· 2025-05-07 00:33
核心观点 - Mixture-of-Experts(MoE)在推理时仅激活每个token所需的一小部分专家,凭借稀疏激活特点成为当前LLM主流架构,但整体参数规模仍大于同等性能的Dense模型,在显存资源受限的端侧部署场景面临挑战 [1] - 现有专家卸载(Expert Offloading)方案存在两大缺陷:频繁加载不同专家导致显著推理延迟,批量解码场景可能需加载整层所有专家加剧显存压力 [11] - 研究人员提出Mixture-of-Lookup-Experts(MoLE),通过将专家输入改为embedding token并采用查找表替代矩阵运算,从根本上规避频繁加载开销 [5][6] 技术原理 - MoLE核心思想是预先计算所有可能的输入-输出对应关系并存储为查找表,用简单查找操作代替矩阵运算,需满足专家模块输入来自离散有限集合且检索过程不依赖密集计算 [5] - embedding token天然具备离散有限特性,数量与词表大小一致,可通过token ID直接寻址,满足查找表构建要求 [6] - 训练阶段MoLE与标准MoE有三点区别:输入调整为embedding token、激活所有路由专家、仅使用语言建模损失 [8][9][10] 推理优化 - 推理前MoLE通过预构建查找表完成专家模块重参数化,以embedding层权重矩阵作为专家输入计算完整映射集合 [15] - 查找表构建完成后删除原始路由专家模块,存储在下层设备中,推理时根据token ID直接检索专家输出 [16] - MoLE推理时仅保留共享专家模块,计算量与Dense模型相当,传输开销比MoE减少数个量级,存储需求与单个专家模块同数量级 [17] 实验验证 - 在Pile数据集100B-token子集上训练160M/410M/1B参数模型,控制MoE和MoLE训练参数量相等 [20] - 相同条件下MoLE性能与MoE相当且显著优于Dense,传输开销减少千倍以上 [21] - V100评测显示MoLE推理延迟与Dense基本一致,批量解码场景下延迟稳定,显著优于MoE [22] 性能分析 - 专家数量提升时模型性能同步提升,但专家隐层维度增大到一定程度后性能受限于查找表固定大小达到饱和 [25][26] - 消融实验证实MoLE训练无需辅助损失,查找表可压缩至3-bit精度(如NF3格式)而性能基本不变 [24][27] - MoLE通过激活所有专家弥补输入缺乏上下文信息的缺陷,共享专家和路由保留上下文理解能力 [26][27]
智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!
量子位· 2025-04-24 10:29
核心观点 - 端侧大模型在汽车智能座舱领域实现突破性进展,面壁智能的cpmGO产品以纯端侧部署、高效低成本、全场景覆盖等特性刷新行业纪录 [4][7][10] - 行业正从云端依赖转向端云协同,端侧大模型凭借隐私安全、即时响应、弱网稳定等优势成为智能汽车"数字脑干" [38][41][48] - 汽车智能化进入"效能比"竞争阶段,端侧方案有效解决算力内卷和云端服务高成本痛点 [42][43][44] 产品技术 - cpmGO是行业首个纯端侧大模型驱动的智能助手,具备91%执行准确率、毫秒级响应、100%数据不离车等特性 [10][27][30] - 采用自研MiniCPM模型,尺寸不足1B-8B却实现GPT-4V级别效果,通过知识密度压缩技术平衡性能与功耗 [7][28][37] - 整合多模态感知(视觉/语音/GUI)和主动服务Agent,实现从环境感知到意图执行的端到端闭环,动作准确率超91% [30][33][36] - 纯端侧设计支持隧道/山区等弱网环境全功能运行,解决云端方案87%失效率的行业痛点 [29][42][44] 行业突破 - 从研发到量产仅用10个月,打破汽车行业按年计算的传统周期 [3][4][14] - 与十余家芯片厂商(高通/英特尔/英伟达等)深度适配,建立端侧开发生态 [10][40] - 已落地长安马自达/上海大众/长城等整车厂及德赛西威等Tier1厂商 [13][38] - 与英特尔联合发布首个车载GUI智能体,与中科创达共建AI原生操作系统 [38][40] 趋势洞察 - 大模型知识密度每3.3个月翻番,同等性能下参数每100天减半,推动端侧部署加速 [39] - 车机芯片快速适配Transformer架构,推理速度持续提升支撑端侧进化 [39][41] - 端侧模型将取代云端成为任务分发的"第一大脑",推动汽车向"机器人"形态演进 [38][48] - 行业正从算力竞赛转向效能竞争,端侧方案可降低整车5%-8%智能化成本 [42][43]