端侧大模型
搜索文档
功能推陈出新、高端占比增长—— 以旧换新拉动手机消费升级
经济日报· 2025-06-25 21:53
消费品以旧换新政策效果 - 截至5月31日消费品以旧换新五大品类带动销售额1.1万亿元 发放补贴约1.75亿份 [1] - 5352.9万名消费者购买手机等数码产品5662.9万件 [1] - 前4个月国内市场手机出货量9470.8万部同比增长3.5% 其中5G手机8093.2万部同比增长5.6%占比85.5% [1] 智能手机市场特征 - 行业呈现明显头部特征 前五大品牌市场集中度进一步提升 [1] - 中高端市场占比增长 低端产品市场占比下降 出现消费升级 [1] - 智能手机用户平均换机周期从18个月延长至约40个月 设备更新需求进入释放窗口期 [2] 智能手机销量增长驱动因素 - 手机首次纳入国家补贴政策范围 对6000元以下手机按售价15%给予最高500元补贴 [2] - 厂商发布搭载端侧大模型的AI手机 AI功能和跨终端交互成为重要卖点 [2] - 折叠屏、超薄屏手机凭借便携性和趣味玩法提供新选择 [2] - 经济环境改善注入消费动能 厂商优化库存水平和营销创新推动终端销售增长 [2] 行业技术发展趋势 - AI技术加速渗透 主流厂商构建AI大模型体系 实现全链路优化 [3] - AI技术重构用户体验 涵盖影像、语音交互、个性化服务等场景 [3] - 高端市场格局可能变化 国产手机或缩小与苹果的差距 [3] - 产品创新围绕电池技术突破、AI融合、影像功能升级、折叠屏发展等核心痛点 [4] 市场前景展望 - 中国智能手机市场处于技术迭代与结构升级关键阶段 [4] - 政策红利、消费周期与技术创新多重叠加 推动行业向更具价值深度方向演进 [4]
小米小爱同学:资源受限下,实现端侧大模型的高性能推理
AI前线· 2025-06-25 04:15
端侧大模型工程化挑战与解决方案 - 端侧部署面临模型体积、推理时延、功耗和更新机制等极高要求,需融合系统优化、模型压缩和软硬件协同[1] - 小米团队通过自研推理框架实现180 tokens/s实时推理性能,采用LoRA插件化+共享基座模型支持多业务复用[1] - 未来突破将依赖面向大模型优化的硬件能力提升和模型架构演进如Linear Attention[1] 商业化部署核心技术门槛 - 端侧设备资源限制导致可部署模型参数量难以超过4B,低比特量化造成效果损失[3] - 大模型快速迭代与端侧更新机制滞后形成矛盾,云端更新更灵活[3] - 当前处于技术积累阶段,需等待计算能力提升或模型稳定后进入部署阶段[3] 自研推理框架优化策略 - 动态输入支持通过自动切分输入尺寸提升资源利用率,避免传统padding方式浪费[6] - 投机推理在端侧实现7-10倍decoding加速,推理速度从20+tokens/s提升至200 tokens/s[6] - 量化与指令级优化通过Neon指令集加速CPU操作[7] 业务需求对架构设计的约束 - 语音助手业务链路由感知、理解和满足三阶段串行执行,并发需求较弱[7] - 端侧NPU硬件设计以串行执行为主,multi-batch收益有限[8] - 通过调度和切换机制保障各业务链路在预期时间内完成推理[8] 共享基座架构设计 - 12GB内存手机部署4B模型需近3GB内存,采用共享基座+LoRA插件化实现多业务复用[9] - 运行时动态切换不同业务LoRA模块,实现参数共享+差异定制[10] - 该架构在内存利用率和扩展能力上具有优势[10] 跨芯片平台部署策略 - 框架设计采用模块化、后端解耦思路,抽象通用接口适应不同硬件平台[11] - 大模型优化技术更多针对模型结构特性,与底层硬件绑定程度较浅[11] 性能优化组合策略 - 低比特量化、并行解码、带宽控制等技术可同时组合使用[12] - 优先选择技术价值大、适用面广、无冲突的优化方式[12] - 模块化分层设计使上层调用无需关心底层适配逻辑[12] 未来技术突破方向 - 硬件进步是关键突破点,新一代面向大模型的端侧芯片将大幅增强能力[14][15] - Linear Attention架构可解决Transformer内存随context增长的问题[16] - 多模态任务输入长度增长使传统Transformer面临资源瓶颈[16][17]
端侧小模型跑出大能量:北京AI破壁之路
北京日报客户端· 2025-06-16 08:03
公司战略与定位 - 公司选择避开同质化严重的对话式AI聊天机器人赛道,专注于端侧大模型方向,致力于让智能终端设备具备自主思考能力[3] - 公司发展路径强调高效创新,提出大模型密度定律,认为大模型知识密度每33个月翻一番,模型将变得更小而能力更强[3] - 公司战略核心是“以小博大”,通过更小的参数、更高的效率、更低的成本实现更好的智能,并做出不做AI聊天机器人、放弃大模型基础设施等重要决策以保持专注[11] 技术突破与产品进展 - 团队于2020年12月发布全球第一个中文开源大模型“CPM”,该项目是中国奠基性大模型“悟道”的前身[1] - 2024年初推出端侧大模型MiniCPM,仅用24亿参数实现了超过百亿参数大模型的性能[4] - 2025年1月发布全球首个达到OpenAI公司GPT-4o水平的端侧多模态大模型MiniCPM-o2,该模型参数量为80亿,能实时流式处理文本、图像、音频和视频信息[5] - 公司发布首个纯端侧超级智能助手,可应用于汽车智能座舱,在无网络环境下也能实现从车外到车内的各种感知并执行任务[7] 商业化落地与合作伙伴 - 公司端侧模型因在安全性、实时性方面的优势,已获得法律、消费电子等行业用户的认可[7] - 2025年上海车展期间,公司与合作伙伴发布了首个纯端侧大模型量产车型[9] - 公司正与长安马自达、上汽大众、长城汽车、华为、联想、高通、联发科技、英特尔等行业标杆企业协作,将端侧模型落地于AI手机、AI个人电脑、智能座舱、智能家居、具身机器人等众多领域[7] - 公司预计到2026年,装有其端侧模型的设备数量将达到2025年的10倍,未来全球400亿的设备终端都有望装上“超级大脑”[9] 行业背景与竞争格局 - 2023年国内生成式AI大模型领域出现“百模大战”,完成备案并上线的模型数量近200个,同时行业出现GPU“一卡难求”的算力告急局面[3] - 2024年初第三方机构公布的国内大模型独角兽排行榜中,多家北京企业赫然在列,显示出创新资源高度集聚的效应[10] - 公司被《麻省理工科技评论》报道为值得关注的四家中国人工智能初创公司之一,其以低成本实现高性能的路径获得认可[11]
速递|逆势狂奔!面壁智能再获数亿元融资,端侧大模型成资本新宠
搜狐财经· 2025-05-21 11:27
融资情况 - 公司已完成新一轮数亿元融资,投资方包括洪泰基金、国中资本、清控金信和茅台基金 [2] - 在13个月内连续完成3轮数亿元融资,成为国内大模型领域融资节奏最快的企业之一 [2] - 2024年4月融资由春华创投领投,北京市人工智能产业投资基金、知乎跟投,用于加速端侧大模型研发和智能座舱场景落地 [3] - 2024年12月融资由龙芯创投、鼎晖百孚、中关村科学城基金、赛富投资基金领投,北京市人工智能产业投资基金、清科创投跟投,用于深化与芯片厂商合作 [3] - 2025年5月最新一轮融资用于构建"端侧大脑"技术壁垒,推进千行百业规模化应用 [4] 技术优势 - 公司以"知识密度"替代参数堆砌,聚焦端侧模型研发 [4] - 专注于打造同等参数下性能更高、成本更低、功耗更低、速度更快的高效大模型 [4] - 通过MiniCPM系列实现端侧GPT-4o级能力,总下载量破千万次 [4] - 模型压缩技术降低75%推理成本 [4] - 2025年1月发布首个端侧全模态模型面壁小钢炮MiniCPM-o 2.6,多项关键能力为业界首创 [5] 商业化进展 - 端侧模型优势与智能座舱场景契合,与长安汽车、上汽大众、长城汽车等车企合作 [5] - 首款搭载端侧模型MAZDA EZ-60已于2025年4月上市,实现纯本地化语音/视觉/车控交互 [5] - 与高通、英特尔、联发科技等企业深度合作,推动端侧原生智能座舱落地 [6] - AI能力已应用到法律、教育等领域 [6] 发展战略 - 新一轮融资将用于加深技术壁垒,持续推动大模型商业化进程 [3] - 致力于为AGI时代的到来贡献力量 [3] - 目标是为大模型行业赋能提供充足供给 [2]
端侧大模型加速破圈!面壁智能获新一轮数亿元融资
机器人圈· 2025-05-21 09:40
面壁智能融资动态 - 公司近期完成新一轮数亿元融资 由洪泰基金、国中资本、清控金信和茅台基金联合投资 资金将用于构筑高效大模型技术壁垒和加速行业生态拓展 [1] - 2024年累计完成三笔数亿元级融资 4月由春华创投领投 12月由龙芯创投、鼎晖百孚等联合领投 北京市人工智能产业投资基金持续跟投 [1] 端侧大模型技术突破 - 公司定位高效低耗大模型研发 2025年1月发布全球首个端侧全模态模型MiniCPM-o 2.6 具备实时多模态交互能力 技术指标达国际领先水平 [2] - MiniCPM系列实现端侧ChatGPT/GPT-4V/GPT-4o功能 获2024年Hugging Face最多下载中国大模型称号 全平台累计下载量突破1000万次 [2] 机器人行业动态 - 2024年机器人上市公司年报显示行业分化加剧 部分企业业绩承压 但AI技术融合带来新机遇 [5] - 人形机器人领域呈现爆发态势 量产推进引发价格战 越疆科技港股上市后市值增长三倍 [5] - 学术研究取得多项进展 包括微纳感知赋能具身智能、仿生机器人地形适应技术等 [5][6] 人工智能前沿研究 - 院士专家提出行为智能与产品智能双驱动模型 强调机构智能技术对变形机器人落地的关键作用 [6] - 机器人创新设计聚焦六大关键技术 智能制造协同成为产业新动能 [6]
面壁智能完成新一轮数亿元融资 重点布局端侧大模型
中国经营报· 2025-05-21 08:16
融资动态 - 面壁智能完成新一轮数亿元融资 由洪泰基金、国中资本、清控金信和茅台基金联合投资 [1] - 公司自2024年以来已完成三轮融资 上一轮融资于2024年12月完成 规模同样为数亿元 [1] - CEO表示本轮融资将加深技术壁垒并推动大模型商业化进程 [1] 公司背景 - 公司创立于2022年8月 由清华大学NLP实验室孵化 联合创始人包括清华大学计算机系副教授刘知远 [1] - 采用"以小博大"策略 通过低成本、小参数实现高效率 区别于行业主流做大参数的路径 [2] - 较早明确"端侧大模型"战略方向 专注终端设备本地运行的AI模型 [2] 行业趋势 - 端侧大模型成为AI行业新增长引擎 预计2025年加速渗透消费电子和工业领域 [3] - 中国端侧AI市场规模预计从2023年千亿级增长至2028年1.9万亿元 [4] - 行业出现路径分化 部分企业转向垂直领域如医疗AI或B端服务 [2] 技术特点 - 端侧大模型通过轻量化技术压缩参数 实现设备端独立计算 解决云端部署的延迟和隐私问题 [2][4] - 推出80亿参数的全模态模型MiniCPM-o 2.6 具备图像理解、语音和多模态交互能力 [5] - 投资方认为端侧最能体现高知识密度 未来人机交互将向多模态融合发展 [3] 商业化进展 - MiniCPM系列平台累计下载量突破1000万 [5] - 在汽车领域与长安马自达等车企合作 首款量产车型MAZDA EZ-60已上市 [5][6] - 司法领域落地全国首个审判垂直领域大模型 辅助立案29.1万件 生成文书1.16万份 [6] - 教育领域与清华合作推出AI学生成长助手"清小搭" [6]
面壁智能完成新一轮融资 加快“端侧大脑”应用千行百业
证券日报· 2025-05-21 07:42
融资情况 - 公司完成新一轮数亿元融资 由洪泰基金、国中资本、清控金信和茅台基金联合投资 [1] - 2024年以来已顺利完成3轮融资 本轮融资将用于构筑高效大模型技术、产品壁垒及加速行业赋能 [1] 技术发展 - 公司以"高效"为第一性原理 专注于打造同等参数下性能更高、成本更低、功耗更低、速度更快的高效大模型 [1] - 已形成全模态、多模态与基座模型组成的完整矩阵 持续刷新端侧大模型能力边界 [1] - 2025年1月发布首个端侧全模态模型"小钢炮"MiniCPM-o 2.6 以8B规模实现全模态实时交互 首创"持续看、实时听、自然说"功能 [2] - MiniCPM系列全平台下载量累计破1000万 被评为2024年Hugging Face最多下载、最受欢迎中国大模型 [2] 商业化进展 - 发布"小钢炮超级助手cpmGO" 是全球首个落地车端的纯端侧智能助手 在车规级SoC上本地完成语音、视觉、车控推理 [3] - 2025年4月首款搭载端侧模型的量产车型长安马自达MAZDA EZ-60全球首秀 标志端侧大模型在汽车座舱领域商业化落地 [3] - 与多家顶级车企完成多款车型定点 并与高通、英特尔等标杆企业深度合作 推动端侧原生智能座舱广泛落地 [3] 行业趋势 - 2025年全球人工智能竞赛进入白热化 以"高效、低耗"为代表的创新路径开始引领全球AI变革 [1] - 大模型已进入行业赋能的加速时刻 需要技术、市场具备前沿性判断 并为行业赋能提供充足供给 [3]
面壁智能获新一轮数亿元融资:端侧大模型技术与商业化持续突破
格隆汇· 2025-05-21 05:19
融资情况 - 公司成功完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资[1] - 2024年起已完成三轮数亿元级别融资:2024年4月由春华创投领投,2024年12月由龙芯创投等联合领投,2025年5月完成最新一轮融资[1] - 公司成为市场上极少数能持续顺利融资的企业,彰显市场对其"端侧路线"战略的高度认可[1] 商业化进展 - 在汽车行业加速落地,发布全球首个车端纯端侧智能助手"小钢炮超级助手cpmGO",实现本地处理语音、视觉、车控推理[2] - 2025年4月与长安马自达合作推出MAZDA EZ-60车型,标志端侧大模型在汽车座舱领域商业化进入新阶段[2] - 已与长安汽车、上汽大众、长城汽车等头部车企达成多款车型定点合作,并与高通、英特尔等产业链企业深度协同[2] 垂直领域应用 - 法律领域参与最高人民法院"法信法律基座大模型"研发,助力深圳中院上线"司法审判垂直大模型",试运行以来辅助立案29.1万件、生成文书初稿1.16万份[3] - 教育领域与清华大学合作推出AI伴学助手"清小搭",学生结业率超40%,为传统MOOC的10倍,计划推广"全自动课堂MAIC"模式[3] 技术研发 - MiniCPM系列模型表现突出:MiniCPM-o 2.6以80亿参数实现全模态实时交互,MiniCPM-V 2.6以80亿参数实现200亿参数以下多模态理解能力领先[4] - MiniCPM系列平台累计下载量突破1000万次,在Hugging Face平台获"最多下载、最受欢迎中国大模型"称号[4] - 公司端侧模型在图像理解、语音处理等领域达到国际领先水平,推动端侧智能技术发展[4]
面壁智能完成新一轮亿级融资
搜狐财经· 2025-05-21 02:37
融资动态 - 公司完成新一轮数亿元融资 由洪泰基金、国中资本、清控金信和茅台基金联合投资 [1] - 2024年以来已连续完成3轮融资 显示资本市场对其技术路线的高度认可 [1] 技术突破 - 2024年9月发布MiniCPM 3 0模型 4B参数性能超越GPT-3 5 [1] - 2024年8月发布MiniCPM-V 6模型 8B参数实现20B以下多模态理解3项SOTA 达到GPT-4V水平 [1] - 2025年1月发布MiniCPM-o 2 6模型 8B规模实现全模态实时交互 [1] - 形成全模态/多模态/基座模型完整矩阵 持续刷新端侧大模型能力边界 [1] 市场表现 - MiniCPM系列获评2024年Hugging Face"最多下载、最受欢迎中国大模型" [1] - 平台累计下载量突破1000万次 [1] 商业化落地 - 推出全球首个车端纯端侧智能助手"小钢炮超级助手cpmGO" [2] - 参与研发最高人民法院"法信法律基座大模型" [2] - 与清华大学合作推出AI学生成长助手"清小搭" 覆盖全校本科生 [2] 战略规划 - 本轮融资将用于构筑技术/产品壁垒 加速行业赋能与生态拓展 [2] - 推动"端侧大脑"在千行百业规模化应用 [2]
手机流畅处理128K长文本,vivo端侧新算法突破内存限制 | ACL 2025
量子位· 2025-05-20 05:12
核心观点 - vivo AI研究院推出EdgeInfinite算法 专为端侧设备设计 可在低于10GB GPU内存的设备上处理长达128K tokens的输入 显著提升长文本处理效率 [1][4] - 该算法通过可训练门控记忆模块集成记忆压缩技术 与原生Transformer架构完全兼容 仅需微调少量参数即可实现高效推理 [4] - 在LongBench数据集测试中 该算法在多文档问答和少样本学习任务上优于其他KV Cache优化方法 部分任务表现超过完整KV Cache的原始模型 [14][15] 架构设计 - 采用结合ROPE的分块注意力模块 将文本切分为片段并加入位置编码 提升小段内token间位置关系计算的准确性 [7][8] - 引入记忆压缩与解压缩模块 将历史KV状态分块存储为固定长度记忆块 在计算注意力时解压缩以近似长序列注意力计算 [7][9] - 集成自适应的门控记忆模块 结合基于记忆和局部片段的注意力 增强长距离依赖处理能力 训练时仅需微调该模块 [7][10] 性能表现 - 在Single-Document QA任务中取得31.67分 显著高于FullKV的21.93分和其他对比方法(SnapKV 22.51分, PyramidKV 22.25分) [15] - 在Multi-Document QA任务中达到26.08分 优于FullKV的26.15分 且远高于StreamingLLM的19.13分 [15] - 少样本学习任务平均得分47.89分 大幅超过FullKV的39.37分 其中TriviaQA任务达79.03分(FullKV为51.98分) [15] - 整体综合得分25.71分 高于FullKV的24.20分及其他对比方法(SnapKV 23.88分, PyramidKV 23.81分) [15] 技术优势 - 推理时保留sink token(序列起始token)和window token(序列末尾token)的kv cache 消融实验显示移除任一token会导致性能显著下降(如移除sink token后综合得分降至23.17分) [13][16][17] - 采用长短文本任务动态路由机制 可灵活结合基础模型 在不影响短文本能力的前提下提升长文本处理性能 [13] - 相比原始BlueLM-3B模型 首词出词时间更短且内存占用更少 内存消耗随文本长度增加保持稳定 [17]