Workflow
端侧模型
icon
搜索文档
1年涨五倍,被苹果看上的“模型瘦身”公司靠谱吗?
虎嗅· 2025-09-02 05:21
公司背景与融资情况 - Multiverse Computing成立于2019年 最初聚焦量子计算软件解决金融领域投资组合优化和风险管理问题[5] - 公司完成5轮融资 2024年3月A轮融资2500万欧元 一年多后B轮融资达1.89亿欧元 估值从1.08亿美元涨至5亿美元 一年增长5倍 成为西班牙最大AI初创公司之一[2][4][6] - 团队40%成员拥有博士学位 核心成员横跨金融 量子物理与科技创业三大领域 CEO恩里克拥有数学 计算机 医学博士与MBA背景 曾任西班牙Unnim银行副CEO[5] 技术突破与产品发布 - 核心技术CompactifAI采用量子物理张量网络方法 能将大模型体积压缩80-95% 准确率仅下降2-3个百分点[8][11] - 2025年8月发布两款超小模型:SuperFly(苍蝇脑)基于1.35亿参数SmolLM模型压缩至9400万参数 ChickBrain(小鸡脑)将Llama 3.1 8B模型压缩至3.2B参数(压缩率60%)[12][13] - 压缩后模型推理速度提升4-12倍 推理成本降低50-80% 在AWS云服务上每百万tokens处理费用从0.14美元降至0.10美元 节省30%成本[16][18] 商业应用与合作伙伴 - 提供三种商业服务模式:AWS API访问 私有部署许可以及通过服务提供商交付压缩模型[16] - 主要客户为大型互联网和软件企业AI团队 应用于客服聊天机器人 代码自动补全和文本分析等场景[17] - 与苹果 三星 Sony HP等硬件巨头洽谈合作 计划将超小模型嵌入下一代终端设备 契合苹果轻量化本地模型战略[19] 行业竞争与市场定位 - 2024年起科技巨头纷纷布局小模型:Meta发布13亿参数LLaMA微型模型 Google推出2亿-7亿参数Gemma 微软Phi系列用14亿参数模型在数学编码任务超越50倍体积大模型[19] - AI推理优化成为创投圈新竞技场 初创公司Neural Magic Deci OctoML等聚焦模型加速和自动选型赛道[20] - 公司技术壁垒面临挑战 端侧模型需要配合设备计算资源 能耗和发热等工程化问题 且极度依赖原有模型能力[21][23] 技术原理与性能表现 - CompactifAI采用张量网络方法 通过张量分解和矩阵低秩近似重构参数逻辑 实现高维压缩并保留几乎所有信息[8][10] - 压缩后模型可在PC 手机 汽车等设备运行 将原需8张A100 GPU运行的LLM压缩至1-2张GPU甚至CPU上实时推理[16][18] - 已发布多个压缩模型版本包括Llama 4 70B精简版Llama 4 Scout Slim以及Llama 3系列和Mistral小模型精简版[11]
面壁智能成立汽车业务线,与吉利、长安等车企合作AI座舱
南方都市报· 2025-08-16 13:22
行业趋势 - 大模型商业化落地成为行业关注焦点 终端应用集中在汽车 手机 机器人等领域 [1] - 端侧模型优势及端云协同成为行业共识 越来越多厂商将注意力投向端侧 [2] - 汽车成为端侧智能主战场之一 多模态大模型重新定义智能座舱 实现从被动响应转向主动智能 [5] 公司战略 - 面壁智能成立一级组织汽车业务线 旨在实现压强式突破 让MiniCPM端侧模型应用到更多汽车 [1] - 公司2024年初定义并开拓端侧智能市场 推出MiniCPM系列端侧模型 形成基座 多模态 全模态的完整谱系 [1] - 2024年6月开源两款最快速MiniCPM 4.0模型 8月接力开源MiniCPM-V4.0 多模态能力可流畅运行于手机 [1] 技术产品 - MiniCPM端侧模型2.4B参数能力超越Mistral 7B模型 推出多模态代表作V2.5 o2.6等有世界级影响力的模型 [1] - 端侧模型上车使车辆在无网环境下也能体验完整功能 响应迅速且确保隐私安全 [5] - 下半年将有一批端侧模型陆续发布 [1] 商业合作 - 与吉利 大众 长安 长城 广汽等重量级车企开展合作 在AI座舱方面形成特色优势 [5] - 首款量产车型长安马自达MAZDA EZ-60将于本月底上市 搭载面壁MiniCPM端侧模型 [4][5] - 更多车企合作车型将陆续推向新阶段 [5] 竞争格局 - 越来越多创业公司和巨头涌入端侧赛道 市场加速成长 场景丰富分散容众多参与者 [5] - 阶跃星辰联合吉利推出AI智能座舱 实现行业端到端语音大模型首次量产上车 [5]
面壁智能CEO发全员信:成立汽车业务线、让端侧模型更多上“车”
中国经营报· 2025-08-15 14:56
公司战略与组织调整 - 公司于7月下旬进行新一轮组织架构调整 专门成立汽车业务线一级组织 旨在实现压强式突破 将MiniCPM端侧模型应用到更多汽车上 [1] - 公司CEO指出2025年大模型进入中场战事阶段 应用落地集中走向实战 商业化成为关注焦点 [1] - 公司已与吉利 长安马自达 上汽大众 一汽大众 长城 极氪等汽车品牌达成合作 [1] 产品与技术优势 - 公司MiniCPM端侧系列模型累计下载量超过1300万次 [2] - 端侧模型部署在终端设备运行 不需要依赖云端服务器处理推理任务 [2] - 端侧模型为汽车智能座舱提供意图理解能力 结合舱内外感知能力 实现从被动响应向主动智能转变 [3] - 端侧模型上车可使车辆在无网络环境下保持完整功能体验 确保响应迅速和隐私安全 [3] 行业竞争格局 - 科技大厂纷纷布局小尺寸模型赛道 包括阿里通义千问开源多款小尺寸模型 腾讯混元开源0.5B到7B端侧系列模型 OpenAI开源包括较小尺寸GPT-oss-20B在内的两款模型 [2] - 百度 科大讯飞 商汤 腾讯 阿里巴巴等科技企业都在向汽车端布局 [4] - 行业专家指出汽车终端是大模型必争之地 AI大模型具有通用性 可通过语音功能实现与汽车中控系统交互 未来可能与自动驾驶融合 [4] 商业化进展 - 搭载公司端侧模型的首款量产车型长安马自达新能源车EZ-60将于8月底上市 [1] - 公司在政法领域延伸模型服务 助力北京市司法局研发行政复议垂直大模型上线运行 覆盖从立案到结案全流程 被列入北京数字服务十大标杆成果 [4] 战略定位与竞争优势 - 公司较早锚定小参数模型和端侧模型的战略方向 [2] - 公司认为更多创业公司和巨头涌入端侧赛道印证了其选择赛道的正确性与前景 [2] - 公司核心压力在于需要在新入局者追赶技术优势时 更快建立商业优势并转化为商业成功 [2]
面壁李大海谈端侧模型竞争:元年开启,巨头涌入印证前景无限可能
环球网· 2025-08-15 07:48
行业趋势与战略判断 - 公司CEO提出2025年将迎来"端侧元年" 标志着机遇大门开启但市场格局尚在成形初期[1] - 端侧模型优势及"端云协同"成为行业共识 越来越多大模型厂商开始关注端侧领域[1] - 行业呈现多元化发展态势 除公司外阿里通义千问 腾讯混元开源多款小尺寸模型 OpenAI首次开源两款模型包括尺寸较小的GPT-oss-20B[1] 公司竞争定位与战略 - 公司认为压力并非来自友商竞争 更多创业公司和巨头涌入印证了赛道正确性与前景无限可能[1] - 公司核心压力在于将技术优势转化为商业优势 需要极致追求技术与用户价值的平衡[1] - 公司确立"高效"为核心竞争力 追求"同等性能我最小 同等参数我最强"的端侧模型方案[1] 技术突破与行业贡献 - 研究团队发现并提出描述大模型知识密度的"密度法则(Densing Law)" 在大模型规模法则遇到挑战时开辟新的认知视角[1] - 2024年初面壁小钢炮MiniCPM端侧模型诞生 以2.4B参数能力超越Mistral 7B模型实现以小博大[2] - 系列端侧模型累计下载量超过1300万 与高通 NVIDIA MTK Intel 华为 瑞芯微电子等国内外主流芯片厂商方案全面适配[2] 商业化进展与落地应用 - MiniCPM模型作为"端侧大脑"核心在汽车 手机 PC 家居等终端领域成功落地[2] - 在智能化汽车的新一代人机交互(AI座舱)方面形成特色优势[2] - 2024年7月下旬公司进行新一轮组织升级 专门成立一级组织"汽车业务线"通过压强式突破推动MiniCPM模型广泛上车[2]
面壁智能成立汽车业务线,首款MiniCPM车型月底上市
每日经济新闻· 2025-08-15 07:45
公司动态 - 面壁智能CEO李大海发出全员信,披露公司7月下旬进行了新一轮组织升级,专门成立一级组织——汽车业务线 [1] - 公司已与吉利、大众、长安、长城、广汽等车企开展合作 [1] - 搭载面壁MiniCPM端侧模型的首款量产车型——长安马自达战略级新能源车MAZDA EZ-60预计本月底上市 [1] 行业合作 - 面壁智能与多家知名车企建立合作关系,包括吉利、大众、长安、长城、广汽 [1] - 公司技术将首次应用于量产新能源车型MAZDA EZ-60 [1]
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
量子位· 2025-08-07 00:56
核心观点 - Qwen团队最新发布两款4B端侧模型Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,在性能上实现显著突破,尤其在小模型尺寸下超越部分大模型表现 [2][3][5][7] - 两款模型分别针对通用任务和专家级推理任务优化,支持256K长上下文并具备端侧部署优势 [7][8][16][17][24] - Qwen3-4B-Thinking-2507在AIME25数学测评中得分81.3,超越Gemini 2.5 Pro和Claude 4 Opus [4][5][23] 模型性能突破 Qwen3-4B-Instruct-2507 - 通用能力超越闭源模型GPT-4.1-nano,与30B MoE模型Qwen3-30B-A3B性能接近但参数量仅其1/7.5 [13][14][15] - 关键指标:MMLU-Redux得分84.2(vs GPT-4.1-nano 80.2),GPQA得分62.0(vs 50.3),LiveBench 20241125得分63.0(vs 41.5) [18] - 增强多语言覆盖和长文本理解能力,支持扩展至1M上下文 [17] Qwen3-4B-Thinking-2507 - 专攻复杂推理任务,AIME25得分81.3超越前代65.6分及Qwen3-30B-A3B的70.9分 [23][25] - 推理性能提升显著:HMMT25得分55.5(vs 前代42.1),ZebraLogic得分80.2(vs 35.2) [18][25] - 在Agent任务中全面碾压前代,如TAU1-Retail得分66.1(vs 33.9),TAU2-Airline得分58.0(vs 28.0) [25] 技术特性与行业影响 - 端侧适配性:支持树莓派等设备,提供GGUF量化版本和llama.cpp部署方案 [2][8][27][28] - 模型效率:4B密集模型性能接近30B MoE模型,重新定义小模型能力边界 [11][15][23] - 开源策略:通过抱抱脸和魔搭社区提供模型下载,与OpenAI同期开源形成竞争 [26][34][35] 开发者支持 - 部署工具链完整:支持Ollama、LMStudio、MLX-LM等主流框架 [27] - 优化建议:针对内存限制设备推荐缩短上下文长度,复杂推理任务建议使用>131K词元 [28][29] - Prompt设计规范:提供数学题逐步推理和选择题JSON结构化回答模板 [31] 行业动态 - 发布时间点卡位OpenAI开源窗口,引发开发者社区高度关注 [34][35] - 性能对比:Qwen3-4B系列在多项基准测试中优于GPT-4.1-nano和Claude 4 Opus [18][25] - 市场期待:用户呼吁Qwen团队加速发布Qwen3-8B系列模型 [31][33]
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 06:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 09:31
模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 07:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 08:03
端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型,实现行业首个系统级上下文稀疏语言模型创新,稀疏度达5%,开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本,8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍,极限场景下最高220倍加速[5] - 在128K长文本场景下,8B版本仅需Qwen3-8B 1/4的缓存存储空间,大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B,超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理,性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制",根据任务自动切换稀疏/稠密注意力模式,实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层,稀疏度从行业40%-50%降至5%,计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升,BitCPM量化算法实现4-bit量化,模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略,验证成本下降90%,处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配,支持多种开源框架部署[18] - 与DeepSeek形成技术互补,面壁专注端侧稀疏化方案,DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律",认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新,可能重塑应用生态[19]