公司AI战略与模型发布 - 小米于2025年12月17日举办“人车家全生态合作伙伴大会”,前DeepSeek核心成员罗福莉首次公开演讲,标志着公司AI研发走向“正规军化”和“极客化”[6] - 公司发布了面向智能体的新一代基座模型MiMo-V2-Flash,并已开源所有模型权重、技术报告,并提供API和体验Web[40] - 罗福莉阐述了公司的AGI愿景,认为真正的智能需从交互中产生,最终目标是打造一个能推演世界运作逻辑、具备物理一致性的虚拟宇宙,而不仅仅是语言程序[6][42] 模型MiMo-V2-Flash核心特点 - 模型采用MoE架构,总参数达3090亿,但激活参数仅为150亿,通过MTP技术实现高效推理,生成速度达150 tokens/秒,带来约2.5倍加速[7][32] - 模型采用创新的Hybrid SWA注意力机制,锁定128 tokens的“神奇窗口”,支持256K长上下文,并固定KV缓存以降低硬件压力,在代码生成上刷新了SOTA[10] - 在落地层面追求高性价比,后训练阶段采用MOPD技术,用极低计算量(不到标准流程1/50)复刻教师模型性能,旨在降低大规模部署成本[10] 模型性能与成本优势 - 在代码能力和智能体能力上,该模型在全球开源模型评估榜单中进入Top 1-2行列,大部分评估基准超过或与总参数量为其2-3倍的DeepSeek-V3、Kimi、Qwen等模型相当[24] - 在价格与速度的权衡中,该模型定位为低成本、高速度,其推理速度比DeepSeek-V3.2快约3倍,而推理成本比综合性能相当的Gemini 2.5 Pro便宜20倍[27] 技术创新细节 - 模型架构围绕“极致推理效率”设计,采用Hybrid Attention结构,其中Sliding Window Attention与Full Attention的比例约为5:1,以兼顾性能并适配主流推理框架[29] - 深度挖掘MTP技术潜力,在训练和微调中加入MTP层以提升基座潜能,最终推理时使用三层MTP进行加速并行Token验证,实现2.2到2.6倍的推理加速[31][32] - 提出MOPD训练范式,利用稠密的令牌级奖励进行监督学习,可高效将各领域专家能力蒸馏到学生模型上,并尝试通过学生模型自我迭代实现持续提升[34][36] 对AI发展路径的思考 - 从生物进化视角看,智能发展遵循从控制身体与环境互动、到强化学习、再到大脑模拟未来、最后掌握语言的路径,而当前大模型的发展是“倒叙”,先掌握了语言[16][19] - 大模型通过海量文本的下一词预测学习,本质上是压缩了人类数十亿年对世界的认知同构,解码了人类思维在文本空间的投影,这是一种自顶向下的捷径[19] - 公司认为AI进化的下一个起点是构建物理模型,让智能体具备从“回答问题”到“完成任务”的能力,这需要统一的全模态感知能力和对物理规律的理解[40][42] 现状与挑战 - 尽管模型追求高效推理,但其150亿的激活参数对当前旗舰手机等移动设备而言依然过高,端侧AI的舒适区仍停留在30亿到70亿参数之间[11] - 模型当前的“高效推理”更多指在云端数据中心实现高吞吐量,对用户终端而言仍是一个重度依赖网络的“云端模型”,并未打破端侧AI的算力天花板[11] - 公司旨在通过高效推理与智能体技术,推动AI从“语言交互”跨越到“物理世界”以赋能“人车家全生态”,但这一理想仍在路上,现有硬件尚难完全支撑[9]
“雷军的AI秘密武器”罗福莉首秀:详解小米AGI之路