“雷军的AI秘密武器”罗福莉首秀:详解小米AGI之路

公司战略与愿景 - 小米于2025年12月17日举办“人车家全生态合作伙伴大会”,标志着其AI研发走向“正规军化”和“极客化”的新阶段[2] - 公司新任MiMo团队负责人罗福莉(前DeepSeek核心成员)提出了新的AGI梦想,认为真正的智能需从交互中产生,目标是“推演整个世界的运作逻辑,打造一个虚拟宇宙”,而不仅仅是打造程序[2] - 该团队的核心职责是主导大模型研发,通过高效推理与智能体技术,推动AI从“语言交互”跨越到“物理世界”,以赋能小米的“人车家全生态”战略[7] 模型发布与核心特点 - 公司开源了新一代面向智能体的基座模型MiMo-V2-Flash,该模型总参数为309B,但通过MoE架构仅激活15B参数[3][11] - 模型具备高效推理能力,结合MTP技术,生成速度达到150 tokens/秒,带来约2.5倍加速,旨在解决车机、助手等端侧交互对延迟的敏感问题[3] - 模型采用创新的Hybrid SWA长文本架构,支持256K长上下文,并通过固定KV缓存降低硬件压力,在代码生成上刷新了SOTA[4] - 模型追求极高的性价比,后训练阶段采用MOPD技术,用极低的计算量(不到标准流程1/50)复刻教师模型性能,旨在降低大规模部署成本[5] 技术架构与性能优势 - 模型架构围绕“极致推理效率”设计,核心创新之一是采用Hybrid Attention结构,其中Sliding Window Attention与Full Attention的比例约为5:1[16][17] - 核心创新之二是挖掘MTP潜力,在推理时使用三层MTP进行加速并行Token验证,实现了2.2到2.6倍的推理加速,单请求吞吐达150~155 Tokens/秒[16][19] - 在性能与成本平衡上,MiMo-V2-Flash相比DeepSeek-V3.2推理速度提升约3倍,相比Gemini 2.5 Pro推理成本低20倍,实现了低成本与高速度[15] - 在公开评估榜单上,该模型的代码和智能体能力已进入全球开源模型Top 1-2行列,性能超过或与总参数量为其2-3倍的DeepSeek-V3、Kimi、Qwen等模型相当[11][12] 训练范式革新 - 公司提出了MOPD训练范式,其核心在于On-Policy,依赖稠密的令牌级奖励进行监督学习,能高效地将各领域专家能力蒸馏到学生模型上[20] - 该范式学习效率极高,通过简短的几十步就能完成能力蒸馏,并且当学生模型超越教师时,可尝试进行自我迭代提升[21] 行业视角与AI发展路径 - 从生物进化视角看,智能发展遵循“控制身体与环境互动→强化学习→模拟未来→掌握语言”的路径,而当前大模型的发展是“倒叙”的,先学会语言,再补齐思考和物理世界模拟能力[8] - 大模型智能首先在语言领域爆发,是因为语言是人类思维与世界认知的“有损压缩”,模型通过降低损失函数的学习过程,本质上是压缩了人类数十亿年对世界的认知同构[9] - 行业下一阶段的关键是让AI从“语言模拟器”转变为能与世界共存的智能体,这需要两大潜能:从“回答问题”到“完成任务”的全模态感知能力,以及构建理解物理规律的“物理模型”[24] - 公司认为,AI进化的下一个起点是打造一个具备物理一致性、时空连贯性的虚拟宇宙,真正的智能是在与环境的交互中“活”出来的,而不仅仅从文本中读取[25] 当前挑战与生态赋能 - 尽管模型追求“极致效率”,但端侧AI硬件目前仍难以支撑,当前旗舰手机端侧模型的舒适区停留在3B到7B参数,MiMo-V2-Flash的15B激活参数对移动设备而言依然过高[7] - 模型目前的“高效推理”更多指在云端数据中心实现高吞吐量,对用户终端而言仍是一个重度依赖网络的“云端模型”,并未打破端侧AI的算力天花板[7] - 公司已为MiMo-V2-Flash开源所有权重,提供技术报告、API及体验Web,开发者可接入Web Coding IDE进行试用[24]