罗福莉首秀前,小米突然发布,代码全球最强,总体媲美DeepSeek-V3.2【附实测】
36氪·2025-12-17 02:51

小米发布并开源MoE大模型MiMo-V2-Flash - 公司于2025小米人车家全生态合作伙伴大会上发布并开源最新MoE大模型MiMo-V2-Flash,总参数3090亿,激活参数150亿 [1] - 该模型专为推理、编码和智能体场景构建,支持256K上下文窗口,支持混合思维模式,允许用户切换模型是“思考”还是即时回答 [3] - 模型能以每秒150个token的速度实现快速推理,定价为每百万输入token 0.7元、每百万输出token 2.1元 [5] - 公司已开源模型所有内容,并向开发者社区SGLang贡献了所有推理代码,API限时免费,用户可在网页端免费体验 [7] 模型性能与基准测试结果 - 基准测试显示,MiMo-V2-Flash的性能基本与DeepSeek-V3.2相当,仅在“人类最后一场考试”和创意文本生成评估ARENA-HARD中略逊色,但时延更小 [3] - 在多个智能体测评基准上,该模型位列全球开源模型前二;代码能力测评超过所有开源模型,比肩闭源模型Claude 4.5 Sonnet,但推理价格仅为其2.5%且生成速度提升至2倍 [3] - 在数学竞赛AIME 2025和科学知识基准GPQA-Diamond中,其表现是开源模型中前二;在软件工程能力的SWE验证与多语言基准测试中,在所有开源模型中位列第一 [40] - 在长上下文评估中,该模型超过了Kimi-K2 Thinking [40] - 在智能体任务中,MiMo-V2-Flash在SWE-Bench Verified中超越所有开源竞争对手,性能接近GPT-5-High;在SWE-Bench多语版本中解决了71.7%的问题 [41] - 在搜索智能体评估方面,MiMo-V2-Flash在BrowseComp上得分为45.4,配合上下文管理可进一步提升至58.3 [42] 技术架构与创新 - 模型采用全局注意力和滑动窗口注意力的1:5混合结构,实证表明滑动窗口注意力在通用任务、长上下文负载和推理方面整体表现优于线性注意力 [46] - 模型提供固定大小的KV缓存,便于与现有的训练和推理基础设施集成 [48] - 通过引入多词元预测训练,提升了基础模型能力,并在推理过程中并行验证多词元预测,实现了实际部署加速 [50] - 多词元预测模块采用稠密前馈网络控制参数量,并使用滑动窗口注意力机制以降低成本,实测3层结构的多词元预测模块可达到2.8-3.6个token的有效接受长度,并实现2.0-2.6倍的推理速度提升 [52] - 模型预训练使用FP8混合精度和原生32K序列长度,使用27万亿token进行训练 [54] - 在后训练阶段,研究人员提出了多教师在线策略蒸馏,该训练只需不到传统监督微调+强化学习流程1/50的计算资源,即可匹配教师模型的峰值表现 [55] 实测功能展示 - 实测显示模型能一键生成功能齐全的HTML网页,例如生成包含商品主图轮播、规格选择等要素的电商页面,以及网页版迷宫闯关小游戏和“圣诞树装饰”交互网页 [9][10] - 模型具备聊天与内容创作能力,例如能用程序员的语气安慰一只失恋的猫,并能生成一部包含深潜记忆提取头盔、真理之环AI伦理防火墙等关键要素的科幻悬疑题材AI短剧剧本 [11][12][17] - 模型能回答硬核科普类知识,例如探讨“大语言模型是否拥有知识”,并能从人类视角分析“要不要吃长生不老药丸”这类哲学问题 [22][24] - 模型具备文学创作能力,例如能根据要求撰写背景设定在1980年代纽约东村的忧郁爱情故事,以及以独居老人一周邮件为核心的非虚构作品 [30][35] 公司战略与投入 - 小米集团合伙人、总裁卢伟冰透露,公司AI大模型业务过去四个季度投入环比增速超50%,目前进展“已超出董事会预期”,并宣布将AI与“现实世界深度结合”列为未来十年核心战略 [57] - 公司正式启动全球人才招募计划,单岗位薪酬上限开至千万元级别,目标“在最短时间内补齐大模型尖端人才缺口” [57] - 近几个月以来,Xiaomi MiMo大模型团队发布数篇论文并开源多个模型 [57]