Workflow
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位·2025-06-17 01:03

模型发布与性能表现 - 国产推理大模型MiniMax-M1开源 引发行业热议[1][2] - 模型在512块H800 GPU上仅用3周完成强化学习训练 算力成本仅53.47万美元(约383.9万元)[3] - 在工具使用和软件工程等复杂任务上超越OpenAI o3和Claude 4 Opus 在多项基准测试中可比或超越DeepSeek-R1、Qwen3等开源模型[4] - 原生支持100万token输入长度(达DeepSeek R1的8倍) 支持8万输出token(超过Gemini 2.5 Pro的6.4万)成为世界最长输出 生成10万token时推理算力仅需DeepSeek R1的25%[8] - 已集成至MiniMax Chat网页版提供在线试玩 支持迷宫生成器等动态可视化演示[6][9] 技术创新与架构设计 - 采用混合注意力架构 每7个Lightning Attention块后接1个传统Softmax Attention块[11][17] - Lightning Attention通过分块计算策略(块内传统注意力+块间线性注意力)将计算复杂度从平方级降低 支持数十万token扩展[12][15][18] - 提出CISPO算法替代传统PPO/GRPO 通过裁剪重要性采样权重保留低概率关键token(如反思token)的梯度贡献 在Qwen2.5-32B实验中实现2倍训练加速[19][20][21][23] - 针对训练推理精度不匹配问题 将输出头精度提升至FP32使概率相关性从0.9x升至0.99x 并开发基于token概率的早停机制(连续3000个token概率超0.99时终止)[25][27] 训练流程与数据构建 - 基于MiniMax-Text-01继续预训练7.5万亿token STEM、代码和推理内容占比提升至70% 后通过监督微调注入链式思考模式[28] - 强化学习阶段构建多维度训练环境:数学推理与竞赛编程 SynLogic框架合成41类逻辑推理任务(5.3万样本) SWE-bench真实软件工程沙箱环境[29] - 采用生成式奖励模型解决通用任务反馈 通过动态调整规避长度偏见问题 上下文窗口通过阶段性扩展策略从4万逐步提升至8万[29] 基准测试结果 - 数学推理:AIME 2024达86.0分(对比DeepSeek-R1 85.7分) MATH-500达96.8分[31] - 长上下文:OpenAI-MRCR(128k)达73.4分(对比OpenAI o3 48.9分) LongBench-v2达61.5分[31] - 软件工程:SWE-bench Verified达56.0分(对比Claude 4 Opus 72.5分)[31] - 工具使用:TAU-bench(airline)达62.0分(对比OpenAI o3 59.6分)[31] 生态布局与行业影响 - 模型权重与技术报告已在HuggingFace和GitHub开放[7][37] - 此次发布为"MiniMaxWeek"5日活动的首日 预示后续将有海螺AI视频模型(Hailuo 02)等新产品发布[33][35]