Interleaved Thinking
搜索文档
从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?
机器之心· 2025-12-04 06:10
文章核心观点 - MiniMax新一代大模型M2在轻量级软件工程Agent基准测试mini-SWE-agent中表现最佳,超越了其他竞品[1][2] - M2模型的核心优势在于其采用的“交错思维”技术,该技术通过将推理与工具调用交错进行,实现了“思考-行动-反思”的闭环,显著提升了Agent的执行能力、规划性和自我纠错能力[4][5] - “交错思维”技术正成为高性能Agent模型的行业标配,解决了长链路任务中的“状态漂移”问题,并已在成本效率上展现出巨大优势[22][31] 模型性能表现 - 在mini-SWE-agent基准测试中,MiniMax M2模型的表现超越DeepSeek、GLM、Qwen、Kimi等其他竞品厂商[2] - 保持前轮思维状态使M2在BrowseComp任务中性能从31.4跃升至44.0,涨幅达40.1%;在Tau²复杂工具调用测试中性能提升35.9%;在SWE-Bench Verified基准上取得3.3%的增长[25] - 在包含8步推理、7次工具调用的完整流程中,M2的总成本仅为$0.001669,比同级别Claude Sonnet便宜近12倍[31] 交错思维技术分析 - 交错思维技术核心是“思考→行动→观察→再思考”的动态循环,区别于传统的线性Chain-of-Thought模式[10][12] - 该技术从根源上解决了Agent长链路任务中的“状态漂移”问题,使计划、意图和中间结论可以跨轮次延续[16][17] - 与Memory、Long Context和RAG等技术不同,交错思维侧重于“存逻辑”而非“存事实”,类似于电脑的RAM与硬盘的区别[20] - 该技术已得到行业广泛采纳,除MiniMax外,Kimi K2、Gemini 3 Pro、DeepSeek V3.2等头部模型厂商也开始采用类似机制[22][26] 开发者生态与成本优势 - MiniMax M2发布一个多月即在实际Agent使用场景中获得开发者广泛认可,被用于构建深度研究Agent[5] - 通过提供两种主流API格式的最佳实践,确保开发者能充分利用交错思维技术[34][37] - 公司与Kilo Code、RooCode、Cline、OpenRouter、Ollama等合作伙伴合作,推动交错思维成为可复用的行业标准[38] - 开源项目Mini-Agent已获得700+ Star,社区关注度持续提高[44][45] 行业影响与标准化进程 - MiniMax M2作为国产开源模型代表,被纳入AWS的Amazon Bedrock模型库[6] - 公司正为行业构建更标准化、工程化的Agent执行范式,加速交错思维从技术特性演变为可直接调用的能力[46] - 随着高效稳定的Agentic能力展现,未来可能有更多厂商采用类似技术,推动API平台和编程工具完善相应支持[46]
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 11:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]