陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能
量子位·2026-01-06 05:48

产品发布与核心定位 - 陈天桥与代季峰团队于新年伊始发布自研旗舰版搜索智能体模型MiroThinker 1.5,定位为智能体模型领域的“最强小钢炮” [1] - 该模型由MiroMind团队开发,该团队此前曾凭借成功预测Polymarket筛选题目而连续登顶Future X全球榜首 [9] - MiroThinker 1.5的推出标志着团队在已有技术积累上更进一步,整体预测能力达到新水平 [10] 性能基准测试表现 - 在HLE-Text测试中得分为39.2%,在BrowseComp测试中得分为69.8%,在BrowseComp-ZH测试中得分为71.5%,在GAIA-Val-165测试中得分为80.8% [3] - 与国内外顶尖模型对比,其235B参数版本在BrowseComp测试中以69.8%的得分超越了ChatGPT Agent的68.9%,刷新了该榜单纪录 [4][5] - 在GAIA-Val-165测试中,235B版本以80.8%的得分超越了GPT-5-High的76.7%和Gemini-3-Pro的74.8% [4] - 其30B参数版本在BrowseComp-ZH测试中以66.8%的得分,超越了1T参数的Kimi-K2-Thinking的62.3%,实现了4.5%的性能超越 [4][8] 核心优势:高智效比与低成本 - 模型参数规模显著小于主流模型,仅30B和235B,约为其他顶尖模型参数规模的1/30 [7] - 在实现相近甚至更好性能的同时,拥有极低的推理成本,例如MiroThinker 1.5的单条调用成本低至0.07美元,仅为Kimi模型的1/20 [8] - 模型的推理速度也显著优于Kimi-K2-Thinking等大参数模型 [8] - 公司对开发者友好,模型上线即开源 [8] 技术范式创新:交互式智能 - 行业普遍存在过度依赖堆叠参数和资源的问题,本质是让模型记忆更多知识并进行长链推理,一旦中间步骤出错会导致错误累积放大 [46][47] - 当模型参数规模达到一定程度后,继续堆资源的边际收益会迅速下降,行业需寻找新的智能增长路径 [48] - MiroThinker 1.5的解法在于将推理过程与外部环境深度绑定,为每一轮推理引入反馈校验环节,构建“推理-验证-修正”的循环路径 [48] - 核心是将Interactive Scaling从推理阶段前移并内化为训练阶段的核心机制,把模型训练成注重求证、校验和自我修正的探索型Agent [48] - 模型对于不确定性问题先交互再判断,对于高风险结论先查证再收敛,能够按需向外部世界精准取证,从而以更小的参数规模实现更高的智能密度 [49] - 这是其推理成本显著降低但性能保持一线水准的根本原因 [50] 关键技术:时序敏感训练与主动求证 - 通过“时序敏感训练沙盒”严格约束模型只能使用当前可见的信息做出真实预测,杜绝复述结果或使用未来数据“剧透” [52] - 该沙盒包含可控数据合成引擎和时序敏感训练机制,从机制上彻底杜绝未来信息泄露,迫使模型学会在信息不完备、有噪声和信号延迟的真实条件下完成推演并不断修正 [53][54] - 模型具备Evidence-Seeking能力,会将关键判断拆解为可验证子假设并主动发起对外查询、检索与比对,缺乏信源支撑的输出会受到惩罚 [56] - 模型具备Iterative Verification能力,推理过程允许反复回溯修正,当发现证据矛盾时会立即调整,而非将错误延续 [56] - 模型具备Anti-Hallucination能力,会对看似合理但缺乏证据的推理结果给予否定并标记为低质量,更关注“怎样得出答案”而非简单对错 [56] 行业逻辑转变:从“做题家”到“科学家” - 传统的Scaling Law是“做题家模式”,依赖记忆和统计,而非真正的理解和验证 [60] - MiroMind团队提出了除模型规模、上下文长度之外的第三大核心可扩展维度Interactive Scaling,将智能增长空间瞄准外部世界 [58] - 内化Interactive Scaling的模型像“科学家”一样建立研究闭环:提出假设→向外部世界查数据/取证→发现对不上→修正假设→再查证,直到证据收敛 [60] - 这有效降低了Scaling Law导致的幻觉,提升了可靠性 [61] - 此举是底层逻辑的转变,将有限的算力效益最大化,导向对外的信息获取与交互,把智能扩展维度从“更大脑袋”变成“更勤快的手” [62] - 这与MiroMind强调的“发现式智能”相契合,即在未知条件下重建对世界的理解,抽丝剥茧发现真相 [63] - 公司认为智能“奇点”的关键在于交互,并已率先转换赛道 [64]