MiroThinker 1.5
搜索文档
陈天桥携MiroThinker 1.5开年登场:跑赢万亿模型,实现小模型大智能
钛媒体APP· 2026-01-08 04:45
公司及产品发布 - MiroMind团队正式发布其自研旗舰搜索智能体模型MiroThinker 1.5 [2] - 该公司由企业家陈天桥与清华大学学者代季峰教授联合发起 [2] - 公司使命是在未知条件下重建对世界的理解,押注“发现式智能” [2] 产品性能与定位 - MiroThinker 1.5模型参数为30B,其235B版本在多个搜索智能体基准测试中跻身全球第一梯队 [3] - 该模型仅用1/30的参数规模跑出了比肩众多1T模型的性能表现 [3] - 在关键评测集BrowseComp-ZH中实现性能超越,证明“大”不等于“强” [5] 技术路线与核心理念 - 公司提出“发现式智能”理念,认为真正的智能不靠全知,而靠会研究、会查证、会修正 [2] - 核心路线是Interactive Scaling,将智能的增长空间从内部参数扩展到外部世界 [6] - 该路线与以扩大模型内部参数量为核心的传统Scaling Law不同,强调从内部参数扩张转向以外部信息交互为关键 [5] - 公司刻意将模型控制在30B–200B的轻量级规模,不追求万亿参数,旨在培养模型对外部信息的获取与交互能力 [8] 成本与效率优势 - MiroThinker 1.5单条调用成本低至$0.07,仅为对比模型Kimi-K2-Thinking的1/20,且推理更快 [5] - 通过更小的参数规模换来了更高的智能密度,在显著降低推理成本的同时保持一线性能 [10] 核心技术机制 - 模型通过构建“推理-验证-修正”循环,引入外部信息作为校验锚点,解决传统思维链导致的逻辑坍塌问题 [9] - 训练核心机制包括:Evidence-Seeking(主动求证)、Iterative Verification(多轮校验与自我修正)、Anti-Hallucination(对捷径的系统性过滤) [11] - 采用时序敏感训练沙盒和可控数据合成引擎,在严格的时间可见性约束下进行训练与验证,杜绝Future Leakage [10][12] - 模型被训练成一个善于向外求证、敢于否定自己、能够快速修正路径的Agent [9]
MiroMind发布全球最强搜索智能体模型MiroThinker 1.5,以“发现式智能”挑战传统大模型路径
36氪· 2026-01-06 09:06
凭借成功预测 Polymarket 题目,连续登顶 Future X 全球榜首的 MiroMind 团队,于今日(1 月 5 日)正式发布其自研旗舰搜索智能体模型 MiroThinker 1.5。 MiroMind 由全球知名创新企业家、慈善家陈天桥,与清华大学知名 AI 青年学者代季峰教授联合发起。去年陈天桥提出发现式智能才是真正意义上的通用 人工智能这一重磅创新理念,引发全球业内人士关注。他同时提出建设发现式智能的 5 种关键能力,其中一项能力是在未知条件下重建对世界的理解,这 正是 MiroMind 的使命。 BrowseComp 性能对比 | Model | Param | Browse | Browse | HLE | GAIA | | --- | --- | --- | --- | --- | --- | | | | Comp | Comp-ZH | | Val-165 | | Closed-Source Models | | | | | | | GPT-5-High | l | 54.9 | 63.0 | 41.7 | 76.7 | | ChatGPT Agent | l | 68.9 | - ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能
量子位· 2026-01-06 05:48
产品发布与核心定位 - 陈天桥与代季峰团队于新年伊始发布自研旗舰版搜索智能体模型MiroThinker 1.5,定位为智能体模型领域的“最强小钢炮” [1] - 该模型由MiroMind团队开发,该团队此前曾凭借成功预测Polymarket筛选题目而连续登顶Future X全球榜首 [9] - MiroThinker 1.5的推出标志着团队在已有技术积累上更进一步,整体预测能力达到新水平 [10] 性能基准测试表现 - 在HLE-Text测试中得分为39.2%,在BrowseComp测试中得分为69.8%,在BrowseComp-ZH测试中得分为71.5%,在GAIA-Val-165测试中得分为80.8% [3] - 与国内外顶尖模型对比,其235B参数版本在BrowseComp测试中以69.8%的得分超越了ChatGPT Agent的68.9%,刷新了该榜单纪录 [4][5] - 在GAIA-Val-165测试中,235B版本以80.8%的得分超越了GPT-5-High的76.7%和Gemini-3-Pro的74.8% [4] - 其30B参数版本在BrowseComp-ZH测试中以66.8%的得分,超越了1T参数的Kimi-K2-Thinking的62.3%,实现了4.5%的性能超越 [4][8] 核心优势:高智效比与低成本 - 模型参数规模显著小于主流模型,仅30B和235B,约为其他顶尖模型参数规模的1/30 [7] - 在实现相近甚至更好性能的同时,拥有极低的推理成本,例如MiroThinker 1.5的单条调用成本低至0.07美元,仅为Kimi模型的1/20 [8] - 模型的推理速度也显著优于Kimi-K2-Thinking等大参数模型 [8] - 公司对开发者友好,模型上线即开源 [8] 技术范式创新:交互式智能 - 行业普遍存在过度依赖堆叠参数和资源的问题,本质是让模型记忆更多知识并进行长链推理,一旦中间步骤出错会导致错误累积放大 [46][47] - 当模型参数规模达到一定程度后,继续堆资源的边际收益会迅速下降,行业需寻找新的智能增长路径 [48] - MiroThinker 1.5的解法在于将推理过程与外部环境深度绑定,为每一轮推理引入反馈校验环节,构建“推理-验证-修正”的循环路径 [48] - 核心是将Interactive Scaling从推理阶段前移并内化为训练阶段的核心机制,把模型训练成注重求证、校验和自我修正的探索型Agent [48] - 模型对于不确定性问题先交互再判断,对于高风险结论先查证再收敛,能够按需向外部世界精准取证,从而以更小的参数规模实现更高的智能密度 [49] - 这是其推理成本显著降低但性能保持一线水准的根本原因 [50] 关键技术:时序敏感训练与主动求证 - 通过“时序敏感训练沙盒”严格约束模型只能使用当前可见的信息做出真实预测,杜绝复述结果或使用未来数据“剧透” [52] - 该沙盒包含可控数据合成引擎和时序敏感训练机制,从机制上彻底杜绝未来信息泄露,迫使模型学会在信息不完备、有噪声和信号延迟的真实条件下完成推演并不断修正 [53][54] - 模型具备Evidence-Seeking能力,会将关键判断拆解为可验证子假设并主动发起对外查询、检索与比对,缺乏信源支撑的输出会受到惩罚 [56] - 模型具备Iterative Verification能力,推理过程允许反复回溯修正,当发现证据矛盾时会立即调整,而非将错误延续 [56] - 模型具备Anti-Hallucination能力,会对看似合理但缺乏证据的推理结果给予否定并标记为低质量,更关注“怎样得出答案”而非简单对错 [56] 行业逻辑转变:从“做题家”到“科学家” - 传统的Scaling Law是“做题家模式”,依赖记忆和统计,而非真正的理解和验证 [60] - MiroMind团队提出了除模型规模、上下文长度之外的第三大核心可扩展维度Interactive Scaling,将智能增长空间瞄准外部世界 [58] - 内化Interactive Scaling的模型像“科学家”一样建立研究闭环:提出假设→向外部世界查数据/取证→发现对不上→修正假设→再查证,直到证据收敛 [60] - 这有效降低了Scaling Law导致的幻觉,提升了可靠性 [61] - 此举是底层逻辑的转变,将有限的算力效益最大化,导向对外的信息获取与交互,把智能扩展维度从“更大脑袋”变成“更勤快的手” [62] - 这与MiroMind强调的“发现式智能”相契合,即在未知条件下重建对世界的理解,抽丝剥茧发现真相 [63] - 公司认为智能“奇点”的关键在于交互,并已率先转换赛道 [64]
刚刚,蝉联Future X全球榜首的MiroMind发布全球最强搜索智能体模型
机器之心· 2026-01-05 06:09
公司及产品发布 - MiroMind团队于1月5日正式发布其自研旗舰搜索智能体模型MiroThinker 1.5 [1] - 该公司由企业家陈天桥与清华大学学者代季峰教授联合发起,其使命是在未知条件下重建对世界的理解,押注“发现式智能” [1] - 公司认为真正的智能不靠全知,而依靠研究、查证和修正的能力,旨在将“预测未来”从特权变成能力 [1] 核心性能与评测 - MiroThinker-v1.5-30B仅用300亿参数规模,跑出了比肩众多1万亿参数模型的性能表现 [4] - MiroThinker-v1.5-235B版本在多个搜索智能体基准测试中跻身全球第一梯队 [4] - 在BrowseComp评测中,MiroThinker-v1.5-235B在BrowseComp得分为69.8,在BrowseComp-ZH得分为71.5,在GAIA Val-165得分为80.8 [8] - MiroThinker-v1.5-30B在BrowseComp-ZH评测中得分为66.8,超越了部分更大规模的模型 [8] 成本与效率优势 - MiroThinker-v1.5-30B单条调用成本低至0.07美元,仅为对比模型Kimi-K2-Thinking的1/20,且推理速度更快 [9] - 该模型以300亿参数挑战参数量高达30倍的万亿参数模型Kimi-K2-Thinking,并在关键评测集BrowseComp-ZH中实现性能超越 [9] - 公司强调其路线是追求高“智效比”的“巧劲”,而非盲目扩大参数 [3] 技术理念与架构创新 - 公司提出传统以扩大模型内部参数为核心的Scaling Law已触及边际瓶颈,未来需转向以“外部信息交互”为核心的Interactive Scaling [10] - MiroThinker 1.5将Interactive Scaling机制内化为贯穿训练与推理全流程的核心能力,训练模型像科学家一样勤于查证,执行“提出假设→查证→修正假设→再查证”的研究闭环 [11] - 该技术路线的核心是将智能的增长空间从内部参数扩展到外部世界,通过“推理-验证-修正”循环引入外部信息作为校验锚点,解决传统思维链导致的逻辑坍塌问题 [14] - 公司刻意将模型规模控制在300亿至2000亿参数的轻量级范围,将算力重点投入对外部信息的获取与交互 [12] 训练方法论 - 公司采用了Training-time Interactive Scaling技术,将Interactive Scaling从推理阶段前移并内化为训练阶段的核心机制 [15] - 在训练中刻意削弱对“单次完美推理”的奖励,转而强化三种行为模式:Evidence-Seeking(主动求证)、Iterative Verification(多轮校验与自我修正)、Anti-Hallucination(对捷径的系统性过滤) [16][19] - 通过“时序敏感训练沙盒”约束模型“只能看过去,不能看未来”,在严格的时间可见性约束下进行判断和验证,以更接近真实世界的决策过程 [17][18] - 训练体系包含可控数据合成引擎和时序敏感训练机制,确保推演与评分符合真实世界的时序逻辑,杜绝未来信息泄露 [20] 应用案例展示 - 在A股涨停板预测案例中,模型展示了在噪声市场中利用开放世界证据与因果推断进行预测的能力 [22] - 具体案例显示,在12月10日市场晋级率25%的退潮环境中,模型从8支二板股中精准押中唯一晋级的一支 [22] - 在12月11日晋级率22%的环境中,模型命中了9支连板股中的高位晋级者 [25] - 在12月12日情绪回暖(晋级率54%)时,模型不仅命中市场最高连板,还准确预判其继续晋级,后续累计涨幅达58% [29] - 在12月15日市场再度降温(晋级率38%)时,模型继续命中连板股 [30] - 在美股事件影响分析案例中,模型对CES 2026、苹果诉讼听证会、英伟达对华出口监管等事件对“美股七巨头”的潜在影响和波动方向做出了结构化分析 [31][32] - 模型还对GTA 6能否按时发布进行了分析预测 [35]