Workflow
量子位
icon
搜索文档
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源
量子位· 2025-11-26 06:37
阿里开源项目ROCK的核心价值 - 解决了智能体无法在真实环境中规模化训练的难题,为AI执行复杂任务提供了标准化的“实战演练场”[1][2][3] - 与此前开源的强化学习训练框架ROLL协同,构成了完整的智能体训练闭环,打通了从单机实验到集群大规模训练的链路[4][5] - 该组合推开了Agentic AI规模化应用的大门,让开发者不再被底层基础设施困扰[5] 环境服务的重要性与行业趋势 - 大语言模型正经历深刻范式转变,前沿模型已进化为能与外部环境深度交互的Agentic模型,从“能说”扩展到“会做”[6][7] - 训练高效的Agentic模型是一个系统工程,需要四块拼图:大脑(LLM)、考卷(任务描述)、教练(RL框架)和训练场(环境服务)[8] - 环境服务的稳定性和效率直接决定了模型的Scaling潜力,其性能瓶颈往往成为整个训练流程的“卡脖子”问题[9][10] ROLL框架的功能特性 - 基于Ray构建,专为大规模LLM强化学习打造,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程[12] - 提供环境异步交互和冗余采样等功能,采用极简的GEM标准接口,通过env.reset和env.step两个核心方法大幅简化交互过程[13][14] - 简洁的设计使得新业务应用能快速适配,环境开发者只需实现标准方法即可无缝接入训练体系[15] ROCK项目的核心能力 - 核心使命是规模化,旨在击碎传统训练中因资源限制导致的硬性天花板[19][21][24] - 基于Ray构建,能将计算集群抽象为弹性伸缩的“环境资源池”,支持分钟级别自动调度和拉起成千上万个并行训练环境[25] - 支持在同一集群中同时运行同构与异构环境,既满足大规模重复探索需求,也提升Agent在不同任务间的泛化能力[27][28] ROCK的调试与部署优势 - 提供程序化的Bash交互能力,通过SDK和HTTP API开放Linux Shell功能,使开发者可像操作本地终端一样与成百上千个远程Sandbox深度交互[32][33] - 设计“一次编写,随处运行”的方案,支持本地独立运行、本地集成调试和云端规模化部署三种模式,确保开发与生产环境一致性[37][38][39] - 具备企业级稳定性,包括故障隔离、精细资源调度和快速状态管理,按阿里内部核心基础设施标准构建[42][43][44][45] ModelService的架构创新 - 作为“中间人”完美实现了解耦,通过“提问-拦截-回答”三步让Agent和ROLL各司其职[50][51] - 带来四大好处:彻底解耦、控制权在手、节约成本以及兼容性强[52][57] - 该架构将昂贵的GPU资源集中用于ROLL的中心推理服务,而ROCK Sandbox可在低成本的CPU实例上大规模运行,极大降低训练成本[57] 对行业的影响与总结 - ROCK与ROLL的组合从根本上解决了Agentic模型训练中的两大核心挑战:高效的学习算法和可规模化的环境服务[55] - 为开发者提供了标准化解法,包括弹性扩展、无缝衔接、极致稳定和架构革新四大优势[58] - 使Agentic模型训练从少数顶尖团队的黑科技,转变为每个开发者都能上手的标准工业流程[56]
突破类脑模型性能瓶颈:校正频率偏置实现性能与能效双突破|NeurIPS 2025
量子位· 2025-11-26 06:37
文章核心观点 - 脉冲神经网络性能不佳的根本原因并非二进制激活导致的信息损失,而是其固有的频率偏置问题,即脉冲神经元本质上是一个低通滤波器,会抑制高频成分并倾向于传播低频信息[4][8][19] - 通过引入高频算子(如Max-Pooling和深度卷积)来补偿SNN的低频偏好,新提出的Max-Former架构在提升精度的同时实现了能效的显著优化[24][27][30] SNN性能瓶颈的传统认知与新发现 - 传统观点普遍将SNN的性能落后归因于二进制脉冲带来的信息损失[5][6] - 新研究指出二进制本身不应是瓶颈,因为低比特乃至二值网络在ANN中也能取得逼近全精度的性能,且SNN的脉冲序列在时间轴上可编码log(n)-bit精度的信息[7] - 真正的瓶颈在于脉冲神经元在网络层面是一个低通滤波器,导致高频成分快速消散,难以捕捉关键细节和纹理[8][10][12] 频率偏置问题的实验验证 - 在脉冲Transformer中,使用高通算子Max-Pooling(79.12%)比低通算子Avg-Pooling(76.73%)在CIFAR-100上性能提升2.39%[15] - 这一发现与ANN Transformer的研究结论相反,在ANN中倾向于捕捉全局低频模式的Avg-Pooling更常见[16][17] - 理论分析证明脉冲神经元的充电过程传递函数是一阶无限脉冲响应低通滤波器,其波形产生的高频成分是虚假的,无法在网络中有效传播[19][20][21] Max-Former新架构的设计与性能 - 架构通过两个轻量级高频算子补偿低频偏好:在Patch Embedding中添加额外Max-Pooling在信息源头注入高频信号,以及用深度卷积替代早期阶段的自注意力以保留局部高频细节[24][28] - 在ImageNet上,Max-Former-10-768(4时间步)取得82.39%的Top-1准确率,以更少参数量(63.99M vs 66.34M)大幅超越Spikformer达7.58%[27] - 在实现性能突破的同时,能量消耗降低超过30%[30] - 在小规模数据集(如CIFAR-10上达97.17%,CIFAR-100上达83.06%)和神经形态数据集上均达到SOTA性能[29][34] 新视角的普适性验证 - 将高频信息重要性的洞察延伸到经典卷积架构,提出的Max-ResNet仅通过添加少量Max-Pooling操作就显著提升性能[33][34] - 这项工作表明SNN的优化路径不应简单模仿ANN的成功设计,而需针对其固有特性进行频率层面的补偿[35]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-26 06:37
大会核心信息 - 大会主题为“共生无界,智启未来”,聚焦AI技术穿透产业、学科与场景边界,成为社会演进核心动能[3] - 会议将于2025年12月10日在北京金茂万丽酒店举行,已开启观众报名通道[2][105] - 大会将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[107] 主要探讨议题 - 涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议科技话题[4] - 包含学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果[5] 重磅发布内容 - 权威发布人工智能年度榜单与年度AI趋势报告[6][102] - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项[103] - 年度AI十大趋势报告将提名释放巨大潜力的十大趋势,并进行深入分析及提名代表机构[104] 参会嘉宾阵容(部分) 学术界与研究机构 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任职百度与微软[12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持多项国家级科研项目[17] - 王仲远:北京智源人工智能研究院院长,曾任职快手、美团、Facebook,发表论文100余篇,获美国专利5项,中国专利50余项[21][22][23] - 尤洋:潞晨科技创始人,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉[48] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,聚焦大模型、世界模型和合成数据技术[72] 企业界代表 - 王颖:百度集团副总裁,负责文库事业部、网盘事业部等重点业务[26] - 何晓冬:京东集团高级副总裁、探索研究院副院长,IEEE Fellow,发表论文200余篇,被引用6万余次[30] - 韩旭:文远知行WeRide创始人兼CEO,带领公司登陆纳斯达克和港交所,成为“全球Robotaxi第一股”[35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者[40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[44][45] - 杨帆:商汤科技联合创始人、大装置事业群总裁,负责AI基础设施建设与服务体系打造[53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划[58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验[63][64] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略[75][76] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型[80][81] - 乔梁:太初元碁联合创始人兼COO,曾参与新一代AI处理器国家核高基重大专项[86][87] - 王潜:自变量机器人创始人兼CEO,致力于研发端到端大模型驱动的通用机器人[90][91] - 杜知恒:小宿科技联合创始人兼CEO,曾在红杉中国、高瓴资本、百度等机构任职[95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于AI驱动的前端研发范式革新[99][100] 金融与投资界 - 朱宁:上海交通大学上海高级金融学院金融学教授,全球知名中国经济金融专家,曾任雷曼兄弟与野村证券高管[67][68]
90后华人副教授突破30年数学猜想!结论与生成式AI直接相关
量子位· 2025-11-26 04:21
研究突破核心 - 90后华人数学家Yuansi Chen证明了困扰数学界30多年的塔拉格兰卷积猜想,结果精确到一个log log η因子 [1][3][17] - 论文核心数学成果为概率不等式:ℙ<sub>X∼μ</sub>(P<sub>τ</sub>f(X) > η∫fdμ) ≤ c<sub>τ</sub>(log log η)/(η√log η) [2][16] - 该猜想由阿贝尔奖得主Michel Talagrand于1989年提出,旨在量化高维离散空间中函数经平滑化后出现极端值的概率 [8][12] 数学理论与方法 - 研究解决了布尔超立方体上的猜想,此前仅高斯形式(连续空间)被攻克,离散空间因缺乏连续空间工具而成为巨大挑战 [14] - 解决思路是借鉴高斯空间随机分析框架,利用反向热过程的特性设计微扰以适应离散特性,其扰动项δ非常数而依赖于状态和坐标 [14] - 证明表明猜想核心思想正确,结果接近完整解决,因log log η增长极其缓慢 [17] 机器学习与人工智能关联 - 研究为理解高维离散空间中的平滑化提供了数学论证 [5] - 论文中使用的“反向热过程”是扩散模型在布尔超立方体上的对应,有助于理解或开发针对离散数据的生成式AI模型 [7][19] - 结果为机器学习中正则化概念提供理论支撑,解释了平滑化或添加噪声为何能提高模型在复杂高维空间中的稳定性 [6][20][21] - 研究有助于理解高维离散空间的几何性质,对发展关于二值数据或逻辑函数的学习理论具有价值 [21] 研究者背景 - 论文作者Yuansi Chen出生于1990年7月,浙江宁波人,现任苏黎世联邦理工学院副教授 [22][25] - 其主要研究方向包括统计机器学习、马尔可夫链蒙特卡罗方法、应用概率、高维几何 [23] - 其Google Scholar论文被引数为1623,h-index为13,是2023年斯隆研究奖获得者 [26][28]
英伟达:祝贺谷歌TPU成功,但GPU领先一代
量子位· 2025-11-26 04:21
文章核心观点 - 谷歌正通过向其他公司推广其自研TPU芯片的本地部署方案,直接挑战英伟达在AI算力市场的领导地位,此举可能为谷歌带来数十亿美元年收入,并抢占英伟达约10%的年营收 [5][7] - 英伟达对此采取积极反击策略,主要通过向关键AI客户(如Anthropic、OpenAI)进行巨额投资,以换取其继续使用英伟达GPU的承诺,试图巩固其市场地位 [27][28] - 两家巨头的竞争正搅动整个AI产业格局,反映出AI算力市场从英伟达一家独大向多元化竞争的潜在转变 [10][33] 谷歌的TPU扩张战略 - 谷歌推出关键举措:向Meta及大型金融机构等客户推荐在其自有数据中心本地部署TPU方案,Meta计划在2027年斥资数十亿美元使用TPU,并于明年从谷歌云租用芯片 [5] - 谷歌TPU推广的两大卖点:强调安全合规以满足敏感数据要求,以及展示性能优势,如Gemini 3已证明TPU能高效运行AI模型,尤其适合低延迟场景 [17][18] - 为降低客户使用门槛,谷歌开发了“谷歌版CUDA”——TPU command center,并承诺客户可借助PyTorch生态与TPU交互,无需精通其编程语言Jax [19] - 谷歌通过提供有竞争力的条款(如为合作伙伴Fluidstack提供高达32亿美元的兜底担保)和接触英伟达的盟友(如Crusoe、CoreWeave)来加速TPU生态扩张 [22][23] - 谷歌已推出多代TPU产品,最新一代Ironwood TPU计划于2025年第四季度发布 [24] 英伟达的市场防御与反击 - 英伟达采取直接资本投入的方式进行反击:在谷歌宣布向Anthropic供应100万个TPU后,英伟达随即宣布向Anthropic投资数十亿美元;在OpenAI计划租用谷歌TPU时,与OpenAI达成初步协议,可能投资高达1000亿美元 [27] - 公司积极拉拢可能使用谷歌TPU的大客户(如OpenAI、Anthropic、Meta),并可能通过与Meta达成独家合作来阻止其与谷歌的TPU合作 [25][26] - 英伟达公开强调其解决方案的独特优势:是唯一能兼容所有AI模型、覆盖所有计算场景的硬件平台,并声称其方案相较于专用芯片具备更卓越的性能、更广泛的适用性和更灵活的通用性 [3][4] - 尽管面临挑战,英伟达云业务(向客户出租搭载英伟达芯片的服务器)收入目前仍远高于谷歌的TPU相关收入 [32] 行业竞争格局与市场影响 - AI算力市场竞争加剧,除谷歌外,亚马逊、微软等云服务商以及OpenAI、Meta等大型AI开发商均已启动自有AI芯片研发 [33] - 有分析师认为,挑战英伟达霸权的最大机会在于推理芯片领域,而非其优势明显的训练芯片领域 [34] - 市场数据显示,2025年1月至11月期间,谷歌母公司Alphabet与英伟达股价均大幅跑赢标普500指数,其中Alphabet后期涨势更为强劲,而英伟达股价波动相对剧烈 [11][12] - 英伟达CEO黄仁勋坦言公司面临的市场预期极高,其市值波动巨大,曾提及“史上没人能几周内蒸发5000亿美元市值” [40][41]
Ilya罕见发声:大模型「大力出奇迹」到头了
量子位· 2025-11-26 00:55
当前AI发展范式转变 - AI发展正从"规模化时代"重新转向"科研时代",主流"预训练+Scaling"路线已明显遇到瓶颈[1][3] - 行业过去几年普遍遵循"继续扩大"策略,但仅靠规模扩大100倍难以带来根本性转折[56][57] - 预训练最大优势在于数据量庞大且无需纠结数据选择,但最终会遇到数据有限的硬上限[33][55] 模型能力与泛化问题 - 当前模型在评测表现与经济实际影响之间存在巨大落差,模型泛化能力远不如人类[17][21][61] - 模型会出现反复犯同样错误的情况,如编程中在两个bug间来回切换[17] - 人类在语言、数学、编程等近期出现的能力上仍比模型更强,表明人类拥有更基础的通用学习能力[68][69] 训练方法演进 - 行业正从预训练规模化转向强化学习规模化,RL消耗的计算量可能已超过预训练[58] - 价值函数能让强化学习更高效,但当前强化学习训练方法简单且资源利用效率低[42][58] - 预训练数据包含人类各种活动经验,是"人类把世界投射到文本上的那一层"[33] 行业竞争格局 - 规模化时代导致公司数量远超创意数量,所有公司做同一件事挤压创新空间[76] - 真正用于纯研究的资源比外界想象少,大公司算力预算主要用于推理服务[81][84] - 未来可能出现多家公司同时拥有超级智能,技术路径和战略最终会趋同[132][136] 未来发展方向 - 关键突破在于解决模型泛化能力不足的核心问题,而非单纯扩大规模[61] - 持续学习能力比静态知识储备更重要,超级智能应是能够学习任何工作的"可成长心智"[94][95] - 构建"关爱有感知生命的AI"可能比只关心人类的AI更容易实现,因为AI本身也将具备感知能力[106][107]
33岁稚晖君,上市公司董事长!
量子位· 2025-11-26 00:55
henry 发自 凹非寺 量子位 | 公众号 QbitAI 33岁,A股上市公司董事长!B站百大up主"稚晖君",又更上了一层楼。 11月25日, 上纬新材 公告重磅落地:选举 彭志辉 为第四届董事会董事长,任期与第四届董事会同步。 在各行各业的董事长们纷纷亲自出马、抛头露面争当 "网红" 时,自带280万+粉丝的B站顶流UP主 稚晖君 ,成了"A股具身智能第一股"董事 长。 而"稚晖君"彭志辉的人生也宛如坐上了火箭。 2018年电子科技大学硕士研究生毕业,2019年开始在B站为人所知。 2020年以"天才少年"计划入职华为,2023年创业具身智能机器人…… 2025年成为了A股上市公司董事长。 7年时间,如今也才33岁的稚晖君,不可思议。 "稚晖君",又有新职务! 11月25日晚间,上纬新材发布公告称,公司召开第三次临时董事会,选举产生了第四届董事会成员。 同日,第四届董事会召开第一次会议,选举 彭志辉 为第四届董事会董事长,任期至第四届董事会任期届满之日止。 上纬新材官网的董事会管理层信息也同步更新了信息。 | 委员会名称 | 主任委员 | 委员会成员 | | --- | --- | --- | | 序号 ...
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-25 09:32
大会概况 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界的核心动能 [3] - 会议将探讨强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题 [4] - 内容涵盖学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果 [5] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [6][102] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [107] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度总裁,数字视频和AI领域世界级科学家 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持多项国家级科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职快手、美团、Facebook,发表顶级会议论文100余篇 [21][22][23] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部等重点业务 [26] - 何晓冬:京东集团高级副总裁,IEEE Fellow,发表论文200余篇被引用6万余次 [30] - 韩旭:文远知行创始人兼CEO,带领公司登陆纳斯达克和港交所,成为全球Robotaxi第一股 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,Kaldi之父,论文引用近52000次 [40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网经验,中文Linux奠基人之一 [44][45] - 尤洋:潞晨科技创始人,新加坡国立大学校长青年教授,曾任职谷歌、微软、英伟达等企业 [48] - 杨帆:商汤科技联合创始人,负责大装置战略业务规划与AI基础设施建设 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验 [63][64] - 朱宁:上海高级金融学院金融学教授,行为金融学专家,曾任职雷曼兄弟与野村证券 [67][68] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,师从图灵奖得主Yann LeCun [72] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出大模型落地三级引擎战略 [75][76] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型 [80][81] - 乔梁:太初元碁联合创始人,清华大学计算机系博士,深耕高性能计算领域 [86][87] - 王潜:自变量机器人创始人,致力于研发端到端大模型驱动的通用机器人 [90][91] - 杜知恒:小宿科技联合创始人,曾任家办CIO、红杉中国对冲基金创始成员 [95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于AI驱动的前端研发范式革新 [99][100] 大会发布内容 - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项 [103] - 年度AI趋势报告将提名十大AI趋势,并分析各趋势的潜力、代表机构及最佳案例 [104] 会议基本信息 - 会议时间定于2025年12月10日,地点为北京金茂万丽酒店 [105] - 大会已开启观众报名通道,欢迎技术、产业、投资领域代表参与 [8][107]
量子位编辑作者招聘
量子位· 2025-11-25 09:32
公司平台概况 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 截至2025年,微信公众号订阅用户超240万,全网用户超700万,日均阅读量200万以上[12] - 在第三方数据平台被评为AI及前沿科技行业TOP1新媒体[12] 招聘岗位方向 - 开放三大方向岗位:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位覆盖社招和校招,社招包括编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 工作地点位于北京中关村,岗位均为全职[2] AI产业方向岗位 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域动态及核心玩家[6] - 负责前沿论文、开源社区、技术大会报告的大众化解读[6] - 参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求需对芯片、GPU、服务器等有基本理解,熟悉AI行业供应链与生态,具备技术背景者优先[11] AI财经商业方向岗位 - 岗位职责聚焦创投、AI创业公司、上市公司、产业链资本动向分析[11] - 产出内容包括创投融资分析、招股书财报解析、公司战略分析等稿件[11] - 任职要求需对数据敏感,具备强逻辑和商业叙事能力,热爱对话采访[11] AI产品方向岗位 - 岗位职责关注AI在终端落地,包括软件应用产品和硬件方向[11] - 负责撰写AI应用产品深度评测,跟踪多终端新品发布如手机、PC、XR、车机等[11] - 任职要求需对智能硬件和AI终端趋势敏锐,熟悉终端厂商生态,具备体验表达能力[11] 员工福利与发展 - 员工可第一时间接触AI最新技术,构建完整AI认知体系并应用新工具提升工作效率[6] - 提供打造个人影响力机会,通过原创内容建立行业知名度[6] - 可拓展行业人脉,参与重要科技活动并与领域专家零距离接触[6] - 应届新人可获得主编级编辑一对一指导,团队氛围扁平开放且多劳多得[6] - 提供行业TOP薪资待遇,包含五险一金、餐补、绩效奖金等福利[6]
小米打通智驾和具身大模型,然后开源了
量子位· 2025-11-25 09:32
核心观点 - 小米汽车陈龙团队提出并开源了全球首个打通自动驾驶与具身智能领域的跨具身(X-Embodied)基座模型MiMo-Embodied,旨在解决两大领域间的知识迁移难题,并实现统一的视觉语言模型能力 [1][3] 模型架构与设计理念 - MiMo-Embodied基于MiMo-VL架构,由视觉Transformer(ViT)、投影器(MLP)和大语言模型(LLM)三部分组成,旨在无缝集成视觉与文本信息,增强多模态推理能力 [12][13] - 模型设计旨在解决当前具身/自动驾驶VLM领域缺乏统一模型、存在显著领域差距以及评估体系缺失的三大问题 [6][7][8][9] - 其核心目标是将自动驾驶(户外道路)和具身智能(室内操作)的任务合并到一个统一的VLM中,以整合跨领域能力 [10] 数据构建与训练策略 - 训练数据涵盖通用多模态理解、具身AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的高质量数据集 [15] - 采用了包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,以逐步建立并强化模型能力 [3][16] - **阶段1**:结合通用数据和具身数据进行监督微调,建立核心的视觉语言理解与具身推理能力 [18][19] - **阶段2**:在阶段1基础上加入大量自动驾驶数据,重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 [18][20] - **阶段3**:使用包含明确推理步骤的思维链(CoT)数据进行微调,增强模型处理复杂多步问题的能力 [18][20] - **阶段4**:使用GRPO强化学习算法进行微调,通过设计奖励信号进一步优化模型的精确度和可靠性 [18][20] 性能评估:具身智能能力 - 在涵盖可供性预测、任务规划和空间理解三大核心领域的共计29个基准测试上,MiMo-Embodied超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能 [3][22] - 在可供性预测任务中,MiMo-Embodied在RoboRefit基准上取得**82.30**分,在VABench-Point上取得**46.93**分,在Part-Afford上取得**65.50**分,在RoboAfford-Eval上取得**69.81**分,表现优于多数对比模型 [23] - 在空间理解任务中,MiMo-Embodied在多个基准上表现优异,例如在CV-Bench上取得**88.82**分,在EmbSpatial上取得**46.75**分,在SAT上取得**76.24**分,在RoboSpatial上取得**78.67**分,在RefSpatial上取得**61.76**分 [24] 性能评估:自动驾驶能力 - 在自动驾驶的感知、预测和规划能力评估中,MiMo-Embodied在12个基准测试上均取得强劲性能 [24][25] - 在感知与规划任务中,模型在CODA-LM基准上取得**58.55**分,在Drama基准上取得**76.14**分,在MME-RealWorld基准上取得**60.25**分,在IDKB基准上取得**43.42**分,在OmniDrive基准上取得**45.21**分,在Nulnstruct基准上取得**83.58**分 [25] - 在其他关键自动驾驶基准上,模型在DriveLM上取得**57.85**分,在MAPLM上取得**74.52**分,在nuScenes-QA上取得**56.71**分,在LingoQA上取得**69.90**分,在BDD-X上取得**52.18**分,在DriveAction上取得**80.99**分 [26] 现实世界任务定性评估 - 在具身导航任务中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0等模型,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和更一致的性能 [27] - 在具身操作任务中,MiMo-Embodied展现出强大的可供性和空间推理能力 [29] - 在自动驾驶场景中,模型能够处理交叉路口转弯、弯道掉头、跟车和变道超车等多样化复杂任务,并能感知道路上下文、整合车辆状态与导航意图以做出连贯决策 [32][33][34][35] - 在转弯、绕开障碍物和变道等复杂交互式操作中,MiMo-Embodied的性能提升最为显著 [36] 团队背景与未来方向 - 该研究由小米汽车陈龙团队完成,论文一作为郝孝帅博士,其于2024年8月加入小米汽车,在首席科学家陈龙博士指导下从事具身多模态大模型研究 [39][42] - 团队计划基于MiMo-Embodied模型的能力,进一步探索具身智能视觉-语言-动作(VLA)模型,以通过自然语言理解增强复杂环境中的交互 [38] - 模型已全面开源,相关论文、代码及权重已在arXiv、GitHub和Huggingface平台发布 [44]