机器之心
搜索文档
挑战ReAct!MetaGPT团队提出ReCode智能体新范式
机器之心· 2025-12-04 06:10
文章核心观点 - 当前主流AI智能体框架(如ReAct和带规划器的智能体)受限于固定的决策粒度,导致在复杂任务中效率低下、适应性差[2] - DeepWisdom的研究团队提出ReCode新范式,其核心洞察是“规划就是高层次的行动”,通过递归代码生成统一规划与执行,使智能体能在不同决策粒度间自由切换[3][11][12] - 实验证明,ReCode在任务成功率、推理成本和训练效率上均显著优于现有基线方法,代表了智能体范式的重大升级[6][19] 现有智能体范式的局限性 - **ReAct智能体**:采用固定的细粒度观察-动作循环,每次仅执行一个原始动作,缺乏全局规划,在复杂长期任务中易迷失方向[8][9] - **规划-执行分离的智能体**:规划器与执行器模块分离,使用不同语言(如自然语言与动作指令),损害动态适应性并限制泛化能力,且常依赖预定义模板[10] ReCode范式的关键设计与原理 - **统一表征**:用统一的代码表征表示所有决策,高层计划表示为占位符函数,低层动作表示为可执行函数[12] - **递归工作流程**:系统将任务指令转换为根占位符函数,智能体生成可混合占位符与原始动作的代码,执行时递归展开占位符直至全部变为原始动作[15][16] - **技术实现**:通过统一变量命名空间传递上下文、设置最大递归深度防止无限循环、引入纠正机制处理代码生成错误[16][17] ReCode带来的性能提升 - **推理性能提升**:在ALFWorld未见任务上成功率高达96.27%,远超ReAct的64.18%和CodeAct的85.07%;在WebShop环境中比最佳基线ADaPT提升21.9%;三个环境平均性能从基线最佳的47.4%提升至60.8%[6][20][22] - **成本效率提升**:一条ReCode轨迹的平均Token成本比ReAct低78.9%,比CodeAct低84.4%,花费不到对手的四分之一[23][24] - **训练效率提升**:在ScienceWorld环境中,ReCode仅用3500个训练样本达到88.5%奖励,而ReAct需要12833个样本(3.7倍)才能达到相似性能;使用前10%数据时,ReCode用688个样本达到44.87%性能,ReAct用3094个样本(4.5倍)仅达34.05%[24][25][26] 影响与未来展望 - 该研究在推特上获得约20万浏览量,引发学术界与工业界广泛关注[7] - ReCode的递归结构产生层次化训练数据,使模型不仅能学习执行,还能学习规划与分解,掌握可迁移的任务结构[25] - 未来研究方向包括:通过专门预训练让模型理解递归分解逻辑、用强化学习奖励高效层次化规划、引入自动课程学习等[27]
ICLR重磅回应:评审回滚、AC重置、封禁泄密者、严查贿赂串通
机器之心· 2025-12-04 03:18
事件概述 - ICLR 2026同行评审过程发生重大安全事件,OpenReview平台API漏洞导致超过10,000篇投稿数据泄露,占总投稿量的45% [3][9] - 恶意行为者利用漏洞爬取论文作者、审稿人及领域主席详细信息并公开散布,引发大规模串通企图及第三方骚扰、恐吓和贿赂审稿人行为 [5][6][10] - 官方采取重磅措施,回滚评审数据至讨论期开始前状态并全员重新分配领域主席,以彻底斩断恶意干扰链条 [5][13] 事件时间线 - 11月27日东海岸时间上午10:09,ICLR团队获悉OpenReview漏洞导致信息泄露,一小时后漏洞被修复 [11] - 同日下午12:09,发现包含10,000篇投稿的数据集正在流传,官方发出下架请求并于12月1日前清除所有公开版本 [11] - 11月28日,冻结评审表格编辑功能,删除恶意评论并封禁用户,随后向所有参与者发送邮件通知回滚评审和重新分配AC的决定 [11] - 同日晚间9:30完成评审意见回滚,11:00完成AC重新分配 [11] - 调查显示漏洞可能早在11月11日已被利用,比公开爆发提前半个月 [6][12] 处理措施 - 官方将评审文本和分数回滚至漏洞公开前状态,并将每篇论文重新分配给新的领域主席 [13] - 新的AC负责查看原始评审意见并撰写元评审,元评审期限延长至1月6日,力争1月26日前发布录用通知 [13] - 泄露数据始作俑者已被平台封禁,任何试图利用泄露信息进行串通的论文将面临直接拒稿及纪律处分 [5][15] 影响评估 - 此次事件被定性为对ICLR及更广泛AI学术界的空前攻击,涉及第三方对审稿人进行恐吓与贿赂的恶劣行径 [6][17] - 事件对学术诚信构成严重风险,若不果断行动将玷污会议声誉、损害论文价值并开创不良先例 [12][17] - 官方正积极与其他AI会议分享调查结果,旨在推动整个学术社区在此次事件后变得更加强大 [17]
估值7.5亿美元初创意欲「撬动」8000亿半导体市场?前谷歌AlphaChip主导者创业研发「AI芯片设计自动化」
机器之心· 2025-12-04 03:18
公司概况与愿景 - 公司Ricursive Intelligence由两位前谷歌研究员Anna Goldie和Azalia Mirhoseini创办,致力于通过AI实现递归式自我改进,让AI能够自主设计芯片[1][5][8] - 公司核心愿景是构建能够架构、验证和实现芯片的AI,使AI模型和芯片能够在紧密的循环中协同演化,形成一个闭环的递归加速器[1][3] - 公司已获得由红杉资本和Striker Venture Partners投资的3500万美元融资,在没有产品的情况下估值已达7.5亿美元,首款新品预计明年推出[12] 核心技术AlphaChip与创新 - 创始团队共同主导了谷歌的AlphaChip项目,该项目是用于芯片布局优化的新型强化学习方法,相关论文于2020年在《自然》杂志发表[8][10] - AlphaChip技术能在几小时内完成人类需要数周才能完成的芯片布局设计,该技术已被用于设计谷歌的TPU v5e、TPU v6等多代AI加速芯片[10] - Ricursive Intelligence的核心技术创新在于将递归智能原理直接应用于复杂芯片设计,旨在通过持续反馈循环自主改进芯片架构、优化布局并提升效率,区别于依赖预定义算法和人工引导的传统电子设计自动化工具[11] 行业影响与潜在变革 - 当前定制芯片研发过程成本高昂且繁琐,通常耗资数亿至数十亿美元,耗时两到三年才能完成,全球有实力做定制芯片的公司屈指可数[11] - 公司技术若成功,可将芯片设计周期从目前的2-3年缩短至几周甚至几天,使任何科技公司都能在没有专门芯片设计团队的情况下从零开始构建定制芯片[12][13] - 该技术有望重塑价值8000亿美元的芯片行业,为AR/VR、机器人、自动驾驶等企业开启定制芯片的可能性[13]
突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」
机器之心· 2025-12-03 08:30
文章核心观点 - 中兴星云大脑团队推出具身视觉-语言基础模型EmbodiedBrain,旨在解决当前大语言模型在具身智能任务中面临的模型设计与实际需求脱节、实时延迟与性能权衡、离线评估不真实三大核心瓶颈 [2] - 该模型以7B和32B两种参数规格构建,提供了涵盖数据架构、训练策略、评估体系的全流程创新框架,为下一代通用具身智能体发展提供突破性解决方案 [2] 架构创新 - 模型基于Qwen2.5-VL框架,采用模块化编码器-解码器架构,实现“感知-推理-行动”全链路深度协同 [5] - 核心组件包括原生分辨率视觉Transformer、轻量级MLP视觉-语言融合器和基于Qwen2.5初始化的解码器,各司其职且高效联动 [9] - 工作流程将视觉和文本输入转化为多模态token序列,解码器输出包含自然语言响应、分步规划和可执行动作序列的三部分结构化结果 [10] - 以“从冰箱取番茄并加热”任务为例,模型能生成清晰规划(导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄)和对应动作序列,实现语义理解到物理执行的闭环 [10] 数据与训练 - 创新设计规划中心型结构化数据格式,严格遵循“用户查询-模型响应-显式规划-底层动作”层级逻辑,确保高层任务目标与底层执行步骤精准对齐 [12] - 训练数据涵盖四大核心类别:通用多模态指令数据(约52K样本)、空间推理数据(约130K样本)、任务规划数据(约51.5K样本)和视频理解数据(约20K样本) [14][15][17] - 通过对比5种数据混合方案,确定最优配比(52:130:51.5:20),该配比在空间推理平均得分达70.27%,任务规划平均得分达64.64% [17][25] - 训练采用两阶段策略:Stage 1多模态拒绝采样SFT提升基础感知与推理能力;Stage 2 Step-GRPO多任务强化学习聚焦长程任务规划与输出格式标准化,实现约20%训练加速 [20][21][24] 评估体系 - 构建三维评估体系,覆盖14项主流基准测试,包括通用多模态能力(5项)、空间感知(4项)和任务规划(5项) [27] - 在通用多模态能力评估中,EmbodiedBrain-32B在MM-IFEval达46.98%,较Qwen2.5-VL 32B(46.66%)与RoboBrain 2.0 32B(39.75%)显著领先;在MMStar达65.80%,超越同类模型 [28] - 在空间感知评估中,EmbodiedBrain-7B在BLINK达88.11%,较RoboBrain 2.0 7B(62.94%)提升39.99%;32B版本在CV-Bench达83.64%,EmbSpatial达77.03%,均为测试模型最高 [30] - 在任务规划评估中,EmbodiedBrain-32B在Internal Planning基准F1分数达90.50%,较Qwen2.5-VL 32B(28.30%)提升超2倍;在VLM-PlanSim-99仿真基准成功率斩获46.46%,几乎是对比模型的两倍 [31] 典型案例与开源 - 在空间推理任务中能精准回答物体相对位置、目标物体计数等问题,例如正确识别“车门在左侧”、“手中物品为鸡蛋” [37] - 在任务规划案例中,针对“清洗碗具并冷藏”任务,模型生成11步完整执行序列,从导航至碗具到存放至冰箱,每一步符合物理逻辑与任务流程 [41] - 团队已将全部训练数据、模型权重与评估方法开源,同时开源创新的VLM-PlanSim-99仿真环境,为具身智能领域提供统一基准平台与工具链 [43] - 未来将重点推进多智能体协同任务和领域随机化技术研究,提升模型在不同真实机器人平台上的适配性,推动具身智能从仿真环境走向实际应用 [43]
老外傻眼!明用英文提问,DeepSeek依然坚持中文思考
机器之心· 2025-12-03 08:30
DeepSeek模型新版本发布 - DeepSeek上新两个新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - V3.2版本推理能力能与GPT-5硬碰硬,Speciale结合长思考和定理证明能力表现媲美Gemini-3.0-Pro [1] - 海外研究者反馈DeepSeek推理速度显著提升 [1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理能减少Token消耗并保持准确性 [7] - 研究评估了DeepSeek R1、Qwen 2.5和Qwen 3模型在七种目标语言中的表现 [8] - 与英语相比,非英语语言推理能实现20-40%的Token降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等 [11] - Qwen 3表现更显著,韩语的token减少量高达73% [11] 中文推理特性分析 - 海外用户发现即使用英文询问,DeepSeek在思考过程中仍会使用中文 [1] - 评论普遍认为汉字信息密度更高,表达相同含义所需字符量明显更少 [4][6] - 中文相比英文能够节省推理token成本,但并非最有效率语言 [12] 长上下文多语言性能比较 - OneRuler基准包含26种语言,用于评估LLM在长达128K令牌的上下文理解能力 [12] - 英语在长上下文任务中排名第6,波兰语位居榜首 [14] - 英语和中文均未进入长上下文性能排名前五的语言 [18] 训练数据对思考语言的影响 - 国产大模型采用更多中文训练语料,思考过程出现中文是正常现象 [20] - AI编程工具Cursor的Composer-1模型思考过程完全由中文构成 [21] - OpenAI的o1-pro模型也会随机出现中文思考过程 [25]
原来这届中国AI年轻人,已经卷到业界都惊了
机器之心· 2025-12-03 04:01
文章核心观点 - 腾讯广告主办的算法大赛反映了推荐系统从判别式向生成式方法的范式迁移 [10][16] - 比赛吸引了8000多人报名,冠军团队可获得200万元奖金,总奖金池达360万元 [11][23] - 参赛选手在真实业务数据上展现出与工业界接轨的技术能力,年轻一代已走在技术前沿 [29][31] 比赛背景与赛题设置 - 比赛目的是让模型预测用户下一刻可能感兴趣的广告,提升广告推荐精准度 [11] - 赛题为"全模态生成式推荐",使用脱敏的真实多模态数据(文本、图像、语音、视频等) [16][17] - 数据规模达到千万量级,包含大量缺失值和噪声,接近实战场景 [21][23] 技术路线与创新 - 传统判别式方法存在冷启动问题,无法有效处理新用户或新物品 [13][14] - 生成式方法通过多模态信息理解实体本质,实现强大的泛化能力 [15] - 选手尝试不同生成式框架,创新性地将大语言模型方法应用于广告推荐领域 [31] 参赛团队表现 - 冠军团队Echoch来自华中科技大学、北京大学、中国科学技术大学 [25] - 亚军团队leejt来自中山大学 [27] - 选手方案可直接用于分布式部署,与工业界实际工作非常接近 [29] 社区互动与人才培养 - 参赛选手在小红书等平台积极分享技术方案,形成独特的开源协作氛围 [2][5][7] - 腾讯设立"青云计划"吸纳优秀选手,提供导师、资源和算力平台支持 [35] - 年轻一代展现出的科研工程能力和开源文化获得高度认可 [31][35]
为什么给机器人装上昂贵的触觉传感器,反而让它变笨了?
机器之心· 2025-12-03 04:01
文章核心观点 - 多所顶尖大学合作提出一种名为“组合策略”的新方法,以解决机器人多传感器融合中传统特征拼接法的根本缺陷 [2][9][10] - 传统特征拼接法在处理稀疏模态(如触觉)时将其视为噪声,导致性能下降,例如在遮挡抓取任务中,增加触觉信息反而使成功率从35%暴跌至5% [4][12] - 新方法通过为每个传感器模态训练独立的专家策略,并在策略层面进行组合,显著提升了任务成功率、模块化和系统鲁棒性 [10][15][16][29] 当前方法的局限性 - 主流多模态机器人学习采用特征拼接法,即提取所有传感器嵌入后拼接成一个大向量,再输入单一神经网络策略 [6] - 该方法存在两个根本缺陷:一是将统计上罕见的稀疏模态信号(如触觉)视为噪声并进行过滤;二是缺乏模块化,添加或移除传感器需从头重新训练整个策略 [9][12] - 特征拼接法导致模态间紧密耦合,使得系统在传感器故障时易发生灾难性故障,且产生昂贵的重训练成本 [12] 组合策略解决方案 - 解决方案核心是为每个感官模态(如RGB、触觉)训练独立的、基于能量的专家策略,使其专注于自身的感官流 [10][13] - 在模态内部可进一步分解为互补子策略,例如将视觉分解为粗略几何推理和细粒度细节 [13] - 通过一个路由器网络学习共识权重,以决定每个模态对最终动作的影响程度,组合多个策略对应于概率分布相乘,即简单的分数函数相加 [13][16] 解决方案的优势 - 有效解决稀疏性问题:每个专家策略互不干扰,稀疏模态(如触觉)的专家能在富含接触的操作中高度专业化,不再与主导模态竞争表征能力 [15] - 实现模块化设计:专家独立训练,添加新传感器只需训练新专家并与现有专家组合,无需重训练整个系统,支持增量学习 [16][18] - 具备鲁棒性与自适应性:在执行过程中能应对突发扰动(如被抢走物体)或物体被移动等状况,并成功完成任务 [20][21] 实验结果对比 - 在RLBench模拟的四个操作任务上,新方法平均成功率为66%,显著优于单模态策略的49%和特征拼接法的56% [24] - 在真实世界遮挡记号笔抓取任务中,新方法成功率达65%,远高于仅使用视觉的35%和特征拼接法的5% [28] - 在勺子重定向任务中,新方法成功率75%对比特征拼接法的21%;在拼图插入任务中,新方法成功率52%对比特征拼接法的40% [28] 研究意义与结论 - 该研究通过从特征级拼接转向策略级组合,为模态稀疏性问题提供了系统性解决方案 [29] - 方法实现了增量学习和鲁棒部署,对现实世界中传感器的逐步添加或更换具有深远意义 [18][29] - 核心见解在于让每个模态拥有自己的专家并学习其相对影响力,而非强制将所有传感器输入单一网络 [29]
借鉴人脑「海马体-皮层」机制,红熊AI重做了一个「记忆系统」
机器之心· 2025-12-03 04:01
行业趋势:AI发展重点转向记忆能力 - 大模型行业竞争焦点从扩大模型规模转向提升记忆能力和用户理解能力[4] - Google Research提出的"嵌套学习"新机器学习范式被视为重大突破,使AI能够持续学习新技能而不遗忘旧技能[2][3] - 当前AI普遍缺乏长期记忆能力,制约其从即时回答工具向个性化超级助手演进[5] 技术瓶颈:现有AI记忆系统缺陷 - 主流大模型存在8k-32k tokens的上下文窗口限制,长对话中早期信息易被"挤出"[6] - Transformer架构存在注意力衰减问题,产生"近因效应",更关注最新输入而忽略早期关键信息[6] - 多Agent协作场景中各模块形成"记忆孤岛",用户需重复提供信息[7] - 语义解析失真问题突出,静态知识库与动态个性化需求间存在鸿沟[7] 解决方案:红熊AI记忆熊技术突破 - 记忆熊采用"全链路重构" approach,借鉴人脑"海马体-皮层"分工机制构建分层记忆架构[11][13] - 技术架构分为显性记忆层和隐性记忆层,分别管理结构化信息和行为习惯[14][15][16] - 通过情感倾向加权机制对重要信息赋予更高权重,模拟人类情绪记忆[17] - 实现97%的token效率提升和82%的语境偏移率降低,复杂推理准确率达75.00±0.20%[17] - 在LOCOMO数据集测试中,搜索延迟p50控制在0.137秒,总延迟p95低至1.232秒[18] 商业应用:记忆熊落地场景与成效 - 智能客服场景实现70%人工替代率和98.4%自助解决率,创建客户终身记忆图谱[21][22] - 营销场景构建用户兴趣记忆图谱,实现超个性化营销推荐[22] - 企业数智化领域提升新员工知识获取效率50%以上,打破部门数据孤岛[23] - AI教育场景通过追溯数月错题本实现精准查漏补缺,重新定义个性化教学标准[23]
刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0
机器之心· 2025-12-03 00:06
产品发布概述 - Mistral AI发布新一代开放模型Mistral 3系列 包括多个模型 所有模型均采用Apache 2.0许可证发布[4] - 该系列模型发布标志着欧洲重返由中美主导的AI竞赛[4] - 公司声称Ministral模型代表同类产品中最佳性价比 Mistral Large 3跻身前沿指令微调开源模型行列[4] Mistral Large 3模型详情 - Mistral Large 3是混合专家模型 总参数量675B 激活参数41B 在3000台NVIDIA H200 GPU上从头训练[5][7] - 该模型在通用提示词上达到与市场最好指令微调开放权重模型同等水平 具备图像理解能力 在多语言对话中表现一流[7] - 在LMArena排行榜的OSS非推理模型类别中首次亮相即排名第2 在所有开放模型中排名第6[14] - 模型还有推理版本即将推出[16] Ministral 3模型详情 - Ministral 3系列针对边缘和本地用例 提供3B 8B和14B参数三种尺寸[19] - 每种尺寸均发布基础版 指令版和推理版变体 全部具备图像理解能力且采用Apache 2.0许可证[19] - 公司强调Ministral 3实现所有开源模型中最佳性价比 其指令模型性能相当或更好 同时生成token数量通常少一个数量级[22] - Ministral推理变体14B版本在AIME '25上达到85%准确率[23] 合作伙伴与部署优化 - Mistral与NVIDIA vLLM和Red Hat合作 提供更快更易用的Mistral 3[17] - 发布采用NVFP4格式的检查点 可使用vLLM在Blackwell NVL72系统及单个8×A100或8×H100节点上高效运行Mistral Large 3[17] - 所有新Mistral 3模型在NVIDIA Hopper GPU上训练 利用HBM3e内存处理前沿规模工作负载[17] - NVIDIA为DGX Spark RTX PC笔记本电脑及Jetson设备提供Ministral模型优化部署方案[18] 平台可用性与定制服务 - Mistral 3即日起可在Mistral AI Studio Amazon Bedrock Azure Foundry Hugging Face等平台使用 即将在NVIDIA NIM和AWS SageMaker上线[25] - 公司提供定制模型训练服务 为组织微调或完全适配模型以满足特定需求 确保企业级部署的AI解决方案安全高效[27] 战略背景分析 - Mistral此次全线回归Apache 2.0协议 被视为对DeepSeek激进开源策略的战略调整[28] - 发布可看作公司对DeepSeek的正面追赶 通过在MoE架构上深耕和端侧模型差异化优势 在中美巨头挤压中寻找机会[28]
句子级溯源+生成式归因,C²-Cite重塑大模型可信度
机器之心· 2025-12-03 00:06
核心技术突破 - 首创上下文感知的归因生成技术,使大模型在生成内容时自动标注精准信息来源,并确保生成内容与引用的外部知识高度语义对齐[2] - 通过引入上下文感知机制,将引用标记从被动的占位符转变为带有上下文语义的特殊令牌,显著提升引用质量和模型回答准确性[2][5] - 核心包含三大关键组件:上下文感知嵌入机制、上下文引用对齐机制和上下文注意力增强机制,通过距离衰减系数和注意力约束维持引用与内容的语义连贯性[7][8] 技术优势 - 解决了现有归因模型的三大关键缺陷:技术路径固有局限、引用标记沦为通用占位符、引用质量与回答准确性失衡[5] - 模型最终损失函数为默认损失、引用对齐损失、路由器损失与注意力增强损失的加权和,确保引用质量与回答准确性的协同优化[8] - 注意力热力图可视化显示,C²-Cite中后续句子对前文的注意力显著增强,形成跨引用的语义桥梁,这是生成高质量溯源内容的关键[15] 性能表现 - 在ALCE基准测试的三个数据集(ASQA、ELI5、QAMPARI)上全面评估,C²-Cite++在引用F1分数上平均提升5.8%,在回答正确性指标上平均提升17.4%[10][12] - 相比需要多轮迭代的方法,C²-Cite++实现了最高的处理速度,在实际应用中具有明显优势[13] - 在不同质量的训练数据上均表现稳定,即使使用普通训练数据也能超越依赖高质量数据的传统微调模型[12] 行业影响 - 该工作已被国际顶级会议WSDM 2026收录,为构建更加可靠、透明的AI溯源系统提供了重要的技术路径[2][17] - 通过"上下文感知"的设计思想,在内容生成过程依赖可靠的引用知识库,解决了大模型生成内容的可信度问题[2][17]