机器之心

搜索文档
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心· 2025-07-27 08:45
大型语言模型与过程级奖励模型 - 大型语言模型(LLMs)在复杂推理任务中的能力提升很大程度上依赖过程级奖励模型(PRMs)的赋能 [1] - 最新研究发现现有PRMs在识别推理过程细微错误方面表现不佳,甚至可能不如随机猜测 [2] - 当前评估方法过度关注最终结果正确性,忽视对推理过程中错误类型的细粒度识别 [3] PRMBench基准的核心价值 - PRMBench是首个专为评估PRMs精细化错误检测能力设计的挑战性基准 [4] - 包含6216个问题和83456个步骤级细粒度标签,覆盖各种复杂推理场景 [11] - 从简洁性、合理性和敏感性三大维度细分九个评估子类别 [11] - 相比其他基准,PRMBench在错误类型检测、步骤评估等方面具有全面优势 [18] PRMBench的关键发现 - 表现最佳模型Gemini-2-Thinking的PRMScore仅68.8,远低于人类水平的83.8 [11] - 开源PRMs普遍落后于将主流LLMs提示为Critic模型的性能 [11] - 简洁性维度成为最大挑战,最佳模型ReasonEval-34B得分骤降至51.5 [17] - 部分模型存在显著"阳性偏好",正确步骤识别准确率超95%,但错误步骤识别仅17% [17] PRMs的潜在问题与局限性 - PRMs性能随错误步骤在推理链中位置后移而渐进式提升 [33] - 少样本ICL对闭源模型性能影响有限,提示需要更深层次的改进 [36] - PRMs易受"假阳性"影响,存在被模型"钻空子"的风险 [37] - 现有PRMs在多步过程评估中能力有限,提升空间巨大 [27] 研究意义与行业影响 - PRMBench将推动过程级奖励模型评估研究的范式转变 [42] - 为未来PRM开发提供关键指导,助力构建更可靠的AI系统 [42] - 促进开发更具鲁棒性和泛化能力的模型 [42] - 成为推动过程级奖励模型发展的坚实基石 [41]
实现 Agent 能力的泛化 ,是否一定需要对世界表征?
机器之心· 2025-07-27 01:30
实现 Agent 能力的泛化,是否一定需要对世界表征 - 现代AI智能体定义为能够感知环境、自主行动并提升性能的实体,其核心在于具备泛化能力,区别于仅响应预设规则的机器人[5] - 学界存在两大思想脉络:无模型范式认为智能行为可通过感知-行动循环直接涌现,无需构建显式世界模型;基于模型范式则认为灵活目标导向行为必须依赖内部世界表征[5] - DeepMind通过数学框架证明,具有泛化能力的智能体必然内化世界表征,且从策略本身可恢复环境转移函数的近似模型[6] - 研究区分短视行为与长远规划:短视智能体无需世界模型,而需长远规划的通用智能体必须比较不同行动引发的未来轨迹优劣[7] - 当前AI领域涌现多种世界模型构建方法,但现有范式存在缺陷且实践层面仍存非共识,焦点已从"是否需要表征"转向"如何表征"[8] 技术狂飙下的AI Assistant发展现状 - 当前多数AI Assistant仍停留在对话器阶段,与真正的通用行动体存在差距,需突破场景深度与交互延迟等瓶颈[2] - 技术架构上,Cross-Attention与MoE有望降低语音交互延迟,提升实时性[2] - 商业化路径存在争议:AI Assistant可能成为企业新盈利入口,但增量流量价值尚未验证;未来形态可能介于"第二手机"与"个人操作系统"之间[2] OpenAI前产品VP的产品方法论 - Peter Deng强调产品本身并非核心,产品品味才是企业护城河,其对当前AI产品的评价未公开但隐含高标准[3] - 打造爆款产品的超级团队需具备特定特征,不同团队对产品经理的特质要求存在差异化[3] 行业数据概览 - 本期通讯覆盖3项专题解读及27项AI&Robotics赛道要事,含10项技术动态、8项国内进展、9项国外进展[3] - 通讯总字数达22439字,免费试读比例8%,完整版需消耗99微信豆(约9.9元人民币)[4]
尖峰对话17分钟全记录:Hinton与周伯文的思想碰撞
机器之心· 2025-07-26 14:20
人工智能前沿研究 - Geoffrey Hinton与周伯文教授进行高密度智慧对话,涉及AI多模态大模型前沿、主观体验与意识、训练善良超级智能等话题[1][2] - 对话是Hinton中国行程中唯一面向AI和科学前沿研究者的公开活动[3] - 上海人工智能实验室发布全球领先的科学多模态大模型Intern-S1,多模态综合能力超越当前最优开源模型,多学科能力超Grok4等前沿闭源模型[3] 多模态模型与主观体验 - Hinton认为证明多模态模型具有主观体验取决于如何定义"主观体验"或"意识",大多数人对此有错误理解[4][5] - 通过"水平"和"垂直"的例子说明人们对词语运作方式的理解可能是完全错误的,类比到对主观体验的错误模型[5] - Hinton观点:当今的多模态聊天机器人已经具有意识[5] AI学习与体验 - 大型语言模型从文档中学习预测下一个词,而机器人等Agent可以从自身经验学习更多[6] - Hinton认为经验不是事物,而是Agent与物体之间的关系[6] - Richard Sutton提出"体验时代"概念,模型可以从自身体验中学习[6] AI善良与智能训练 - 训练AI变得聪明和善良是不同问题,可采用不同技术[8] - 国家可以分享让AI善良的技术,即使不愿分享让其聪明的技术[8] - 随着系统更智能,让其善良的技术可能需要改变,需要更多研究[14] AI与科学进步 - AI对科学帮助的典型案例是蛋白质折叠预测[15] - 上海人工智能实验室的AI模型在台风登陆地点预测和天气预报方面优于传统物理模型[15][16] - AI与科学交叉融合将带来突破[15] 年轻研究者建议 - 寻找"所有人都可能做错"的领域进行原创研究[18] - 坚持新思路直到真正理解为何行不通,即使导师否定也要保持质疑[18] - 重大突破来自坚持己见,即使他人不认同[19] - 无论直觉好坏都应坚持,因为好的直觉值得坚持,坏的直觉做什么都无关紧要[21]
直击WAIC:萝卜快跑入选「国家队」,AI数字人技术升级,百度全栈自研杀疯了
机器之心· 2025-07-26 12:17
核心观点 - AI技术已实现大规模实用化落地,尤其在自动驾驶和数字人领域取得显著进展 [4][5][10] - 百度作为全栈自研AI企业,在RoboTaxi和数字人技术方面处于行业领先地位 [10][42][47] - 自动驾驶出行服务萝卜快跑已覆盖全球十多个城市,累计提供超1100万次服务,并与Uber达成全球战略合作 [15][16][20] - 新一代数字人技术NOVA实现多项突破,包括双人互动、语音克隆和AI大脑升级,仅需10分钟样本即可复刻真人主播 [29][33][37][38] - 百度构建了从算力、框架、模型到应用的完整AI生态系统,推动AI技术在各行业的深度应用 [47][48][49] 自动驾驶进展 - 萝卜快跑成为WAIC"国家队"代表,获上海智能网联汽车示范运营牌照,正式进入浦东核心区 [12] - 国内已覆盖北京、深圳等十多个城市,海外拓展至迪拜、阿布扎比和香港,计划部署超1000辆无人车 [15][16][17] - 与Uber达成战略合作,计划年底前在亚洲和中东部署第六代无人车,未来拓展至全球市场 [20] - 商业模式已验证,展示中国自动驾驶技术快速复制和落地能力 [22] 数字人技术突破 - AI老罗数字人直播创纪录:6小时吸引1300万人次观看,GMV达5500万元 [27] - NOVA数字人技术实现三大升级: - 剧本模式:依托文心4.5 Turbo实现语调、表情和动作的实时调整 [30] - 动作生成:支持复杂语义动作和业界首个双人互动 [33] - 语音克隆:完美复刻声音气口和口头禅 [34][35] - 仅需10分钟真人样本即可生成超真实数字人,支持多智能体协同和实时决策 [37][38][39] AI全栈能力 - 智算集群和飞桨平台与萝卜快跑共同入选"中国人工智能产业创新成果展" [42] - 算力层面:自研昆仑芯P800和百舸平台,建成国内首个全自研三万卡集群,训练效率达99.5% [48] - 框架层面:飞桨成为国内唯一可与TensorFlow、PyTorch抗衡的深度学习框架 [48][49] - 模型层面:文心4.5 Turbo推理速度提升显著,成本下降80%,在8大维度评测中7项满分 [49] - 应用层面:覆盖搜索、网盘、智能办公等领域,推出"一句话做应用"的秒哒平台 [45][46] 战略布局 - 聚焦AI实际应用而非技术炫技,目标打造"数百万个超级应用" [43][50] - 通过全栈自研架构推动AI技术普惠化,成为驱动场景创新的底层动力 [47][51] - 文心大模型已开源,覆盖47B、3B等参数规模,推动产业落地 [49]
WAIC机器人探展:我被全场最靓的崽「Moz1」种草了
机器之心· 2025-07-26 12:17
人形机器人技术进展 - 2025年具身智能(Embodied AI)及人形机器人成为人工智能领域前沿热点,尤其在环境适应、感知决策行动能力方面显著提升[2][3] - 千寻智能发布的Moz1是国内首个高精度全身力控具身智能机器人,拥有26个自由度,功率密度比特斯拉Optimus高15%,速度、精度、安全性和仿生力控达行业最高水平[7] - Moz1展示出卓越的动态平衡性(太空步、S型压弯)、精细操作能力(掌上迷宫、搭积木)及柔性物体处理能力(叠衣服),显示人形机器人在真实环境中的适应性实现质的飞跃[11][12][14][16][18][20][22][23][24] 核心技术架构 - 公司采用端到端VLA(视觉-语言-动作)技术路线,自研Spirit v1模型实现感知-理解-执行闭环,攻克柔性物体长程操作等行业难题[29] - 硬件层面实现一体化力控关节(功率密度行业领先)、全身零延时遥操作、负载自重比1:1等突破,形成"AI模型进化+硬件性能突破"的深度协同模式[39][40][45] - 构建"脑体并进"通用机器人框架:大模型负责学习决策,机器人本体承担感知执行,打破软硬件脱节问题,开发可泛化落地的通用机器人[28][29][30] 商业化布局 - 瞄准制造业、服务业上百个核心场景(办公/家庭),形成"场景需求-技术攻关-产品落地-市场反馈"闭环开发逻辑[41] - Moz1已能完成桌面整理、扔垃圾、座椅归位等多场景任务,未来有望进化为办公环境全能助理[31][33][35][37][38] - 公司具备"自研大模型+机器人本体+场景落地"全链路能力,契合行业对灵活性、通用性和自适应性需求[42] 资本市场动态 - 成立1年半完成多轮融资,最新PreA+轮融资近6亿元,由京东领投,中网投、浙江省科创母基金等跟投[46] - 高盛预测2035年全球人形机器人市场规模达1540亿美元,中国凭借AI技术、机电一体化及制造业优势成为重要市场[48][49] - 行业进入融资爆发期,资本看好具身智能赛道红利及公司创始团队(韩峰涛等)的全球市场实践经验[46][47][49]
ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
机器之心· 2025-07-26 12:17
常规 LoRA 训练的隐藏缺陷 - 参数高效微调技术是预训练大模型在下游任务应用的关键技术,但 LoRA 仍面临训练不稳定、模型融合效果差、剪枝后性能下降等问题 [4] - LoRA 优化过程常陷入初始化点附近的次优解,限制模型泛化能力 [7] - 梯度更新集中在模型顶层适配器,导致底层适配器训练不足 [7] - 多个 LoRA 模型融合和剪枝等下游操作困难,效果不佳 [7] CoTo 策略的核心思想 - 采用渐进式激活策略,训练初期以较高概率随机失活部分 LoRA 适配器,迫使梯度更均匀流向所有层级 [5] - 训练中后期线性提高适配器激活概率,直到所有适配器完全参与训练 [8] - 该策略促进层级间均衡优化,提升模型线性模式连通性和 Dropout 稳定性 [8] CoTo 的实验结果 - 在常识推理与图像分类任务中,CoTo 模型展现优越的线性模式连通性,性能过渡平滑高效 [13] - 在 GLUE 数据集上,基于 LLaMA-2 和 DeBERTa-v3 模型的 CoTo 训练 LoRA 模块多任务合并准确率稳定超越基线 [13] - CoTo 增强模型剪枝容错能力,在结构化和非结构化剪枝中性能全面超越标准 LoRA [17] CoTo 的性能与效率 - 在视觉、语言和数学推理等多个领域基准测试中,CoTo 稳定提升多种 LoRA 变体性能 [24] - 在 HiRA 上应用 CoTo 可实现超 24% 的训练加速 [24] - 代码实现简洁,只需对现有 LoRA 训练流程做三步改动即可应用 [22] CoTo 的总结 - 通过渐进式训练策略有效解决 LoRA 训练中的层级不平衡和优化问题 [23] - 提升模型单任务泛化能力,增强 LoRA 适配器可组合性与鲁棒性 [23] - 无需修改模型架构,可作为即插即用模块与各类 LoRA 方法无缝集成 [23]
在WAIC现场,全球首个拥有「原生记忆力」的大模型亮相,但不是Transformer
机器之心· 2025-07-26 09:32
架构革新趋势 - Transformer架构统治大模型领域八年后,谷歌开始探索替代方案MoR,表明行业对架构革新已形成共识[1][2] - 国内企业RockAI推出非Transformer架构Yan 2.0 Preview,比谷歌变革更彻底,其3B模型在端侧设备实现多模态能力[3][4][5] - Yan架构显著降低计算复杂度,可在树莓派等低算力设备离线运行,突破Transformer的算力依赖限制[5][9] Yan架构技术突破 - 模型具备原生记忆能力,能将记忆融入参数实现持续学习,而Transformer模型每次对话需重新开始[6][16] - 通过可微的"神经网络记忆单元"实现生物式记忆存储/检索/遗忘,无需外挂知识库管理[17][19] - 在ARC-C(76.8)、ARC-E(91.7)等基准测试超越Llama3(79.6/92.3)、Gemma3(56.2/82.4)等同规模模型[14] - 机器狗Demo展示记忆持续性,重启后仍保留学习过的动作和偏好[20] 行业痛点解决方案 - 突破Transformer两大瓶颈:数据墙(高价值数据获取难)和算力依赖(端侧部署困难)[9] - 实现"训推同步",允许设备在推理时持续学习,解决剪枝/量化破坏再学习能力的问题[9][10] - 记忆机制带来时间维度和个性化特征,可能改变依赖海量数据的训练范式[21] 商业化应用前景 - 模型角色从回答者转变为用户思维延伸,实现长期陪伴和个性服务[22] - 离线智能使设备从工具进化为"数字大脑",硬件价值从配置转向智能进化能力[23][28] - 已在WAIC大会吸引硬件厂商合作,非Transformer架构开始扩散至AI硬件市场[34] 公司发展理念 - 三大核心理念:AI普惠化(端侧部署)、设备自主进化、群体智能涌现[24][25][26] - 定位"离线智能"而非端云结合,强调本地算力下的自主学习能力[27] - 坚持挑战反向传播算法等底层技术,展现长期主义研发态度[36][37]
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
机器之心· 2025-07-26 09:32
端侧智能发展现状 - 多模态大模型驱动的OS智能体在单屏动作落实和短链操作任务上表现突出,但面对复合长程任务(如跨应用比价下单、多网页新闻摘要)仍存在显著能力缺口[4] - 当前训练方式(环境感知、动作落实微调)优化了原子任务表现,但复合任务需解决长链条进度管理、异源信息整合等新挑战[4] 复合任务分类与挑战 - 三类复合任务:独立组合型(无依赖子任务拼接)、语境传递型(需跨应用信息继承)、深度分析型(需结合通用推理与设备操作)[11] - 主流移动端GUI智能体(OS-Atlas、UI-TARS等)在复合任务中普遍存在注意力涣散、信息传递失败、进度管理混乱等典型缺陷[14][16] UI-NEXUS测试基准 - 覆盖50款中英文应用(20本地+30在线),设计100个任务模板,平均最优完成步数14.05步,难度显著高于同类基准[7][21] - 包含动态测评平台UI-NEXUS-Anchor子集,支持可控环境下的可扩展测试开发[21] - 细粒度指标涵盖任务成功率、推理时延、Token成本等维度[21] 智能体技术方案对比 - Agent-as-a-Model方案(如UI-TARS-7B-SFT)在原子任务执行效率高,但复合任务完成率仅11%[25][29] - Agentic Workflow方案(如M3A)鲁棒性更强,但依赖GPT-4o导致高推理成本(时延长、费用高)[27][31] - 记忆机制差异显著影响表现:主动记忆型(Mobile-Agent-V2)优于部分记忆型,但计算冗余大[32] AGENT-NEXUS调度系统 - 采用分层架构(调度/执行/进程内存模块),将复合任务拆解为原子指令,任务完成率提升24%-40%[19][27][30] - 支持第三方智能体插件化接入(如UI-TARS-7B-SFT),推理开销仅增加8%[23][27] - 通过显式调度解决信息传递问题,逼近人工拆解指令的60%强上限表现[29][30] 未来技术方向 - 需融合领域微调模型的高效执行与工作流系统的复杂调度能力[31][32] - 系统级设计将成为突破复合任务瓶颈的关键,推动端侧智能向AI操作系统演进[35][36]
GPT4核心成员、清华校友赵晟佳任Meta超级智能实验室首席科学家
机器之心· 2025-07-26 08:19
Meta超级智能实验室(MSL)的成立与架构 - Meta成立Meta超级智能实验室(MSL),整合基础研究、产品和FAIR团队,并新建专注于下一代模型开发的实验室[1] - MSL由Scale AI前CEO Alexandr Wang领导,担任公司首席人工智能官[4] - 实验室从OpenAI、Anthropic、谷歌DeepMind挖来11位顶尖人才[4] 人才战略与关键任命 - 为实现通用智能愿景,Meta提供硅谷最优厚薪酬待遇,通过交易吸引顶级研究人员[2] - 任命ChatGPT联合创始人赵晟佳为MSL首席科学家,与扎克伯格和Alexandr Wang直接合作[6][11] - 赵晟佳在OpenAI期间参与创建ChatGPT/GPT-4等明星项目,曾任合成数据团队主管[18] 研究体系与方向 - Alexandr Wang提及赵晟佳开创全新扩展范式,可能明确未来AI科研方向[12][13] - Yann LeCun仍担任FAIR首席科学家,职位未变动[22] - Meta形成MSL和FAIR两大实验室并行的研究架构[22] 核心人物背景 - 赵晟佳本科毕业于清华大学,博士毕业于斯坦福大学计算机科学专业[17] - 曾获ICLR 2022杰出论文奖,工作三年即具备亮眼履历[17][19] - 11人豪华团队包括多位来自顶尖AI机构的研究人员[4][5]
图灵奖得主Hinton国内首次现身演讲:AI超越人类后,我们该怎么做
机器之心· 2025-07-26 08:19
人工智能发展历史 - 学界对AI存在两种理解范式:逻辑型(符号规则表达操作实现推理)与神经网络型(智能基础在于学习神经网络中的链接)[5] - 1985年开发的小语言模型通过分析词汇特征关联预测下一个词 未存储任何句子[7][8] - 技术发展脉络:Yoshua Bengio扩大模型规模→计算语言学家接受特征向量嵌入→谷歌开发Transformer→OpenAI推出ChatGPT[9] 大语言模型原理 - 当前LLM被视为1985年小语言模型的技术延续 使用更复杂神经元结构与多词输入建立特征交互[12] - LLM理解语言方式与人类相同:将语言转化为特征并以完美方式整合[13][14] - 词汇可类比为多维乐高积木 通过组合表达复杂含义 语言成为建模工具[16][17] - 词汇具有动态语义特征 根据上下文调整连接方式 类似蛋白质结合机制[19][20][22] 数字智能优势 - 数字智能可实现软件与硬件分离 软件具有永恒性[29] - 数字智能间知识传递效率远超人类 每秒可共享上万亿比特信息[37][40][41] - 模型权重复制与参数平均化技术实现跨硬件知识协同 如GPT-4并行运行[39][43] - 数字智能能耗虽高但具备可复制性 生物智能能耗低但知识迁移效率低下[45] AI未来发展挑战 - 高智能AI可能自主产生生存与控制动机 超越人类操控能力[47][48][49] - AI具备不可替代的行业价值 医疗教育等领域应用使全球无法彻底消除[54] - 需建立国际AI安全合作机制 类似冷战时期核管控模式[58][59][62] - 训练AI向善的技术需独立研发 各国可基于数据主权贡献解决方案[61] 技术应用案例 - DeepSeek采用知识蒸馏技术 将大网络知识迁移至小网络[33] - 神经网络教学模仿师生关系 教师优化连接方式 学生简化网络结构[34] - AlexNet在2012年ImageNet挑战赛突破图像识别 成为计算机视觉里程碑[66]