Workflow
强化学习
icon
搜索文档
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣
机器之心· 2025-12-13 01:13
论文事件与核心作者 - 苹果公司一篇关于强化学习框架RLAX的论文在arXiv公开后又被迅速撤稿,具体原因不明,但论文的v1版本已被互联网记录[1][3] - 论文的四名核心作者中,通讯作者Kelvin Zou已从苹果离职加入Meta,另一通讯作者Cheng Leong是已在苹果工作超过13年的AI基础设施主管[8] - 作者名单中还包括六位近期已从苹果离职并加入其他顶尖AI公司的研究人员,他们分别加入了Meta、OpenAI、Anthropic、xAI以及一家隐身创业公司[9] RLAX框架的技术特点 - RLAX是一个专为在大规模分布式TPU集群上高效执行先进强化学习算法而设计的框架[12] - 框架采用参数-服务器架构,实现了训练器、推理工作器和验证器的逻辑分离,以灵活分配计算资源[14] - 系统完全支持抢占式调度,允许在更高优先级任务出现时立即回收TPU资源,而不会导致训练崩溃[15] - 框架提供可编程配置选项,允许用户在在线策略和离线策略强化学习之间灵活选择,通过设置陈旧度界限来控制权重更新频率[16] 实验设置与性能表现 - 实验使用了非苹果自家的硬件与服务:算力底座为1024张谷歌TPU v5p,验证环境调用亚马逊AWS Lambda服务,基础模型采用中国阿里开源的QwQ-32B模型[22][23] - 该实验组合被描述为“美中技术大乱炖”,反映了AI基础设施领域的实用主义倾向以及国产模型在代码推理领域的强大影响力[26] - 实验结果显示,RLAX仅用12小时48分钟,在1024个TPU v5p上将QwQ-32B模型的pass@8准确率提高了12.8%,同时在训练期间保持了对任务抢占的鲁棒性[24] 关键技术挑战与解决方案 - 论文披露了一个由bfloat16浮点数格式的非结合律特性引发的严重Bug:在TPU训练中,理论上应恒等于1.0的重要性采样比率出现了数值偏差[28][29][32] - 该问题的根源在于,JAX编译器在推理和训练阶段采用了不同的算子融合策略,导致计算顺序的微小差异在bfloat16下被放大,引发训练崩溃[33] - 苹果团队采用的解决方案是在训练器中强制重算,禁用大部分激活值的保存,迫使训练端的计算顺序模仿推理端,从而消除了数值问题[33] 行业与公司意义 - RLAX论文证明了苹果公司在AI基础设施领域拥有世界顶级的工程能力,能够驾驭复杂分布式系统并解决底层数值难题[35] - 论文的发布与撤稿事件,以及多位核心AI人才的流失,成为苹果AI发展当前阶段的一个标志性注脚[36]
全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心· 2025-12-13 01:02
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向,能够解决仅靠模仿学习导致的泛化能力不足问题,使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”和“探索-内化”的循环迭代,有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题,为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明,iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力,例如将抓取新物体的成功率从35%提升至80%,并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - **重要性**:仅靠监督微调的模仿学习在遇到未见情况或数据不完美时,机器人会不知所措,而在线强化学习允许机器人通过试错发现更优解,是实现机器人**非常鲁棒、持久工作**的关键 [8] - **挑战一:环境差异**:物理机器人任务周期长、奖励稀疏,与在离线数据集上训练的聊天机器人不同,学习更为困难 [12] - **挑战二:模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现“灾难性遗忘”或训练崩溃,性能可能倒退 [12] - **挑战三:算力负担**:在本地对几十亿参数模型进行全量梯度更新,硬件要求极高,常超出机器人控制器算力极限 [12] 行业解决方案路径 - **第一种:外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作,VLA本身参数不变,**没有真正发生质变** [19] - **第二种:暴力美学**:直接使用PPO等算法全量微调VLA,勇气可嘉但易导致模型坍塌且算力要求高 [19] - **第三种:从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力,是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - **模型架构**:VLA模型分为**VLM主干**和轻量级**Action Head**,采用LoRA技术避免全量微调 [17][18] - **第一阶段:在线强化学习**:**冻结VLM主干**,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人安全探索 [21][26] - **第二阶段:监督学习**:**解冻VLM主干**,对整个模型进行全参数微调,训练数据混合了RL探索出的新成功轨迹与原始专家数据,防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [32] - **循环迭代**:两个阶段交替进行,形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而标准PPO直接微调VLA则震荡剧烈,甚至性能下降,证明分阶段冻结参数至关重要 [35] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA在已学任务上表现大幅提升,例如将成功率从43%提升到83%,并能学会完全没见过的任务 [38] - **真实世界表现**:在Panda机械臂抓取新物体任务中,仅靠SFT的成功率约为35%,经iRe-VLA在线学习后,成功率**飙升到了80%**,且在完全未参与训练的第三类物体上,成功率也从37%提升至61%,显示出强大的泛化能力 [40][43] - **消融实验**:若第二阶段不解冻VLM,模型性能提升将遇到瓶颈,证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - **经济性**:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署场景 [54] - **持续学习**:使机器人能通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [54] - **行业影响**:iRe-VLA是**全球最早将在线RL引入VLA的工作之一**,被Physical Intelligence的π*0.6论文引用,代表了该方向的前沿进展 [19][50]
具身智能之心论文辅导正式推出了,国内最专业的师资来啦!
具身智能之心· 2025-12-12 07:59
公司业务与服务 - 公司正式推出具身智能之心论文辅导服务,提供专业师资支持 [1] - 公司服务覆盖大模型、视觉语言模型、机器人技术等多个前沿研究方向,包括VLA、强化学习、3DGS等 [1] - 公司提供论文全流程指导、实验指导以及申博指导等服务 [4] - 公司服务范围涵盖从顶级会议期刊到毕业设计等多种论文级别,包括CCF-A/B/C类会议、SCI各分区、EI等 [5] 市场表现与成果 - 公司辅导的论文中标率很高,已有多篇被CVPR、AAAI、ECCV等顶级会议和期刊收录 [4] - 公司根据不同论文级别设定不同的辅导价格 [4] 客户咨询与联系 - 公司支持带课题或研究方向进行咨询 [2] - 客户可通过指定微信联系公司进行更多咨询或获取论文辅导内容 [2][6][7]
荣获国家级科技奖一等奖,网易伏羲产学研协同创新获权威认可
搜狐财经· 2025-12-12 04:15
奖项与项目概况 - 网易与天津大学、中国科学技术大学、中国航天科工集团第四研究院十七所合作的项目《基于强化学习的智能决策关键技术及应用》荣获中国图象图形学学会“2025年度中国图象图形学学会科技进步奖-一等奖” [1] - 2025年度中国图象图形学学会科学技术奖共评选出一等奖项目12项,其中科技进步奖4项,二等奖项目21项 [2] - 该项目针对“奖励质量低、经验复用难、环境波动大”三大挑战,提出了三项创新技术,在策略性能、学习效率、跨任务泛化方面达到国际领先水平 [3] 技术应用与落地成果 - 项目技术已应用于网易旗下多款大型商业游戏,并完成了国内首个强化学习技术在大型商业游戏的自动化测试 [4] - 项目技术支撑海思完成了国内首次14nm工艺下全链条EDA工具的国产化替代 [4] - 项目技术落地华为天筹求解器,并助力其性能超越国际领先商业求解器Gurobi [4] - 项目技术支撑完成了多项国防军事智能化任务 [4] - 项目构建的多行业通用智能决策平台在工业基础软件、国防军事、文娱智能、生命健康等领域广泛应用落地 [4] 游戏作为技术试验场 - 获奖项目在网易游戏《逆水寒》中落地,是产学研协同创新的成果 [1] - 网易伏羲实验室通过《逆水寒》在图形技术与人工智能领域进行探索,以游戏AI的创新实践助力数字文娱作品突破边界 [1] - 在2024年9月的云栖大会上,网易展示了《逆水寒》手游的“剧组模式”,该模式由网易伏羲的智能捏脸、智能角色创造等AI技术支撑,助力数百万玩家从内容消费者转型为内容创作者 [3] - 此次获奖彰显了游戏作为前沿技术试验场的独特价值 [3] 行业意义与未来展望 - 图象图形学是支撑多项国家战略需求的关键前沿交叉学科,应用范围涵盖人脸识别、航天卫星视觉导航、国防装备精确制导等 [2] - 中国图象图形学学会是中国在图像图形领域最权威、最具影响力的国家级学术组织 [2] - 此次获奖标志着数字文娱作品的价值与影响已经超越了“玩游戏”的范畴 [2] - 公司表示将继续深耕前沿科技领域,以开放姿态携手合作伙伴,为数字经济发展注入“游戏科技”新动能 [3]
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心· 2025-12-12 03:41
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合已成为具身智能领域极具前景的研究方向,该方法能有效克服单纯模仿学习的局限,使机器人通过试错持续进步并提升鲁棒性 [1][4] - 行业面临将强化学习直接应用于大型VLA模型的三大难点:物理环境探索困难、模型易出现灾难性遗忘与训练不稳定、以及巨大的算力负担 [5][6] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”与“探索-内化”循环迭代,为上述难题提供了稳定、经济且高效的解决方案,并在仿真与真实世界实验中验证了其显著优势 [10][13][22] 一、VLA+RL的重要性与背景 - 在具身智能领域,将视觉-语言模型应用于机器人底层控制形成VLA模型,当前主流方法是通过模仿人类专家数据进行监督微调 [2] - 仅靠模仿学习存在局限,当遇到未见情况或专家数据不完美时,机器人表现会受限,难以实现鲁棒、持久的工作 [4] - 在线强化学习允许智能体通过试错发现更优解,超越离线强化学习受限于演示数据质量的瓶颈,是提升VLA模型能力的关键 [4] 二、强化学习应用于VLA的难点 - **环境差异**:与在离线数据集上训练的大语言模型不同,机器人需在物理世界实时探索,且物理任务周期长、奖励稀疏,学习困难 [6] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易导致“灾难性遗忘”或训练崩溃,性能可能倒退 [6] - **算力负担**:在本地对大型模型进行全量梯度更新,硬件要求极高,通常超出机器人控制器的算力极限 [6] 三、行业解决方案与iRe-VLA方法 - 行业存在三种解决VLA强化学习困境的路径:外挂式干预、暴力美学式全量微调、以及从探索到内化的循环 [7][13] - iRe-VLA方法属于第三种路径,其核心是设计了一个两阶段循环迭代的学习流程,分而治之,动静结合 [10][22] - **模型架构**:VLA模型由负责理解与知识的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术避免全量微调 [11][12] - **第一阶段(在线强化学习探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人探索并找到成功轨迹 [15][18] - **第二阶段(监督学习内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合新探索的成功轨迹与原始专家数据,有效防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [24] - **流程总结**:机器人先在“小参数模式”下大胆探索,找到方法后再在“全参数模式”下把经验固化到大脑中,循环往复 [22] 四、实验结果与分析 - **训练稳定性**:实验显示,直接用PPO算法微调VLA模型会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数对稳定训练至关重要 [27] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现更好(例如从43%提升到83%),还能学会完全没见过的任务 [30] - **具体数据对比**: - 在MetaWorld的Button-Press-new任务上,SFT策略成功率为0.56,PPO-Replay为0.80,iRe-VLA达到1.00 [31] - 在Franka Kitchen的Slide-door-open任务上,SFT策略成功率为0.86,PPO-Replay为0.96,iRe-VLA达到0.99 [31] - **真实世界挑战**:在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠SFT的机器人成功率约35%,经过iRe-VLA在线学习后,成功率飙升到80% [32][34] - **泛化能力**:训练后的模型去抓取完全未参与训练的第三类物体,成功率也从37%提升到了61% [34] - **消融实验**:如果在第二阶段不解冻VLM主干,模型性能提升会遇到瓶颈,证明了解冻大模型参数对于利用其深层特征掌握复杂技能和提升泛化性是必要的 [35] 五、结论与意义 - **稳定性与经济性**:iRe-VLA方法解决了大模型直接进行强化学习容易训练崩溃的问题,并通过巧妙的算力分配(本地轻量探索、云端重量消化),符合实际部署场景 [37][42] - **持续学习能力**:该方法证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [42] - **行业影响**:星动纪元的iRe-VLA与海外的PI π*0.6等工作,共同揭示了VLA在线强化学习技术的发展前景,为行业指明了方向 [40]
正式开课!7个Project搞懂端到端落地现状
自动驾驶之心· 2025-12-12 03:02
行业招聘需求与技术趋势变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的技术方向集中在端到端、视觉语言动作模型和世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入人力和资源,从模型、场景、数据优化到下游规划兜底进行布局 [2] - 市场面临合格候选人供给不足的挑战,候选人往往只精通部分技术栈,而相关岗位要求广泛的技术能力 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模及优化,是实际落地中的关键痛点和门道 [2] 课程核心定位与内容设计 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,包含七个实战项目,从实战到落地层层展开 [2] - 课程核心算法覆盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型结合强化学习、自回归结合强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验,目标面向就业与直接落地 [2] - 课程采用小班制,目前仅剩20个招生名额 [2][4] 端到端技术架构演进与核心模块 - 在端到端时代,感知任务的合并与规控算法的学习化已成为绝对主流 [7] - 如何更高效合并感知任务及设计规控的学习化模块是各大公司的核心必备技能 [7] - 两段式端到端框架涉及感知与规划控制的建模及信息传递方式,有其特定优缺点 [8] - 一段式端到端框架可实现信息的无损传递,因此在性能上通常优于两段式方案,具体方法包括基于视觉语言动作模型和基于扩散模型的方法等 [9] - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、内容及在端到端模型中的编码与嵌入方式是重要课题 [10] 算法训练策略与量产保障方案 - 仅依靠模仿学习存在局限,因人类驾驶风格迥异且部分极端场景数据难采集,需结合强化学习以学习因果关系并实现泛化 [11] - 课程项目实战涵盖基于模仿学习的算法,并重点介绍基于扩散模型和自回归的算法,在监督微调后会继续讲解强化学习实战 [12] - 在量产落地阶段,为确保轨迹稳定可靠,需有后处理的兜底逻辑,例如通过轨迹平滑优化算法对模型直出结果进行优化 [13] - 时空联合规划是重要的兜底方案,涉及多模态轨迹打分搜索及轨迹平滑等算法 [13] - 量产经验分享将从数据、模型、场景、规则等多个视角,剖析如何选用合适工具和策略以快速提升系统能力边界 [14] 课程安排与学员要求 - 课程面向进阶学员,开课时间为11月30日,预计三个月结课,采用离线视频教学配合VIP群答疑及三次线上答疑的形式 [15] - 课程章节按计划解锁,例如第一章于11月30日解锁,第二章于12月7日解锁,后续章节按周或月间隔陆续开放 [16][18] - 学员需自备图形处理器,推荐算力在4090及以上 [17] - 学员需具备的基础知识包括:熟悉自动驾驶鸟瞰图感知、视觉Transformer、端到端等常见算法;掌握强化学习、扩散模型理论基础;具备一定的Python和PyTorch语言基础;熟悉mmdet3d算法框架;以及一定的高等数学、线性代数和矩阵论基础 [17]
i6i8MEGA分别交付6798/6719/680|理想25年11月记录
理想TOP2· 2025-12-11 06:09
2025年11月核心运营数据 - 2025年11月总交付量达33,181辆,其中增程式车型交付18,984辆,纯电车型交付14,197辆 [1] - L系列车型(L6、L7、L8、L9)合计交付18,984辆,具体为L6交付9,434辆,L7交付5,212辆,L8交付2,130辆,L9交付2,208辆 [1] - i系列及MEGA车型合计交付14,197辆,具体为i6交付6,798辆,i8交付6,719辆,MEGA交付680辆 [1] - 纯电车型交付量从2025年4月的103辆,显著增长至11月的14,197辆,显示纯电产品线快速上量 [2] - 增程式SUV累计交付量在2025年11月10日突破140万辆 [3] 产品与市场表现 - i6车型在首销期毛利率约为10% [3] - 有观点认为,2022年款L9在当前市场环境下产品力依然强劲 [3] - 公司为搭载欣旺达电池的i6车型额外提供2年或4万公里质保 [4] - 公司计划缩短平台大迭代周期,从四年缩短至两年,并计划拉大未来车型间的区分度 [3] - 公司选择易烊千玺作为品牌代言人,并利用官方资源为其新电影组织宣传和车主观影活动 [5] 技术与研发进展 - 公司自动驾驶负责人郎咸朋提出,短期目标是2025年底至2026年初实现强化学习训练闭环 [2] - 公司发布AD-R1论文,核心是通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性,解决世界模型预测缺陷 [4] - 公司基座模型团队发布LexInstructEval,旨在提升语言模型遵循用户精细化指令的能力 [3] - 公司提出首个包含自车和他车轨迹的世界模型,以在仿真环境中进行VLA强化学习训练 [6] - 公司整车电动产品负责人表示,已有国际碳化硅芯片供应商联系公司寻求技术IP与合作 [4] - 公司电池性能高级工程师的海报显示“理想自研电池” [5] - 2025年11月,公司自动驾驶相关进展被“中文AI三大顶会”中的两家报道 [3] 充电网络与基础设施 - 公司充电站数量从3,509座增加至3,597座 [4] - 正在筹划忙闲预测功能,加密5C充电站,并开发智驾到站、双枪禁充、夸车位禁充及黑名单等功能 [4] - 计划铺设滑轨机械臂,实现城市VLA辅助驾驶与超充站无缝衔接,包括自动匹配空闲站点、进闸道、开地锁及监控车流量 [4] - 二代充电站具备新的功率分配能力,当有理想车主充电时,其他品牌车型充电功率会自动降至30kW或更低 [4] 公司运营与战略动态 - 公司在2025年第三季度财报电话会议中,管理层对投资人的措辞方式发生重大变化 [4] - 公司于2025年11月25日在报纸版《人民日报》上刊登广告 [4] - 公司对两起质量事故进行了内部问责,处理了14名相关人员 [3] - 公司发布2025年10月辅助驾驶出行报告 [3] - 公司宣布将于2025年12月3日举办理想AI眼镜Livis发布会 [4] - 有分析指出公司存在“缺二把手”的讨论,但亦有观点认为这是次要矛盾 [5] - 公司销售端开始评选“价值传递之心” [5] - 两位来自“中国最好操作系统实验室”的博士于当年2月入职公司 [5] - 此前负责博主投放策划和用户运营的两位员工已回归公司 [5] 法律、合作与出海 - 编造理想汽车充“劣质电”致车辆自燃谣言的陈某,被北京顺义警方采取刑事强制措施 [3] - 2025年11月6日,2025年度北京市自然科学基金-顺义(理想)联合基金项目启动 [3] - 2023年公司出口销量超过2.3万辆,但2025年前八个月出口销量为7,000余辆,公司已暂缓欧洲计划,出海首站选择中亚国家 [6]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 03:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 02:01
文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化(SRPO)”的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果,包括在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能提升167%,并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括:1)提出SRPO框架,缓解奖励稀疏性问题并消除对专家示范的依赖 [10];2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限 [11];3)实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),并引入世界模型驱动的任务无关奖励建模机制,为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步:1)将轨迹观察序列编码为世界模型潜空间表征 [20];2)对成功轨迹的潜在表征进行聚类,获得代表性中心以捕捉关键行为模式 [21];3)计算失败轨迹表征到最近成功中心的距离,并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数,并添加KL散度正则项以保持策略稳定性,利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中,仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率,超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言,仅用200步强化学习,模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面,对于LIBERO长时序任务,初始模型One-shot SFT成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比同期GRPO性能提升15.3%,相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中,将SRPO的奖励建模应用于开源模型,在五个真机任务上,模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外,SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态,展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现,SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案,后者需要针对每个任务收集数据并微调价值模型,而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段,向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径,有望降低机器人智能化的开发门槛和成本 [56]
AI大家说 | 重磅嘉宾齐聚,近期Dwarkesh Podcast都聊了些什么?
红杉汇· 2025-12-11 00:04
文章核心观点 - 文章通过总结Dwarkesh Podcast中多位AI行业领袖的深度访谈,揭示了当前AI技术发展范式的关键转变、未来AGI的形态构想以及行业竞争格局的演变趋势[2] Ilya Sutskever的观点 - 认为无脑堆算力的“暴力美学”时代已经翻篇,预训练开始式微,数据快用光了,后续发展更依赖研究直觉,回到了需要“拼品味、拼直觉”的手搓时代[5] - 提出“情绪”是进化赋予人类的精准价值函数,让AI拥有“情绪”或“直觉”是通往真正智能的必经之路[6] - 认为真正的AGI更像一个“15岁的天才少年”,学习能力极强,并且未来智能体可以“合并智能”,瞬间获得海量经验[7] Satya Nadella的观点 - 提出模型厂商可能遭遇“赢家诅咒”,模型作为可替换的计算部件非常脆弱,而掌握“场景权”和用户数据流更为关键,微软通过将AI深度集成到Office和GitHub等应用来巩固优势[10] - 指出GitHub的未来定位是“AI智能体的总部”,通过控制代码仓库来管理由不同AI生成的代码,从而掌握AI时代的管理权[11] - 预测SaaS模式将终结,未来将转向为AI Agent提供“数字实体”、身份认证、安全环境和云端电脑等基础设施,并按AI“员工”数量或资源消耗收费[12][13] Andrej Karpathy的观点 - 认为当前大型语言模型是通过预训练模仿互联网数据产生的“幽灵”,拥有知识但缺乏肉体直觉和常识,并非像动物一样进化而来[16] - 批评强化学习效率极低,其奖励信号如同“透过吸管吸取监督信号”,无法对模型复杂的推理步骤提供精细反馈,导致幻觉和逻辑问题[17] - 提出未来AGI的“认知核心”可能只需10亿参数,主张将记忆与认知剥离,知识应存储于外部而非全部记在模型内部[18] 图灵奖得主Sutton的观点 - 指出当前LLM只是在模仿人类语言,缺乏对“客观真相”的追求,没有目标的系统只能称为“行为系统”而非“智能系统”[21] - 强调生物界不存在监督学习,未来的AI应像野兽一样从“体验流”中通过尝试-反馈来学习,而非依赖人类标注的数据[21] - 将AI的诞生视为宇宙从“复制时代”进入“设计时代”的第四道门槛,是人类首次创造出原理可知、可被随意修改的智能体,是宇宙级的质变[22] Sergey Levine的观点 - 认为机器人不需要全知全能的世界模型,只需具备为完成具体任务而生的“隧道视野”,强大的目标感本身就是感知过滤器[25] - 提出在物理世界中,“失忆”或“在当下”的不费脑子的快速反应是高级智能的表现,未来机器人架构可能是“健忘”的小脑配合“博学”的大脑[26] - 指出2009年自动驾驶失败的原因是车辆缺乏常识,而当前机器人浪潮的变量在于通过视觉语言模型获得了先验知识,使其能零样本处理边缘情况[27]