Workflow
π*0.6
icon
搜索文档
深扒PI*0.6迭代式强化学习来源:VLA+在线RL实现具身进化
自动驾驶之心· 2025-12-13 02:04
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够使机器人通过自我探索实现能力进化,超越单纯模仿学习的局限 [3][8] - 星动纪元提出的iRe-VLA方法通过“分而治之,动静结合”的两阶段循环迭代流程,率先突破了VLA模型应用强化学习的困境,其工作被Physical Intelligence的π*0.6研究所引用,代表了该方向的前沿进展 [3][16][17][22] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括训练稳定性高、能有效学习新任务并提升泛化能力,同时通过合理的算力分配兼顾了经济性与实用性 [44][46][48][57][63] 一、VLA+RL的重要性与难点 - **重要性**:仅靠模仿学习无法应对未见情况或数据不完美,机器人难以达到鲁棒、持久工作;在线强化学习允许智能体通过试错发现更优解,是实现能力突破的关键 [8] - **应用难点**: - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难 [21] - **模型稳定性**:直接对数十亿参数的VLA模型进行在线强化学习易导致灾难性遗忘或训练崩溃 [21] - **算力负担**:对大规模模型进行全量梯度更新超出本地机器人控制器的算力极限 [21] 二、行业解决方案与iRe-VLA的创新 - **行业解决方案类型**: - **外挂式干预**:如V-GPS、DSRL,通过外部价值函数或噪声引导冻结的VLA,但模型本身未发生质变 [22] - **暴力美学**:如VLAC,直接用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [22] - **探索到内化的循环**:以iRe-VLA为代表,利用监督微化将强化学习探索出的高价值行为内化为模型的原生能力 [15][22] - **iRe-VLA模型架构**:模型由负责理解与决策的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术提高微调效率 [19][20] - **核心两阶段循环流程**: - **第一阶段(在线强化学习-探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [25][29][31] - **第二阶段(监督学习-内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合了新的成功轨迹与原始专家数据,此阶段通常在云端服务器进行,以将新技能固化并防止遗忘旧技能 [32][37][39] 三、实验结果与分析 - **训练稳定性**:直接使用PPO微调VLA会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数策略对稳定训练至关重要 [46] - **仿真环境性能**: - 在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如将Button-Press-new任务成功率从56%提升至100%,在未见的10个任务上成功率从51%提升至80% [48][50] - 在Franka Kitchen环境中,iRe-VLA同样表现优异,例如将Slide-door-open任务成功率从86%提升至99%,将Left-door-open任务成功率从43%提升至83% [50] - **真实世界性能**: - 在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠专家数据微调的模型初始成功率约为35%,经过iRe-VLA在线学习后,抓取成功率提升至80% [54][57] - 模型展现出泛化能力,抓取完全未参与训练的第三类物体时,成功率也从37%提升至61% [57] - **消融实验**:证明第二阶段解冻VLM主干是必要的,否则模型性能提升会遇到瓶颈,解冻能利用大模型的深层特征表示能力来掌握复杂技能并提升泛化性 [56][58] 四、结论与意义 - **方法优势**: - **稳定性**:解决了大模型直接进行强化学习容易训练崩溃的问题 [63] - **经济性**:巧妙分配算力,本地进行轻量级探索,云端负责重量级消化,符合实际部署场景 [63] - **持续学习**:使机器人能在不遗忘旧技能的前提下,通过自我探索不断掌握新物体和新任务的操作技能 [63] - **行业前景**:iRe-VLA与π*0.6等研究揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定可扩展RL算法等 [62]
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心· 2025-12-12 03:41
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合已成为具身智能领域极具前景的研究方向,该方法能有效克服单纯模仿学习的局限,使机器人通过试错持续进步并提升鲁棒性 [1][4] - 行业面临将强化学习直接应用于大型VLA模型的三大难点:物理环境探索困难、模型易出现灾难性遗忘与训练不稳定、以及巨大的算力负担 [5][6] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”与“探索-内化”循环迭代,为上述难题提供了稳定、经济且高效的解决方案,并在仿真与真实世界实验中验证了其显著优势 [10][13][22] 一、VLA+RL的重要性与背景 - 在具身智能领域,将视觉-语言模型应用于机器人底层控制形成VLA模型,当前主流方法是通过模仿人类专家数据进行监督微调 [2] - 仅靠模仿学习存在局限,当遇到未见情况或专家数据不完美时,机器人表现会受限,难以实现鲁棒、持久的工作 [4] - 在线强化学习允许智能体通过试错发现更优解,超越离线强化学习受限于演示数据质量的瓶颈,是提升VLA模型能力的关键 [4] 二、强化学习应用于VLA的难点 - **环境差异**:与在离线数据集上训练的大语言模型不同,机器人需在物理世界实时探索,且物理任务周期长、奖励稀疏,学习困难 [6] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易导致“灾难性遗忘”或训练崩溃,性能可能倒退 [6] - **算力负担**:在本地对大型模型进行全量梯度更新,硬件要求极高,通常超出机器人控制器的算力极限 [6] 三、行业解决方案与iRe-VLA方法 - 行业存在三种解决VLA强化学习困境的路径:外挂式干预、暴力美学式全量微调、以及从探索到内化的循环 [7][13] - iRe-VLA方法属于第三种路径,其核心是设计了一个两阶段循环迭代的学习流程,分而治之,动静结合 [10][22] - **模型架构**:VLA模型由负责理解与知识的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术避免全量微调 [11][12] - **第一阶段(在线强化学习探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人探索并找到成功轨迹 [15][18] - **第二阶段(监督学习内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合新探索的成功轨迹与原始专家数据,有效防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [24] - **流程总结**:机器人先在“小参数模式”下大胆探索,找到方法后再在“全参数模式”下把经验固化到大脑中,循环往复 [22] 四、实验结果与分析 - **训练稳定性**:实验显示,直接用PPO算法微调VLA模型会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数对稳定训练至关重要 [27] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现更好(例如从43%提升到83%),还能学会完全没见过的任务 [30] - **具体数据对比**: - 在MetaWorld的Button-Press-new任务上,SFT策略成功率为0.56,PPO-Replay为0.80,iRe-VLA达到1.00 [31] - 在Franka Kitchen的Slide-door-open任务上,SFT策略成功率为0.86,PPO-Replay为0.96,iRe-VLA达到0.99 [31] - **真实世界挑战**:在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠SFT的机器人成功率约35%,经过iRe-VLA在线学习后,成功率飙升到80% [32][34] - **泛化能力**:训练后的模型去抓取完全未参与训练的第三类物体,成功率也从37%提升到了61% [34] - **消融实验**:如果在第二阶段不解冻VLM主干,模型性能提升会遇到瓶颈,证明了解冻大模型参数对于利用其深层特征掌握复杂技能和提升泛化性是必要的 [35] 五、结论与意义 - **稳定性与经济性**:iRe-VLA方法解决了大模型直接进行强化学习容易训练崩溃的问题,并通过巧妙的算力分配(本地轻量探索、云端重量消化),符合实际部署场景 [37][42] - **持续学习能力**:该方法证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [42] - **行业影响**:星动纪元的iRe-VLA与海外的PI π*0.6等工作,共同揭示了VLA在线强化学习技术的发展前景,为行业指明了方向 [40]
机器人行业周报:Gemini 3.0 与π0.6 发布:具身大脑发育提速-20251123
国泰海通证券· 2025-11-23 12:46
报告行业投资评级 - 行业投资评级:增持 [4] 报告核心观点 - 核心观点:Gemini 3.0与π*0.6等AI大模型发布,推动具身智能大脑发育提速,人形机器人企业明确量产目标,产业融资活动呈现加速状态 [2][4] 行业新闻及公司动态总结 - 海外动态:谷歌发布AI模型Gemini 3,并推出全新智能体平台"Google Antigravity";机器人基础模型公司PI发布π*0.6模型,该模型采用RECAP技术,在多项任务上实现吞吐量和成功率较基础模型翻倍,成功率超过90% [4][6];Figure 02人形机器人已在宝马工厂参与生产3万辆汽车,累计装载超过9万个零件,运行时间超过1250小时 [6] - 国内动态:小鹏汽车规划在2026年底规模量产高阶人形机器人,并计划在2030年实现销量超过100万台 [4][7];优必选计划在2026年将工业人形机器人年产能提升至5000台,2027年进一步扩大至10000台 [4][7];智元远征A2机器人完成106.286公里跨省行走,创下吉尼斯世界纪录 [7] 投融资动态总结 - 主要融资事件:PI公司完成6亿美元融资,估值达56亿美元;星动纪元完成近10亿元A+轮融资;加速进化完成超亿元融资,其A轮融资累计已近5亿元;蓝点触控完成超亿元人民币C轮融资 [4][8] 投资建议总结 - 市场表现:上周(2025/11/17-2025/11/21)机器人板块相关公司成交金额为4818亿元,占全部A股周度成交金额约5.1%,该占比已连续9周环比下降 [9][12];板块重点公司股价跌多涨少,龙溪股份周涨幅最大为+16.34%,津上机床中国周跌幅最大为-18.47% [12][15] - 投资方向:建议重点关注机器人整机厂商及核心零部件供应商,具体包括执行器和电机、减速器、丝杠、传感器、轴承等环节的国内领先企业 [4][13]
阿里入局C端入口之战,Google 发布 Gemini 3及 Nano Banana Pro
国金证券· 2025-11-23 11:33
行业投资评级与核心观点 - 投资建议关注国内生成式大模型龙头科大讯飞;AI硬件领域建议关注海康威视、虹软科技、禾赛等;AI功能提升付费率与Arpu值方面建议关注迈富时等[3] - 报告核心观点认为,从需求区域看景气方向在出海,从技术角度看景气方向在AI产业链,从政策角度看景气方向在国产替代[13] - 细分行业景气度展望显示,2025年高景气维持的赛道包括AI算力、激光雷达;加速向上的赛道有AI应用;稳健向上的赛道包括软件外包、金融IT、量子计算、数据要素、EDA、出海、信创;拐点向上的赛道包括教育IT、网安、企业服务;底部企稳的赛道包括智慧交通、政务IT、安防、建筑地产IT;略有承压的赛道包括工业软件、医疗IT[13] 本周行业动态与重点事件 - 11月17日,阿里巴巴上线面向全球的个人AI助手“千问APP”,整合了其自研的Qwen3系列大模型能力[13] - 11月19日,谷歌DeepMind发布多模态AI模型Gemini 3系列及Google Antiqravity平台,其Gemini 3 Pro模型在MMMU-Pro基准测试中得分为81%,在Video-MMMU基准测试中得分为87.6%[13] - 11月20日,谷歌发布图像生成模型Nano Banana Pro,支持生成2K和4K高分辨率图像,最多可支持14张参考图像输入并保持5个人物特征一致性[13] - 11月18日,美国Physical Intelligence公司发布机器人通用基础模型π*0.6,通过Recap方法训练后,在制作意式咖啡等任务上的吞吐量和成功率提升超过两倍[13] - 未来重点事件包括2025年11月27-29日在南京举行的世界智能制造大会,以及2025年12月1-3日在北京举行的“人工智能+”产业生态大会[25] 细分板块景气度分析 - AI算力板块景气度高且维持,国内外巨头加大资本支出,国产替代趋势明显[14] - 激光雷达板块景气度高且维持,2025年1-9月国内ADAS激光雷达装机量约为190.9万颗,同比增长91.8%,其中9月装机量约为32.8万颗,同比增长108.2%[14] - AI软件/应用板块景气度加速向上,阿里发布千问APP抢占C端入口,谷歌相继发布Gemini3、Nano Banana Pro提升基模能力[14] - 软件外包、金融IT、量子计算、数据要素、EDA、出海、信创板块景气度稳健向上[11][13][14] - 教育IT、网安、企业服务板块景气度拐点向上[11][13][14] - 智慧交通、政务IT、安防、建筑地产IT板块景气度底部企稳[11][13][14] - 工业软件、医疗IT板块景气度略有承压[11][13][14] 本周行情回顾 - 2025年11月17日至11月21日,计算机行业指数(申万)下降2.74%,跑赢沪深300指数1.03个百分点,在31个申万一级行业指数中排名第七[15] - 同期,A股市场日均成交额为1.9万亿元,同比上升8.1%,环比下降8.7%;截至2025年11月20日,两融余额为2.5万亿元,同比上升33.7%,环比下降0.59%[19] - 本周计算机板块涨幅前五的公司为榕基软件、*ST东通、浪潮软件、品高股份、思创医惠;跌幅前五的公司为科创信息、安博通、联易融科技-W、天亿马、同有科技[16]
“最强具身VLA大模型”,究竟强在哪儿?
36氪· 2025-11-20 07:38
模型性能与突破 - 机器人基础模型π*0.6在执行制作意式浓缩咖啡、折叠衣物、组装包装纸箱等任务时,成功率均达到90%以上[1] - 模型表现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[23] - 在最难的任务中,RECAP方法将任务吞吐量提高了一倍以上,并将任务失败率降低了约2倍,相比于仅进行监督微调的模型[20] 核心方法与技术 - π*0.6的核心贡献在于提出了一种通用训练方法RECAP,即基于优势条件策略的经验与纠偏强化学习[8] - RECAP方法包含三个阶段:离线强化学习、使用人类示范进行微调、以及结合自主经验和专家在线纠偏的在线阶段[10] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,而非传统的策略梯度方法[13] - 模型架构方面,π0.6的Backbone从Gemma扩展到Gemma3,参数量达4B,Action Expert参数量升级到860M[20] 学习机制创新 - RECAP方法彻底扭转了机器人只会逼近"真值"的模仿学习模式,让机器人能从自己的错误中成长[3] - 该方法通过教练式纠偏,当机器人犯错时专家示范如何恢复,弥补了传统模仿数据的不足,是防止错误累积的关键[27][28] - 通过训练价值函数来解决信用分配问题,帮助机器人识别关键步骤与错误来源,使其具备从经验中变强的能力[31][39] - 优势条件化训练让模型在保留全部经验的前提下,从失败中学习,表现超越单纯示范数据的水平[42]
“最强具身VLA大模型”,究竟强在哪儿?
量子位· 2025-11-20 00:30
模型性能与突破 - Physical Intelligence公司推出的机器人基础模型π*0.6在多项现实任务中表现出色,例如连续一整天制作意式浓缩咖啡和数小时折叠衣物,任务成功率均达到90%以上[2][28] - 在最具挑战性的任务(如折叠多样化衣物和制作咖啡)中,其采用的RECAP方法将任务吞吐量(每小时成功次数)提升了一倍以上,并将任务失败率降低了约2倍,相比仅进行监督微调的模型有显著提升[27] - 模型展现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[28] 核心技术:RECAP方法 - π*0.6的核心突破在于引入了一种名为RECAP(基于优势条件策略的经验与纠偏强化学习)的通用训练方法,该方法彻底改变了机器人只会逼近“真值”的模仿学习模式,使其能从自身错误中成长[3][10] - RECAP方法包含三个阶段:指导(用人类示范教基础动作)、辅导(通过纠错指导修正错误)、练习(从自主经验中不断优化)[7][12] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,从而避免了传统策略梯度算法(如PPO、REINFORCE)在异构机器人数据和Flow Matching动作生成模型上的不适用性[15][16][17][18][19] 模型架构与训练 - π*0.6是Physical Intelligence公司最新的视觉-语言-动作模型,其Backbone从之前模型的Gemma(2.6B参数)升级到Gemma3(4B参数),动作专家模型的参数量也增至860M[8][25] - 模型架构延续了前代设计,通过流匹配和离散动作token输出生成动作片段[26] - 训练过程分为离线强化学习(基于多机器人、多任务的示范数据训练)、微调(用人类示范适配具体任务)和在线阶段(机器人自主执行任务并结合专家纠偏更新)[20] 从错误中学习的能力 - RECAP方法最具启发性的特点是让机器人能够从失败经验中学习,通过专家纠错和强化学习相结合的方式,解决了传统模仿学习在持续互动系统中因滚雪球式误差导致任务失败的关键障碍[29][36][37][38] - 该方法通过训练价值函数来应对信用分配挑战,价值函数能预测状态优劣,从而识别导致好结果或坏结果的关键动作,为模型提供判断信号[45][47][50][51][52] - 优势条件化训练使模型能在保留所有经验(包括成功和失败)的前提下,从失败中学习,其表现因此超越了单纯依赖示范数据的水平[54][55]
腾讯研究院AI速递 20251119
腾讯研究院· 2025-11-18 16:01
大模型性能突破 - xAI发布Grok 4 1双版本模型 其Thinking版以1483 Elo分数登顶LMArena排行榜 非推理版本以1465 Elo排名第二 超越Gemini 2 5 Pro [1] - 该模型在EQ-Bench情商测试中以1586 Elo成绩登顶 创意写作得分比上一代提升600分 幻觉率暴降3倍 [1] - xAI将后训练阶段强化学习规模扩大一个数量级 利用前沿AI智能体推理模型作为奖励模型自动优化回答质量 并对所有用户免费开放 [1] 新公司与重大融资 - 贝佐斯创立物理AI公司Project Prometheus并亲任联席CEO 公司首轮融资获得62亿美元约合人民币440亿元 员工规模已达上百人 [2] - 公司研究重点是将AI应用于机器人 药物设计和科学发现等物理任务 专注于计算机 汽车和航空航天等高技术领域 [2] - 另一位联席CEO是物理学家兼化学家Vik Bajaj 曾在谷歌X研究机构与谢尔盖·布林合作 并创立领导过多家科技创新企业 [2] 多智能体与推理系统 - 谷歌为Gemini Enterprise开发多智能体系统 该系统可扮演联席科学家角色 通过锦标赛式评估生成并排序约100个想法 [3] - 该系统允许Gemini针对单个问题持续运行约40分钟 代表L3级AI能力 每个想法都附带完整的评审报告和锦标赛表现分析 [3] - 系统核心包括"想法生成"和"联席科学家"两款智能体 用户需审查并批准计划摘要后才能启动任务 以确保巨大算力投入的合理性 [3] 机器人基础模型进展 - Physical Intelligence发布最新机器人基础模型π*0 6 采用Recap方法结合演示训练 纠错指导和自主经验强化学习 提升具身智能成功率和处理效率 [4] - 该模型在执行制作咖啡 折叠衣物和组装纸箱等复杂任务时成功率超过90% 吞吐量提高2倍以上 失败率降低2倍或更多 [4] - π*0 6基于π0 6改进 通过价值函数解决信用分配难题 完全使用真实世界数据训练 能够在新环境中灵活执行未知任务 [4] 模型商业化与市场表现 - MiniMax M2推出编程套餐首月价格仅为9 9元 在OpenRouter平台其token调用量已冲至全球Top5 成为调用量最大的国产模型 [5][6] - 该模型性能位列全球榜单第五 价格仅为Claude的8% TPS稳定在100以上 响应速度快且代码质量与Claude Sonnet 4 5基本持平 [6] - M2支持Anthropic和OpenAI两种标准格式 可无缝接入Claude Code和Cursor等主流编程工具 配置过程仅需5分钟 [6] 视频生成与编辑技术 - PixVerse上线V5 Fast和Modify精修功能 视频生成速度提升超过30% 生成5秒高清视频可在1分钟内完成 并支持端到端视频编辑 [7] - Modify功能支持对生成视频进行元素替换 风格修改 材质调整 光线色调和人物编辑等多维度精细化修改 无需重新生成视频 [7] - V5 Fast通过推理结构轻量化和帧间计算依赖缩短实现加速 其开发公司爱诗科技已完成1亿元人民币B+轮融资 平台累计服务用户超一亿 [7] 全模态AI应用开发 - 蚂蚁集团推出全模态通用AI助手「灵光」 支持通过自然语言在30秒内生成小应用 并可进行全代码生成多模态内容 [8] - 该助手支持输出3D数字模型 音频 图标 动画 地图等全模态信息 旨在使对话更生动 交流更高效 [8] - 「灵光」首批上线功能包括"灵光对话" "灵光闪应用"和"灵光开眼" 已同步登陆安卓与苹果应用商店 [8] AI在游戏与创意生成 - Gambo AI推出全球首个专为游戏开发打造的"氛围编程"Agent 用户输入一句话即可在5-10分钟内生成可商业化发布的完整游戏 [9] - 平台实现从美术资源生成 动画制作 音乐作曲 关卡设计到商业变现的全自动流水线 零代码零美术基础 纯自然语言驱动 [9] - 平台集成变现功能可自动在游戏中嵌入广告点位实现"发布即盈利" 但目前仅支持2D平台跳跃类游戏 复杂关卡可能需要手动微调 [9] 气候预测与科学计算 - 谷歌DeepMind推出WeatherNext 2气候预测模型 其生成预报的速度提升8倍 分辨率最高可达1小时 单次预测在单个TPU上耗时不到一分钟 [10] - 该模型采用功能生成网络新方法 可从单个起点预测数百种可能的天气结果 在99 9%的变量和预测时间上超越前代模型 [10] - 预报数据已在Earth Engine和BigQuery中提供 谷歌云Vertex AI平台推出定制模型推断抢先体验项目 并已升级搜索和Gemini等产品 [11] AI行业投资与市场趋势 - CB Insights报告显示2024年AI Agent创业公司融资总额达38亿美元 是2023年的三倍 Voice AI成为增长最快赛道 2025年已融资4亿美元 [11] - Coding AI Agents领域领跑 Cursor以5亿美元年度经常性收入居首 Customer service AI的估值倍数高达219倍 远超80倍的平均水平 [11] - 推理模型使输出Token量激增20倍导致成本倒挂 2025年已发生超过35起收购案 Agent监控工具成为企业级新刚需 [11]