自监督强化学习
搜索文档
北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%
具身智能之心· 2025-11-30 03:03
文章核心观点 - 具身智能领域在长序列操作任务中面临视觉语言动作模型产生“阶段性幻觉”的关键挑战,即机器人未完成步骤却误判为已完成[2][3][4] - 北京大学团队提出的自进化VLA框架EvoVLA通过三大创新模块有效解决了该问题,在复杂任务基准上实现显著性能提升[5][7][40] - EvoVLA框架的核心创新在于利用大语言模型生成“硬负样本”进行对比学习,结合几何探索与长程记忆机制,推动模型自我进化[9][10][41][42] 技术问题分析 - 现有通才机器人策略在简单任务上展现零样本泛化能力,但在长程操作任务中暴露出“阶段性幻觉”致命弱点[2] - 视觉语言模型评估系统因视觉相似性给出高预测分数,导致机器人“高分低能”,自信跳过未完成步骤[4] - 这种现象在需要几十步操作的长序列任务中尤为突出,最终导致整个任务崩溃[4] EvoVLA解决方案 - 框架基于OpenVLA-OFT架构,引入三个协同工作的核心模块实现自监督强化学习闭环[10] - 阶段对齐奖励模块利用Gemini 2.5 Pro生成包含70+阶段的详细描述,构建正样本、负样本和关键性的“硬负样本”[13][14] - 基于姿态的物体探索模块训练轻量级世界模型预测相对几何姿态,避免像素干扰,专注操作任务几何结构[19][20][21] - 长程记忆机制采用基于注意力的上下文选择,从历史库检索Top-K最相关Token融合到当前状态[23][24][25] 性能验证结果 - 在Discoverse-L新基准测试中,EvoVLA平均成功率达到69.2%,相比最强基准OpenVLA-OFT的59.0%提升10.2个百分点[34] - 样本效率显著提升,达到50%成功率所需训练步数减少1.5倍[35] - 幻觉率从38.5%大幅降低至14.8%,降幅达23.7个百分点[1] - 在真实机器人部署中,EvoVLA平均成功率达到54.6%,超越OpenVLA-OFT 11.0个百分点[7] - 在未见过的“堆叠+插入”任务中,通过少量真机微调达到55.2%成功率,比OpenVLA-OFT高出13.4%[37] 行业意义 - EvoVLA为解决VLA模型在长程任务中的可靠性问题提供了优雅解法[40] - 证明更好的奖励设计、更本质的探索机制和更聪明的记忆可以让大模型在具身智能领域走得更远[41] - 利用大语言模型生成“错题集”反哺策略学习的“自我进化”范式,可能是通往通用机器人自主学习的关键一步[42]