Workflow
自适应强化流匹配(ARFM)方法
icon
搜索文档
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 02:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Hongyin Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 如今,基于流匹配的视觉-语言-动作(VLA)模型已经能帮机器人完成不少操控任务了,像 这类模型,凭借轨迹级建模能力在常规场景里表现还不错,就连 RT-1、PaLM-E 这些大规模预训练模型,也证明了从多模态数据里学通用策略是可行的。 可一碰到复杂的下游任务,比如要在动态干扰下精准抓东西,这些模型就有点 "力不从心" 了——动作精度掉得厉害。说到底,问题出在它们 "学东西的方式" 上:现在的 VLA 流模型全靠模仿学习做后训练,就像只会照搬别人动作,没法分清哪些训练数据质量更好、哪些策略更适合当前任务。而强化学习(RL)本来 就擅长挖掘这些数据质量特性,可之前的离线 RL 方法,比如 ReinboT,在 VLA 流模型上效果并不好,因为这类模型是靠向量场建模整个动作轨迹的,ReinboT 只能间接指导动作生成,效 ...