告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
机器之心·2025-12-10 05:10
费森俞,上海创智学院 & 同济大学博士一年级学生,导师赵宪忠教授,研究方向为 VLA 强化学习后训 练。王思尹,上海创智学院 & 复旦大学博士二年级学生,导师邱锡鹏教授,研究方向为多模态具身智能。 为本文共同第一作者。 龚经经,上海创智学院全时导师。邱锡鹏,复旦大学教授,上海创智学院全时导师。为本文共同通讯作 者。 你是否想过,机器人也能像人一样, 从失败中学习,不断自我提升 ? 当前,视觉语言动作(VLA)模型在机器人操作任务中表现出色,但其性能严重依赖专家示范数据,不仅 成本高昂,还存在「示范偏差」,性能难以突破人类上限。而强化学习虽好,却常因「奖励稀疏」问题, 让机器人无法从失败中真正受益。 针对这一瓶颈,来自复旦大学、同济大学与上海创智学院的 OpenMoss 与 SiiRL 团队联合提出了 自参考策 略优化框架(SRPO) ,通过构建内生的自参照评估机制,实现了无需外部专家数据注入、免除任务特定奖 励工程的自适应策略优化。SRPO 在 LIBERO 榜单上以 99.2% 的成功率刷新 SOTA,在 LIBERO-Plus 的泛化 任务上性能暴涨 167%,并能大幅提升 等开源模型的真机表现。 动机与 ...