具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心·2025-09-09 00:03
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在多模态大模型的基座上, 视觉 - 语言 - 动作(Visual-Language-Action, VLA) 模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然 而, 现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练 (Post-Training),特别是当目标场 景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训 练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。 为了解决该问题, 中国电信人工智能研究院( TeleAl )具身智能团队 提出了 一种 " 对齐 - 引导 - 泛化"(Align then Steer, ATE)的 VLA 跨本体泛化框 ...