研究背景与问题 - 视觉-语言-动作(VLA)模型在多模态大模型基座上使用机器人操作数据预训练 但现有VLA基座模型能力存在不足 进行目标场景应用时需要采集数十至数百小时目标本体数据完成后训练[2] - 当目标场景本体和预训练本体存在差异时 预训练和后训练阶段动作分布出现严重失配 引发VLA模型跨本体适配挑战[2] - 后训练阶段通过堆叠目标本体数据对抗失配的边际收益迅速递减 难以有效拟合目标场景动作分布[2] 解决方案 - 中国电信人工智能研究院提出"对齐-引导-泛化"(ATE)的VLA跨本体泛化框架 核心思想是在潜空间中对齐跨本体动作分布 利用统一潜空间梯度引导VLA策略更新[3] - ATE框架无需改动现有VLA主干架构 实现后训练从调架构向调分布的范式转移 适配Diffusion和Flow-Matching等主流VLA模型[3] - 该方法极大减少VLA跨本体适配的数据需求[3] 技术原理 - ATE框架分为两个阶段:第一阶段构建统一动作潜空间 将预训练数据编码到潜空间 再用目标域有限样本将目标潜空间嵌入预训练潜空间[9] - 第二阶段在统一潜空间设计引导函数 利用分类引导将微调过程牵引至目标分布 无需更改VLA主干结构[9] - 引导机制通过能量函数和分类器衡量生成动作与目标动作分布差异 将引导梯度整合进训练目标函数[14] 性能优势 - 样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上 显著降低拟合所需数据量[10] - 训练效率提升:分布引导避免模型全参数重训练 在既定预算内获得更快收敛[10] - 工程可复用性增强:潜空间引导只作用于动作专家模型后训练 与顶层模型解耦 具备即插即用特性[10] 实验结果 - 在ManiSkill与RoboTwin 1.0仿真评测中 平均多任务成功率最高提升9.8%[16] - 真实机器人跨本体场景中 ATE带来最高32%成功率增益 表现出更稳健收敛行为与对光照干扰的鲁棒性[16] - 在RoboTwin 1.0基准测试中 ATE框架对RDT与PI-0的平均提升分别为+9.8和+8.7个百分点[18] - 在困难任务中表现突出:RDT在Empty Cup Place任务成功率从22%提升到61%(+39) PI-0在Dual Bottles Pick任务从48%提升到85%(+37)[18] - ATE在70k步即可超过传统RDT的90k步效果 显著提升收敛速度[18] 应用验证 - 在双臂睿尔曼实验环境中 ATE算法能将基座RDT和PI-0等VLA模型快速适配到目标本体[20] - ATE框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力[22] 行业意义 - ATE框架为数据稀缺与跨本体泛化后训练难题提供可行答案 面对数据预算、训练窗口与算力上限三重约束[24] - 可作为即插即用模块 兼容各种主流VLA模型的后训练阶段对齐引导方案[24] - 成为破解数据与训练瓶颈的实践路径[24]
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
机器之心·2025-09-08 06:22