ATE跨本体泛化方法
搜索文档
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-16 00:03
文章核心观点 - 中国电信人工智能研究院提出名为“对齐-引导-泛化”的跨本体泛化框架,旨在解决视觉-语言-动作模型在后训练阶段面临的跨本体适配挑战 [1][2] - 该框架核心思想是在潜空间中对齐跨本体动作分布,并利用统一潜空间梯度引导VLA策略更新,实现从调架构到调分布的范式转移 [2][14] - ATE框架无需改动现有VLA主干架构,兼容Diffusion和Flow-Matching等主流模型,能极大减少VLA跨本体适配的数据需求 [2][15] VLA模型面临的挑战 - 现有VLA基座模型在进行目标场景应用时,需要采集数十乃至数百小时目标本体数据完成后训练,当目标场景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配 [1] - 决定VLA能否进行跨本体迁移的关键是预训练阶段与后训练阶段的目标本体和任务的动作分布的一致性,当目标本体的机械臂构型、执行器形态、关节自由度与本体物理约束等发生变化时,目标动作分布会偏离预训练阶段学得的分布域 [10] - 单纯通过采集大量真机数据在后训练阶段弥补分布鸿沟,面临迅速递减的边际收益,即单纯数据堆叠难以有效引导策略抵达目标域 [10] ATE框架技术方案 - 框架分为两个阶段:第一阶段构建跨本体的统一动作潜空间,将预训练和适应阶段的动作数据嵌入到同一潜空间中,通过训练变分自编码器并利用反向KL散度约束,将适应动作的潜分布嵌入到预训练潜分布的特定模式中 [14][18] - 第二阶段在统一的潜空间上设计引导函数,利用由此得到的扩散/流匹配VLA模型的分类引导,在后训练阶段显式地将微调过程牵引至期望的目标分布 [14][21] - 引导机制通过能量函数和分类器衡量生成动作与目标动作分布的差异,其梯度被直接加到扩散过程的分数函数或流匹配的速度场更新式中,在每个去噪/流动时间步对生成轨迹的分布施加“拉力” [21][22] ATE框架优势 - 样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量 [15] - 训练效率提升:分布引导避免模型全参数重训练,能够在既定训练预算内获得更快的有效收敛 [15] - 工程可复用性增强:潜空间引导只作用于动作专家模型后训练,与顶层模型解耦,具备即插即用的特性,可适配目前主流分层VLA [15] 实验验证结果 - 在ManiSkill与RoboTwin 1.0等多任务仿真评测中,相较于直接后训练,ATE算法平均多任务成功率最高提升9.8% [23] - 在真实机器人跨本体现实场景中,ATE带来最高32%的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性 [23] - 在RoboTwin 1.0基准测试的17个任务上,ATE框架对RDT与PI-0模型的平均提升分别约为+9.8与+8.7个百分点,显示出跨任务的一致增益与较好的可迁移性 [24] - 在双臂睿尔曼实验环境的长序双臂协同操作任务中,通过采集少量真机数据进行后训练,ATE算法能够将基座VLA模型快速适配到目标本体上 [26][27]