文章核心观点 - 西安交通大学研究团队提出了一种名为EfficientFlow的全新生成式策略学习方法,旨在解决当前生成式模型在机器人及具身智能领域面临的两大核心瓶颈:训练依赖大规模演示数据以及推理迭代步数多、速度慢的问题 [1] - 该方法通过深度融合等变建模与高效流匹配技术,在显著提升数据效率的同时,大幅压缩了推理所需的迭代步数,从而将推理速度提升了一个数量级以上,并在多个机器人操作基准上实现了SOTA性能 [1] 技术亮点:用物理直觉重塑生成式策略 - 加速度正则化:通过引入加速度正则项到损失函数中,鼓励样本从噪声分布向数据分布的演化过程平滑且接近匀速,从而让生成的轨迹更直、更快,解决了传统流匹配中流场曲率过大导致推理需多步迭代的问题 [5] - 为克服加速度项难以直接计算的困难,该方法引入了易于计算且有效的代理损失——流加速度上界,该上界与原式的差值等效于对雅可比矩阵的正则化,使生成的策略更稳定、更鲁棒 [7][8] - 等变网络:基于物理直觉设计,确保当输入的视觉场景旋转一定角度时,机器人输出的动作也跟随旋转相同角度,这带来了巨大的数据优势,使模型能够从单一角度的数据学习泛化到多个旋转角度,实现“举一反三” [9] - 该方法基于escnn库构建,将机器人的动作表示为一个10维向量,并通过等变表示确保生成的动作遵循任务的对称性,从而在场景进行平面旋转时保持行为一致性 [10][11] - 时间一致性策略:采用时间重叠策略与批量轨迹选择及周期性重置策略,以解决独立预测相邻动作片段可能导致的行为模式切换和不连贯问题,从而在保持多模态表达能力的同时,实现了长期执行的连贯性 [15] 实验效果 - 在MimicGen等多个机器人操作基准测试中,EfficientFlow在有限数据条件下展现出的成功率媲美甚至超过了现有的SOTA方法 [17] - 在推理效率方面,EfficientFlow仅需1步推理就能接近EquiDiff模型100步推理的平均性能,其单步推理速度提升了56倍,5步推理也有近20倍的加速 [17] - 消融实验表明,加速度正则化与等变建模两者缺一不可,共同构成了实现高效生成式策略的关键 [17] 论文与代码 - 相关论文《EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI》已被AAAI 2026接收,且代码已开源 [3] - 项目主页与GitHub仓库地址已公开,可供进一步查阅 [13]
56倍加速生成式策略:EfficientFlow,迈向高效具身智能
具身智能之心·2025-12-17 00:05