扩散策略

搜索文档
Cocos系统:让你的VLA模型实现了更快的收敛速度和更高的成功率
具身智能之心· 2025-08-22 00:04
核心观点 - 扩散策略训练中存在损失崩塌问题,导致训练效率低下和策略性能下降 [3] - 提出Cocos方法,通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率,且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件,优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2,语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率,对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率,较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率,较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率,较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机,非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时,Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%,0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当,达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 00:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 10:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]