文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向,包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式,旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA(视觉语言动作)方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式,将视觉语言信息压缩成联合表征后映射到动作空间,依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性,利用video diffusion模型预测未来状态,再通过逆运动学生成动作,提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率,成为近期研究热点 [2] VLN(视觉语言导航)方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法,前者使用序列模型隐变量,后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息,物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分,涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制,以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习,以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异,保证真实部署成功率 [10] Diffusion Policy(扩散策略) - Diffusion Policy通过直接对机器人动作建模,使动作更逼真灵活,在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升,控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数,提出物理可解释的统一动作空间,通过海量预训练展现强大零样本泛化能力,仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域,能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展,包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]
从纯小白到具身算法工程师的打怪之路
具身智能之心·2025-11-20 04:02