Workflow
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心·2025-09-07 23:34

机器人操作 - 机器人操作从机械编程演进至具身智能阶段 聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器 人类演示和遥操作三种数据采集范式 结合模仿学习和强化学习框架[6] - 面临三大关键挑战 包括高质量数据集缺乏 静态学习框架鲁棒性不足 端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆 操作任务从强化学习拓展至模仿学习 扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体 大语言模型 GPT系列 大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知 导航 交互 仿真四大核心任务 感知分为GPT与非GPT模型 导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式 结合PPO和GRPO策略优化算法 通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型 视觉生成 统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励 和状态级 KL监控 配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景 面临非专家操作门槛高 动态环境适应难 长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型 涉及架构创新 参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽 探索和快速发展三阶段 使用互联网图文 视频 仿真和真实机器人数据训练[36] - 应用于类人机器人 自动驾驶 医疗与工业机器人 精准农业和增强现实导航等领域[31]