具身智能系统综述 核心观点 - 大模型显著提升具身智能的感知精度、理解深度和规划能力,实现感知-规划-动作闭环[6][39] - 大模型在具身智能中分为需求级、任务级、规划级和动作级四个控制层级[6][11] - 基于Transformer的端到端架构和参数冻结的大模型结合基础模型是主流系统架构[21][24][28] 感知与理解 多模态模型理解 - GPT-4V等多模态大模型通过预训练将图像与文本编码到同一向量空间,提升环境感知能力[9] - ViLA模型整合视觉反馈实现闭环规划,MultiPLY通过动作标记实现抽象与多模态信息切换[9] - 多模态模型能捕获文本、图像、音频间关系,提取统一高维特征[5] 多模态环境建模 - CLIP模型对场景进行语义建模,HomeRobot利用CLIP学习3D语义表示[10] - PerAct通过体素编码器实现3D环境建模,LangSplat用3D高斯构建语言场[10] 可供性与约束 - AffordanceLLM结合大模型知识与3D几何信息预测可操作性图[10] - Affordance Diffusion通过RGB图像合成3D手部姿态,KITE用关键点生成动作序列[10] 控制层级 需求级 - Text2Motion框架将自然语言指令转化为物理可执行任务,PaLM-E整合多模态数据生成任务规划[14] - SayCan通过语义知识与技能评估选择最优方案,EmbodiedGPT用思维链技术提高成功率[14] 任务级 - OK-Robot结合OWL-ViT实现物体定位,CaP将自然语言转换为可执行策略代码[16] - LLM-GROP提取语义对象配置知识并实例化到规划器[16] 规划级 - VoxPoser生成3D价值地图控制机器人轨迹,3D-VLA处理3D空间信息生成动作特征[21] - iVideoGPT构建世界模型支持智能体探索,RoCo实现多机器人协作规划[21] 动作级 - Gato通用智能体可完成游戏、机械臂操控等多样化任务,RoboFlamingo解耦视觉-语言理解与决策[21] - Prompt2Walk通过文本提示输出关节位置,ManipLLM预测末端执行器精确姿态[21] 系统架构 基于Transformer的架构 - RT-1吸收多样化机器人数据生成离散动作指令,RT-2整合PaLM-E提升语义推理能力[33] - InteractiveAgent通过多模态预训练实现交互执行,ALOHA用Transformer生成精细双手操作[33] 参数冻结的大模型结合基础模型 - TidyBot利用CLIP实现个性化家庭清理,VIMA通过多模态提示输出动作序列[35] - Instruct2Act用大语言模型生成Python程序构建感知-规划-动作循环[35] 数据来源 模拟器 - BEHAVIOR-1K包含1000个日常活动数据集,RoboGen用生成模型自动学习机器人技能[36] - DrEureka通过LLM合成奖励函数解决Sim2Real问题[36] 模仿学习 - ALOHA记录人类操作数据训练端到端模型,HumanPlus通过"影子跟随"收集全身数据[37] - UMI实现跨平台双手操作数据收集[37] 视频学习 - VRB从人类行为视频训练视觉可供性模型,VPT通过未标记视频预训练智能代理[37] - RoboCLIP利用视频-语言模型相似度生成奖励函数[37] 未来发展方向 - 需开发低成本真实数据收集方法并优化大模型推理速度[44] - 多智能体协同框架将应对复杂任务,跨领域应用拓展至医疗、教育等行业[40][44]
中山&清华:基于大模型的具身智能系统综述
具身智能之心·2025-08-16 16:03