Workflow
通用操作框架
icon
搜索文档
IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”
机器人大讲堂· 2025-11-24 08:31
通用机器人操作面临的挑战 - 在非结构化场景中实现通用操作存在挑战,包括与人类非自然交互、数据稀缺、感知和决策能力有限、处理不准确、策略不够鲁棒以及环境转移性差 [1] 基础模型为解决挑战带来的机遇 - 大型语言模型能直接生成策略代码或动作序列,促进机器人与环境的自然交互 [4] - 视觉基础模型增强机器人在开放环境下的感知能力 [4] - 视觉语言模型作为多模态信息理解的核心,促进视觉与语言的对齐 [4] - 大型多模态模型扩展模态范围至3D点云、触觉等更多感知维度 [4] - 视觉生成模型可根据文本或图像生成2D图像或3D网格,辅助仿真环境场景生成或环境转移 [4] - 机器人基础模型作为端到端策略模型,能基于输入观测直接输出动作 [4] 当前通用操作的发展路径与框架 - 在有限条件下利用单一基础模型实现通用操作不足,当前机器人基础模型端到端训练方法保证99%以上成功率仍是挑战 [6] - 参考自动驾驶发展路径,初期通用操作需要一个框架,并将L0级别通用操作限定在提升旧技能、操作刚性物体、静态环境、短程任务及低力/位精度要求 [6] - 通过提升各模块性能可实现从L0级别到最终统一操作 [6] 基础模型在交互模块的应用 - 基础模型相比传统固定模板方法,在处理含糊和纠正指令时具备自然语言交流、多模态感知检测歧义及强大先验知识理解用户意图的优势 [8] 基础模型在前后置条件检测模块的应用 - 基础模型在物体可供性检测和识别中具备开放集零样本识别、加速学习过程及帮助选择更精确操作姿态的优势 [10] 基础模型在技能层级模块的应用 - 基础模型能辅助处理自然语言输入,并通过世界知识和常识推理提升感知与推理水平,增强技能层次任务可扩展性和泛化能力 [12] 基础模型在状态感知模块的应用 - 基础模型可辅助生成带语义信息的场景重建,利用强大二维特征提升三维特征质量,并使开放集姿态估计成为可能 [14] 基础模型在策略模块的应用 - 策略分为基于物体/动作方法和端到端方法,基础模型推动策略发展为通用目标策略,分类为视觉-语言-动作-代码、视觉-语言-动作-关键位姿和视觉-语言-动作-密集位姿 [16] - 基础模型助力强化学习应对奖励函数设计、任务分层及探索效率等挑战 [17] 基础模型在操作数据生成模块的应用 - 操作数据分为真机、仿真和互联网数据,基础模型能实现仿真场景布置和3D资产自动化生成及逼真数据增强 [21] - 真机数据采集趋向低成本遥操作设备发展,例如Human Plus成本仅30美元(一个RGB相机),而Open-Tele Vision成本达3499美元 [21]