文章核心观点 - 具身智能技术正经历从低层感知到高层任务理解与泛化的快速演进,其核心架构围绕“大脑”(负责语义理解和任务规划)和“小脑”(负责高精度运动执行)展开[3] - 技术发展已进入第四阶段,业界正探索将视觉-语言-动作模型与强化学习、世界模型、触觉感知等模块融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9][10] - 随着技术从研究走向产业落地,在工业、家居、餐饮、医疗康复等领域的应用产品及融资活动活跃,导致相关岗位呈现爆发式增长,对工程与系统能力的需求激增[10][14] 具身智能技术细分领域 - 主要细分领域包括仿真、视觉-语言-动作、扩散策略、视觉语言导航、世界模型和强化学习等多个子模块[5] - 视觉-语言-动作和世界模型目前在自动驾驶和具身领域同时发力,代表两个不同的技术路线[5] - 视觉-语言-动作当前研究热点为端到端和分层两种方案,分别基于大模型和扩散技术拓展,视觉-语言-动作+强化学习方案正成为学者探索方向[5] - 扩散策略作为动作模块负责学习具体动作和执行,主要有状态扩散、动作空间扩散、三维空间扩散等多个方向[6] - 仿真技术现聚焦于sim2real和real2sim2real,多家公司认可此方案以解决真机泛化差的问题,而非一味采集真机数据[6] - 视觉语言导航更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] 技术演进阶段 - 第一阶段技术研究聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态实现静态物体抓取,但策略多为单步决策,缺乏对任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习从感知到控制的端到端映射,具备模仿人类完成复杂任务能力,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段(2023年起)扩散策略方法引入序列建模范式创新,通过扩散模型生成整个动作轨迹,更好捕捉任务执行时序结构与多样性,大幅提升策略稳定性与泛化能力[8] - 第三阶段延续(2024年)随大模型技术发展进入视觉-语言-动作模型阶段,强调多模态协同与任务泛化能力提升,代表性工作如OpenVLA、RT-2、PI0等,支持零样本或小样本快速泛化[8] - 第四阶段(2025年以来)业界与学界探索视觉-语言-动作模型与强化学习、世界模型、触觉感知等模块融合,以弥补当前模型局限[9] 技术融合与能力提升 - 视觉-语言-动作+强化学习结合提升机器人在长时任务中的试错能力与自我改进能力[10] - 视觉-语言-动作+世界模型引入环境动态预测,使机器人具备“想象未来”能力,有助于更高效进行规划与决策[10] - 视觉-语言-动作+触觉信息加入拓展从“看”到“看+触多模态融合”的具身感知边界,推动在复杂、非结构化环境下实现更精细、更安全的操作[10] 产业落地与能力需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资络绎不绝,岗位呈现爆发式增长[10] - 产业界重视促使技术从“论文”走向“部署”,对工程能力提出更高要求,需掌握在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试[14] - 工程能力需求包括训练并部署扩散策略/视觉-语言-动作/力触融合的视觉-语言-动作模型,实现强化学习在视觉-语言-动作后训练上的应用,以及从世界建模预测到策略学习再到物理执行的一体化架构[14]
面试的时候,问到了具身的大小脑算法是什么......
具身智能之心·2025-10-08 02:49