Workflow
当我们再说具身大小脑的时候究竟在说什么?
具身智能之心·2025-09-11 05:53

具身智能行业概述 - 具身智能成为通用人工智能(AGI)探索的关键方向 强调智能体与物理环境的交互与适应 聚焦感知环境、理解任务、执行动作和反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知和语义理解 小脑负责高精度运动执行 [1] 国内外产业布局 - 近2年具身明星团队创业活跃 星海图、银河通用、逐际动力等从实验室走向商业和工业界 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人合作建设大脑和小脑关键技术 [5] - 京东自2025年5月连续投资智元机器人、千寻智能、逐际动力 强化物流科技与家庭服务场景能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局 加快构建产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用 Wayve和Apptronik获投资机构支持落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题 [6] - 第三阶段兴起Diffusion Policy方法 通过扩散模型生成动作轨迹提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - VLA模型实现从"感知+控制"向"感知+推理+行动"的范式跃迁 代表工作包括OpenVLA、RT-2、PI0等 [7] - 2025年探索VLA与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限 [9] 技术融合方向 - VLA+强化学习提升长时任务试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 [11] - VLA+触觉信息拓展多模态融合感知边界 实现更精细安全的操作 [12] - 技术演进从低层感知向高层理解发展 逐步迈向通用任务和开放环境智能体时代 [14] 应用与人才需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 [14] - 应用覆盖工业、家居、餐饮、医疗康复等领域 相关产品和融资活跃 [14] - 岗位呈现爆发式增长 大量人员转入具身智能领域研究 [14] - 工程与系统能力需求激增 需掌握Mujoco/IsaacGym/Pybullet等平台策略训练与仿真测试 [17] - 需具备训练部署Diffusion Policy/VLA/力触融合模型的能力 [17] - 需实现强化学习在VLA后训练的应用 支持机器人反馈微调 [17] - 需掌握从世界建模预测到策略学习再到物理执行的一体化架构 [17]