Workflow
GE世界模型
icon
搜索文档
瞭望 | 何时摆脱遥控器
新华社· 2025-11-18 03:06
行业现状与公众认知 - 中国具身智能行业通过机器人表演如扭秧歌、跑马拉松、打拳击等技能展示快速发展,但当前多数高难度动作依赖人类工程师遥操或预设程序,实际自主能力有限 [1] - 行业存在“表面繁荣”现象,公众可能误判机器人成熟度,其距离“全自主”和“无所不能”仍有差距 [1] 大脑技术核心突破 - 实现自主智能需突破三大核心技术:VLA大模型(视觉-语言-行动模型)、端到端强化学习和世界模型,三者协同完成感知-决策-执行闭环 [3] - 银河通用发布的GroceryVLA模型使机器人能在零售场景自主理解指令(如“帮我拿点吃的”),无需遥操或预采数据即可规划路径并抓取物品 [3] - 清华大学团队采用端到端强化学习算法,在2025世界人形机器人运动会足球赛中实现机器人无遥操,直接将视觉信号映射为运动控制指令 [4] - 智元发布的世界模型GE通过模拟物理规律和环境动态,让机器人具备“脑内推演”能力,主动预判决策,并已完成“做三明治”等任务,其开放架构或成机器人界“安卓系统” [4] 迈向通用智能的核心挑战 - 触觉融入是重大挑战,需在VLA模型基础上增加力度、材质、温度等多维度触觉感知,但数据元素过多导致模型体量增大和难度提升,例如他山科技研发剥小龙虾任务需大量训练 [5] - 硬件层面需发展低功耗、高性能的专用芯片,并将大参数模型轻量化、小型化以保证任务性能 [5] - 算法泛化能力不足,当前最先进模型在3D情景问答任务中准确率为55%~60%,远低于人类的90.06% [6] - 群体智能(多机器人协同)是待攻克课题,但部分场景技术突破乐观估计需三五年 [6] 分级标准与场景落地 - 借鉴智能驾驶分级,行业推出如《人形机器人分类分级应用指南》等标准,建立四维五级评价体系(感知、决策、执行、协作),以加速技术对齐和产品落地 [7][8] - 封闭场景(如工厂车间)因环境可控,适合高等级机器人执行高精度装配等复杂任务;开放场景不确定性高,可用低等级机器人进行引导服务等,逐步积累经验 [8]