英伟达主管!具身智能机器人年度总结

文章核心观点 - 英伟达机器人主管Jim Fan认为,机器人领域在2025年仍处于缺乏统一标准、硬件可靠性制约软件迭代的“蛮荒时代”,当前主流的VLA技术范式也存在结构性问题 [1][11][13] 行业现状与核心挑战 - 硬件进展快于软件,前沿硬件(如Optimus、e-Atlas、Figure、Neo、G1)的潜力未被AI完全发挥,机器人“身体”能力强于“大脑”指令 [11][14][15] - 硬件可靠性严重不足,过热、马达损坏、固件问题频发,需要整个运维团队维护,错误不可逆,这限制了软件的快速迭代速度 [16][17][18][30] - 领域缺乏统一、可复现的标准评测体系,基准测试是一场“史诗级灾难”,在硬件平台、任务定义、评分标准等方面均无共识,导致人人都可通过定义新基准宣称达到SOTA [8][9][20][21] 主流技术范式(VLA)的局限与未来方向 - VLA(视觉-语言-动作模型)是2025年机器人领域最热的词汇,当年发表了超200篇相关工作,它赋予机器人处理多模态信息的大脑,具备任务泛化能力 [44][45][47] - 当前基于VLM(视觉-语言模型)的VLA范式存在根本性结构问题:VLM是为视觉问答优化,其大多数参数服务于语言和知识,而非物理世界;其视觉编码器会丢弃对灵巧操作至关重要的低层细节 [11][24][26][27][49] - VLA的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制不对齐 [26][51] - 未来方向包括:转向以视频世界模型作为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律 [28][53];发展整合物理驱动世界模型的VLA,统一语义指令与物理精度 [50];采用“形态无关表征”解耦规划与控制,实现零样本跨具身迁移,而非盲目堆叠参数 [51] 硬件与数据进展 - 2025年涌现多款新硬件本体,如Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2,它们在运动能力上表现亮眼,大型机器人已能像小型机器人一样灵活 [33][35] - 核心工程挑战在于如何在维持高性能的同时,提升硬件的抗摔性、电池发热、长时间运行稳定性等可靠性问题 [35] - 数据在具身智能领域的重要性已不言自明,数据规模存在Scaling Law,例如Generalist项目证明数据越大、参数越高,模型表现越好 [36][37][43] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [38][40][42] - 具体数据路线(人类中心采集、真机遥操、仿真、互联网数据等)及模态配比仍是未收敛的开放问题 [43] 数据与评测的未来趋势 - 未来数据范式可能转向 “模拟优先、失败为中心” ,依赖高保真模拟环境生成多样化轨迹,并充分利用失败轨迹学习,以提高数据利用效率和可持续性 [54][55][56] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,以反映鲁棒性、效率和安全裕度 [56] 市场前景与产业动态 - 机器人产业市场前景广阔,据摩根士丹利研究,其规模有望从当前的910亿美元激增至2050年的25万亿美元 [57] - 硅谷科技巨头(除微软/Anthropic外)均已加码机器人软/硬件布局 [59]