文章核心观点 - 英伟达机器人主管Jim Fan认为,尽管2025年机器人硬件取得显著进展并出现大量演示,但整个机器人领域仍处于“蛮荒时代”,存在硬件可靠性不足、基准测试混乱、主流技术范式存在结构性缺陷等核心问题 [1][11][13] 硬件进展与瓶颈 - 2025年涌现出如Optimus、e-Atlas、Figure、Neo、G1、Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等前沿硬件,其运动能力(如翻跟头、步态控制)已明显超出年初平均水平,证明大型机器人也能非常灵活 [15][33][35] - 当前机器人硬件能力(身体)已明显强于AI大脑能发出的指令,硬件进展快于软件 [11][16] - 硬件可靠性严重不足(如过热、马达损坏、固件问题),需要整个运维团队维护,其不可逆的错误限制了软件迭代速度,成为被低估的瓶颈 [11][14][17][18][19][29] - 行业面临的核心工程挑战是在维持高性能的同时,提升硬件的抗摔性、电池发热管理及长时间运行稳定性 [35] 软件、模型与技术范式 - Vision-Language-Action模型是2025年机器人领域最热门的模型范式,仅2025年一年就发表了超过200篇相关研究工作 [45][46] - VLA模型旨在为机器人提供能同时处理视觉、语言和动作信息的大脑,使其具备任务泛化能力 [48][54] - 当前主流技术路线是基于视觉-语言模型嫁接动作模块,但该范式存在结构性缺陷 [11][24][25] - VLM本质是为视觉问答等任务优化,其视觉编码器会主动丢弃对机器人灵巧操作至关重要的低层物理细节,且其庞大的参数服务于语言知识而非物理世界 [26][30][50][51] - VLA模型的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制任务不对齐 [26][52] - 视频世界模型被视为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律,未来趋势是将其能力嫁接至VLA,或将其作为解耦的内部模拟器以实现显式规划 [27][53][55] 行业基准与数据 - 机器人领域缺乏统一的基准测试共识,在硬件平台、任务定义、评分标准、模拟器使用等方面均无标准,导致每次演示都可能临时定义新基准,可复现性和科学规范缺失 [21][22][23] - 数据对塑造机器人模型能力至关重要,2025年出现了证明具身智能Scaling law的案例,显示数据规模、模型参数与任务表现正相关 [32][37][38] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [39][41][42] - 具体数据路线尚未收敛,人类中心采集、真机遥操、仿真及互联网数据等多种模态和配比仍是开放问题 [44] - 未来数据范式可能转向“模拟优先、失败为中心”,即利用高保真模拟生成多样化轨迹,并充分利用失败轨迹进行学习 [56][57][58] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,涵盖鲁棒性、效率和安全裕度 [59] 市场前景与产业动态 - 据摩根士丹利研究,机器人产业规模有望从当前的910亿美元激增至2050年的25万亿美元 [60] - 除微软和Anthropic外,硅谷主要科技巨头(如Google、Amazon、OpenAI、Meta、xAI/Tesla、Nvidia、Apple)均已加码机器人软件或硬件布局 [62][63]
具身智能机器人年度总结,来自英伟达机器人主管