未来智造局｜当AI走进物理世界：从一场技能赛看具身智能的“能”与“不能”

文章核心观点 - 文章通过2025全球开发者先锋大会上的机器人演示，揭示了具身智能领域在技术进阶与商业化落地上取得的显著成果，同时也暴露了其在精细操作、环境泛化及工业稳定性方面存在的技术鸿沟，并指出了未来从模仿走向推理、统一全身协同以及解决数据与生态瓶颈的进化方向 [1][2][3][7][8][9] 从机器人的“能”看技术进阶 - 中国具身智能领域在过去一年“快步疾行”，例如智元远征A2人形机器人完成了无间断百公里跨省行走，证明了其移动稳定性 [2] - 行业商业化“大单”频现，机器人已真正进入工厂负责分拣、上下料等工作 [2] - VLA（视觉-语言-动作）模型的应用大幅提升了机器人大脑、小脑与本体的协同度，使其能理解人类指令并适应陌生环境，例如在插花比赛中能识别不同花材并完成任务，在餐厅服务中能识别可抓取位置并控制握力 [2] - 硬件方面取得进步，例如2025年首次将精细触觉反馈引入实用化产品，使灵巧手能感知力的大小和方向，并完成从感知到力控的闭环，实现精细抓握 [3] 从机器人的“不能”看落地鸿沟 - 在叠衣服等处理柔性物体的任务中，机器人面临巨大挑战，为覆盖一件特定样式衣服的堆叠状态分布，需要采集高达200小时的遥操作数据 [4] - 环境干扰（如光照变化、物体倒影）容易导致机器人操作不准，暴露了当前具身智能在物理场景理解上泛化性不足的短板 [4] - 在拧螺丝等精细操作上，机器人仍需人类遥操作辅助，其力觉反馈灵敏度不足以捕捉螺纹咬合瞬间的微小震动，且当前VLA模型对摩擦力、扭矩等物理特征的理解依然浅薄 [5][6] - 在工业搬运场景中，虽然技术相对成熟，但动作磕绊、箱子重心不稳等情况仍时有发生，距离稳定工业落地仍有差距，需要工程化方案解决实际问题 [7] 从“进化路标”看未来 - 行业研究范式尚未收敛，正在探索如“世界模型”等技术路径以解决大语言模型在物理世界三维空间建模与动态因果推理上的局限 [8] - 2025年11月，李飞飞教授创立的World Labs推出首款产品Marble，以多模态“世界模型”为核心，可从单张图像等生成持久性三维数字孪生空间 [8] - 技术演进需从“模仿”走向“推理”，将推理、规划与控制纳入同一闭环框架，并需从局部技能走向全身协同，统一全身控制与手部精细操作规划 [8] - 行业未来需走出“数据匮乏”，探索新收集技术并构建可规模化的数据工厂，同时需结束“各自为战”，通过建立开放基准与安全规范，鼓励算法开源与复现，以铺平产业化之路 [9]