Workflow
前小米智驾刘方:如果VLA跑通,自动驾驶会变成具身智能子问题|36氪专访
36氪·2025-05-28 04:18

VLA技术概述 - VLA是视觉语言动作模型 在视觉语言模型基础上新增与物理世界交互的动作能力 能直接输出控制指令如车辆驾驶决策 [2] - VLA最早由Deepmind推出 现已成为具身智能领域主流技术范式 Open AI和字节跳动等公司都在践行这个路线 [2] - 该技术让智能驾驶和具身智能两大赛道产生更深刻交汇 但技术实现与工程落地仍处于早期阶段 [2] 阿米奥机器人公司背景 - 公司成立于2024年9月 由小米汽车智驾技术产品负责人刘方创立 [2] - 2024年3月完成种子轮融资 投资方包括安克创新 智谱AI和险峰长青 [2] - 创始人刘方曾历经小米自动驾驶团队筹建 技术研发和量产落地全过程 更早前在谷歌中国搜索业务部门履职 [3] 技术实现路径 - VLM性能决定VLA超过一半的性能 VLA大部分工作是在VLM上做增强 [4][20] - 通过3D增强方式强化VLM的感知能力 解决空间语义理解差的问题 [20] - 采用生成式模型来增强动作理解能力 借鉴GPT3.5的直接生成理念 [20] - 使用残差强化学习方法 只在实际操作阶段进行强化学习 学习VLA模型与实际环境间的偏差 [15] 应用场景选择 - 聚焦3C消费电子领域机器人柔性生产 因电子产品生命周期短且自动化产线部署成本高 [6] - 汽车行业不是具身智能的好场景 因其生产线使用周期达5-9年 更适合专用设备而非通用设备 [8] - 未来将扩展到服务领域和家庭清洁整理等场景 [7] 商业化进展 - 2024年三四季度将有一条大的通用机器人产线整体落地 [7] - 与北大搭建联合实验室 在VLA基座模型上开展合作 [7] - 在投资人智谱AI助力下开展预训练 并已在工厂进行数据采集 [7] 成本效益分析 - 人力成本约10万元/人/年 机器人可三班倒 一个工位可替换三人成本 [10] - 机器人成本包括实体固定资产和算法模型 模型成本前期投入大但后期运转时摊薄 [10] - 使用夹具而非灵巧手 因夹具能满足8000-10000小时寿命需求且成本更低 [9] 行业竞争格局 - VLA仍处于创新迷茫阶段 各家企业实现路径不尽相同 尚未达到收敛状态 [6][19] - Pi Robotics Facebook Google 字节和阿米奥的方案在细节 算法设计和数据使用上都不同 [19] - 机器人VLA领域尚未出现像特斯拉在自动驾驶领域的标杆产品 [19] 技术挑战 - 自动驾驶强化学习存在竞争博弈问题 需要模仿对手反应 [5][16] - 世界模型与驾驶模型需要绑定迭代 通过逐步添加数据来改善模拟真实性 [6][17] - 自回归学习和生成式模型发展较快 可能对模型性能产生较大提升 [21]