AI Spark

搜索文档
元戎启行CEO周光:幼年期的VLA智驾,强于巅峰期的端到端
经济观察网· 2025-08-31 01:05
产品发布与技术架构 - 元戎启行发布新一代辅助驾驶平台DeepRoute IO 2.0 搭载自研VLA模型 融合视觉感知、语义理解与动作决策三大能力 [2] - VLA模型通过强化学习实现进化 区别于端到端架构的模仿学习 使机器理解行为背后的原因 [2] - 公司策略兼顾激光雷达与纯视觉版本 VLA平台同时支持两种方案以适应不同客户需求 [6] 技术转型动因与行业趋势 - 技术转型直接动因为2024年6月深圳福田保税区场景 测试车因无法理解"车辆左转不受灯控"文字指示导致交通中断 [3] - 行业逐步触及端到端系统性能瓶颈 理想汽车预测VLA可将事故里程提升至人类驾驶10倍(600万公里/次事故)[4] - 行业兴起VLA研发热潮 小鹏汽车、理想汽车等企业均进行相关布局 [7] 商业化进展与规模挑战 - 公司已获得超10款车型定点合作 实现近10万辆具备城市领航辅助系统的量产车型交付 涵盖SUV/MPV/越野车等多车型 [3] - 交付量达10万辆级别后问题被放大 早期千台万台阶段问题概率低 但规模扩大后面临更严格市场监督 [3] 技术优势与创新方向 - VLA模型核心训练目标为防御性驾驶 使AI具备风险敬畏之心 在盲区等场景主动进行预防性预判 [5] - 系统突破视觉遮蔽限制 实现对空间关系理解与推理 而非依赖"穿墙透物" [4] - 技术可复用于机器人/无人驾驶等多移动场景 支持室内外环境泛化应用 [7] 发展前景与技术局限 - VLA模型处于早期幼年期 当前评分仅6分(满分10分) 仍无法实现全无人驾驶且缺乏完全推理能力 [8] - 技术上限远高于端到端方案 "下限超过端到端方案上限" 需新一代高算力芯片支持潜力释放 [8] - 通过实际用户体验而非技术概念灌输推广产品 持续优化复杂场景应对能力 [8]
对话周光:自动驾驶实现AGI,RoadAGI比L5更快 | GTC 2025
量子位· 2025-03-21 06:37
RoadAGI战略与概念 - 提出RoadAGI作为实现垂直道路场景AGI的新路径 通过AI Spark平台赋能智能车、机器人等移动体实现自主移动[1][2][8] - RoadAGI本质是基于AI的通勤能力 实现从店铺取货到最终配送的完整闭环 包括识别环境、过闸机、乘电梯等复杂场景[5][6][7][26] - 与传统无人配送存在本质区别:不依赖高精地图 通过视觉语言动作模型(VLA)实现免部署 只要人能到达的地方RoadAGI即可通过自主推理到达[10][27][28] 技术架构与优势 - 核心采用视觉语言动作模型(VLA) 将道路图像信息和文本指示融合处理 输出驾驶行为和文字 打通空间智能、语言智能和行为智能[11][13][14] - 技术底座基于端到端架构 预计2025年年中量产上车 已获得理想汽车等行业头部响应[11][12] - 具备大规模量产数据闭环能力 经过4000万公里智驾数据积累 形成显著技术先发优势[22][55][66] 商业化路径 - 首选落地场景为外卖配送 硬件成本约1-2万元 利用汽车供应链实现低成本规模化[49][57] - 目标替代数千万骑手市场 相比L5级自动驾驶具有更高容错率和更快商业化前景[51][65] - 去年智驾量产车型上市后成为爆款 单款车型获取城区NOA市场15%份额 今年预计交付超过20万台车[20][76] 公司战略定位 - 公司定位为AI公司而非单纯智驾公司 智驾只是实现物理AI的商业化选择[19][69] - RoadAGI是技术能力的自然延伸 与现有智驾业务高度协同 只需更换数据集无需分散兵力[45][47][54] - 目标成为中国第一家实现物理AI的公司 最终通过打通物理AI、生成式AI和语言AI实现真正AGI[81][84][86] 行业竞争格局 - 认为FSD在华基础能力领先国内一代 动态交互博弈能力突出 但受限于数据水土不服[94][95][97] - 激光雷达必要性随AI能力提升而降低 纯视觉方案在OCC网络成熟下可达97分效果 与激光雷达融合增益仅为1-2%[112][113] - 智驾行业已进入淘汰赛 城区NOA当前存在技术门槛但3-5年后或趋于平权 主机厂自研能力提升加速行业洗牌[107][109] 技术发展观点 - 认为选择比努力重要 在技术高速变化期应优先把握架构方向而非单纯解决问题[116][118][119] - VLA模型成熟度尚未完全成熟 但已支撑RoadAGI可行性 后续需持续迭代优化[39][61][62] - 物理AI与具身智能不冲突 公司专注高等级规划与大脑开发 而非底层运动控制[34][43]