VLA(视觉 - 语言 - 动作模型)

搜索文档
三角度看WA与VLA之争
中国汽车报网· 2025-09-12 10:39
技术路线选择现状 - 华为倾向WA技术路线 认为WA是实现真正自动驾驶的终极方案 而VLA路线看似取巧却不是终极方案[2][3] - 小鹏 理想 奇瑞等车企选择VLA技术路线 拥有更多拥护者[2] - 行业对两种技术路线的上限和最终方案存在争议[2] WA技术路线优势 - WA将感知 预测 决策 规划整合到同一模型框架 减少环节割裂 更符合人类驾驶认知方式[3] - 决策响应速度约100毫秒 比VLA快近100毫秒 能更快调整车辆行驶动作[3] - 对雷达感知数据和视频影像直接融合处理 更完整保存和识别数据细节[3] - 雨雾天气场景下对150米外静止车辆识别准确率比VLA高约37%[3] - 目标实现99.999%的真实驾驶场景覆盖率 目前覆盖约95%[7] - 华为ADS 4.0系统在超复杂城区平均百公里接管次数0.8次 优于主流VLA方案的1.5次[11] VLA技术路线优势 - VLA可利用互联网文本数据预训练 降低对专业驾驶数据依赖 初期数据获取成本仅为WA的1/3[5] - 支持自然语言指令交互 方便用户使用[5] - 开发周期更短 适合车企快速将产品推向市场[5] - 理想汽车预测VLA能将事故里程提升至人类驾驶的10倍 达600万公里出现一次事故[4] 技术局限性对比 - WA研发需要自建云端世界引擎与车端专用芯片协同架构 华为乾崑2024年研发投入超100亿元 有8000名研发人员[4] - WA车端硬件成本比VLA高40%以上 制约中低端车型推广[4] - WA在极端强光或弱光情况下算法不足 山区弯道通行成功率较城区低15%[4] - VLA对复杂路口决策准确度不足 限制在复杂交通场景应用[6] - VLA对未经历极端工况决策可靠性待提高 需人工标注补充但效率不高[6] - VLA将三维驾驶环境转化为一维语言时可能丢失细节数据 导致冰雪路面事故率高于WA[8] 技术发展上限 - WA上限是构建数字孪生式驾驶决策系统 目标人机接管率每千公里0.1次 优于VLA的每千公里1.2次[7][8] - WA有助于减少激光雷达数量依赖 可能最终实现纯视觉方案全场景通行[8] - VLA基于关联推理但缺乏物理因果理解 上限较WA低[8] - VLA在实现自动驾驶安全目标时面临挑战 需要超越人类安全阈值[9] 未来发展方向 - WA更可能成为自动驾驶终极方案 因其建立对世界认知与建模 与人类驾驶逻辑相似[11] - VLA适合L2+智驾过渡阶段 通过语言交互实现策略透明化 降低用户焦虑[10] - 未来可能出现融合路线 底层以WA世界建模为核心 上层结合VLA交互与推理能力[11] - 随着技术进步可能出现更新更好的方案 目前谈不上谁是终极方案[12]
即将开课!彻底搞懂端到端与VLA全栈技术(一段式/二段式/VLA/扩散模型)
自动驾驶之心· 2025-08-05 23:32
理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市,重点推出辅助驾驶功能升级,并首发VLA(视觉-语言-动作模型)司机大模型,成为首款搭载该技术的理想车型 [2] - VLA将作为全系i8车型标配功能,计划于8月随车辆交付 [2] - VLA技术突破体现在三方面:多模态语义理解(空间/思维/沟通记忆/行为)、思维链推理能力、接近人类驾驶直觉的决策能力 [3] - 具体功能包括:执行自然语言指令(如"靠边停")、记忆路段速度偏好、语音搜索目的地(如"找最近星巴克")、复杂路况风险评估与避障 [6] VLA技术架构与行业影响 - VLA整合端到端与大模型优势,融合视觉空间理解(BEV感知)、语言模型思维推理(含RAG记忆)、多模态输入处理能力 [3] - 技术演进路径:从E2E+VLM到VLA,代表自动驾驶量产新里程碑,引发行业人才转型热潮(传统规控/感知方向从业者转向VLA) [5] - 技术流派分化:一段式(UniAD/OccWorld/DiffusionDrive)与二段式(PLUTO)并行发展,VLA成为大模型时代端到端新方向 [8][23] - 人才市场需求旺盛:VLA算法专家月薪达40-70K(15薪),博士级顶尖人才年薪90-120K(16薪),实习岗位日薪220-400元 [11] 端到端技术发展趋势 - 技术迭代加速:2023年工业级端到端方案已不适应2024年环境,需掌握多模态大模型/BEV感知/强化学习/扩散模型等复合技能 [14] - 学术前沿动态:基于感知的UniAD、基于世界模型的OccWorld、基于扩散模型的DiffusionDrive形成三大技术分支 [23] - VLA成为技术制高点:融合VLM/BEV/扩散模型/强化学习,代表端到端自动驾驶最高难度,小米ORION等开源项目推动工业落地 [25] 技术人才培养体系 - 行业推出《端到端与VLA自动驾驶小班课》,覆盖技术发展史、背景知识(Transformer/BEV/扩散模型/RLHF)、一段式/二段式实现方案 [21][22][24] - 课程设计特点:Just-in-Time快速入门、构建研究框架(论文分类/创新点提取)、RLHF微调实战(ORION案例复现) [16][17][18][26] - 培养目标:3个月达到1年经验算法工程师水平,掌握主流框架复现能力(扩散模型/VLA),适配实习/校招/社招需求 [32]
36氪精选:辅助驾驶人才争夺战:一把手下场挖人VS法务连续起诉
日经中文网· 2025-06-06 07:55
车企AI辅助驾驶人才争夺战 - 中国车企如华为、理想、Momenta等对AI辅助驾驶人才需求激增,行业竞争激烈导致高端人才被哄抢,理想汽车CEO透露核心人员平均接到20+猎头电话[6][9][16] - 人才流动伴随竞业纠纷,理想汽车曾起诉跳槽员工并达成千万元级别和解,行业普遍采用竞业协议延缓技术外溢[7][8][14] - 比亚迪、小米等车企积极补足辅助驾驶能力,比亚迪自研城市NOA方案并挖角新势力背景人才,小米招募Wayve科学家加入团队[12][13] 技术路线演进与行业格局 - 辅助驾驶技术从传统规则方案转向"端到端"模型,并探索VLM/VLA多模态大模型,头部公司如理想、华为、Momenta装机量分别突破50万/30万辆[9][11][24] - 理想汽车技术路线快速迭代,从依赖地图方案升级至VLA模型,联合清华团队开发双系统方案并积累AI大模型量产经验[11][24] - 特斯拉停止公开FSD技术路径后,中国车企自主探索,华为乾崑智驾和小鹏"世界基座模型"成为代表性方案[10][11] 行业竞争策略与乱象 - 比亚迪发起辅助驾驶平权运动,将高速NOA功能下放至7万元级车型并通过补贴降至5.58万元,倒逼行业技术普及[12][17] - 部分车企通过"白盒"代码泄露获取技术捷径,供应商核心算法被非授权扩散至其他车企,导致人才携带代码跳槽牟利[18][19][20] - 头部企业采取项目保密措施,理想要求VLA项目员工签署协议且离职需脱敏6个月,华为亦有类似保密机制[14][16] 技术挑战与未来方向 - "端到端"模型存在场景泛化局限,理想提出VLA模型增强物理世界交互能力,但面临人才稀缺与工程化挑战[23][24] - 行业下一阶段技术重心聚焦生成式AI世界模型仿真器和强化学习应用,Momenta已率先在规控环节应用AI模型[24][25] - 跟随型企业依赖技术外溢难持续,原创性思考与工程能力成为竞争分水岭[25]
「智驾」人才争夺战:帮新员工支付前司百万竞业赔偿
36氪· 2025-05-23 13:58
车企AI辅助驾驶人才争夺战 - 行业核心人才遭哄抢,理想、华为、Momenta成为被挖角最严重的公司,理想核心人员每人接到20+猎头电话[3][4][6] - 竞业协议诉讼频发,理想起诉跳槽员工案例涉及千万元赔偿,南方车企员工赔付超百万元[4][5] - 技术保密手段升级,理想要求VLA项目员工签署保密协议,离职需脱敏6个月;华为采取类似措施[12][14] 技术路线演进与竞争格局 - 技术路径从规则方案转向端到端模型,VLM/VLA多模态大模型成为新方向[6][9][24] - 头部企业技术布局: - 理想尝试4种技术路线(城市NOA/轻地图/端到端+VLM/VLA),与清华合作开发双系统方案[9][25] - 小鹏采用"世界基座模型"训练方式[10] - 华为乾崑智驾装机量突破50万,Momenta方案搭载量近30万辆[10] - 特斯拉停止公开FSD技术细节后,国内企业进入自主探索阶段[8][23] 车企人才战略与市场动态 - 传统车企加速布局: - 比亚迪推出5.58万元级辅助驾驶车型,下半年计划推出自研城市NOA[11] - 比亚迪技术院高层亲自招揽新势力背景人才,团队已吸纳多名竞品员工[11] - 小米引进Wayve科学家陈龙,强化辅助驾驶团队[11] - 人才流动双向性: - 理想曾为关键人才支付数百万竞业赔偿[12] - 端到端技术导致理想精简团队,部分人才外溢[12] 行业技术挑战与发展趋势 - 当前技术局限性: - 端到端方案存在场景泛化难题[23] - VLA模型面临人才稀缺、数据获取、问题定义等量产挑战[25] - 未来技术重点: - 生成式AI世界模型仿真器[25] - 强化学习在规控/仿真领域应用[25] - Momenta已率先在预测/规控环节应用AI模型和强化学习[26] 行业生态与潜在问题 - 技术泄露现象严重,存在代码被员工携带跳槽或出售的情况[18] - 部分企业通过"白盒"获取供应商代码进行拼凑开发,与头部"好用"方案存在差距[19][20] - 行业面临工程化能力与AI不确定性的双重挑战,需原创性思考突破技术迷雾[23][26]