DriveAction
搜索文档
快速结构化深度了解理想AI/自动驾驶/VLA手册
理想TOP2· 2025-10-10 11:19
公司战略转型与愿景 - 创办理想汽车的动机是寻求比汽车之家大十倍以上的行业机会,基于对自动驾驶实现的信念和行业变革期的判断[1] - 公司于2022年9月内部明确、2023年1月28日通过全员信正式将自身定义为人工智能公司[2] - 公司核心驱动力是参与OpenAI定义的AI五阶段发展,最终目标是AI超越人类组织能力,自动驾驶成为中短期重点,中长期业务可能变化[1] 关键战略判断 - 坚信人工智能将实现知识、认知和能力的平权,AI对公司的意义是全部[2] - 判断基座模型是人工智能时代的操作系统+编程语言,是新一代入口,无论多难公司一定要做[2] - 当前所有行动都是为了获得AGI的L3和自动驾驶L4的门票[2] - 判断大语言模型与自动驾驶将合二为一变为VLA,公司必须保证其大语言模型基座模型是中国前三[3] - 目标三年内推出摘掉方向盘的车,需要VLA基座模型、顶级人才和足够算力支持[3] 技术发展路径与里程碑 - 2024年3月GTC大会分享双系统架构,输入传感器信息输出轨迹,算力储备为1.4eFlops[3] - 2024年6月李想定义L3为有监督自动驾驶、L4为无监督自动驾驶,给出三季度内测、1000万Clips最早2024年底最晚2025年初全量推送预期,L4三年内一定实现[3] - 2025年3月GTC分享VLA,明确VLM由端到端+VLM两个模型组成,VLA是一个模型具备快慢思考能力,输出action token[4] - VLA快慢思考均输出action token,通过diffusion进一步优化轨迹,用户可直接与模型对话下达指令[4] VLA基座模型核心技术 - 从零开始设计训练适合VLA的基座模型,因开源模型缺乏良好3D空间理解能力[6] - 采用MoE架构和Sparse Attention实现稀疏化,在参数量扩容时不大幅增加推理负担[7] - 训练中加入大量3D数据和自动驾驶图文数据,减少文史类数据比例,并加入未来帧预测和稠密深度预测等任务[7][8] - 训练模型学习人类思考过程并自主切换快慢思考,快思考直接输出action token,慢思考经过固定简短CoT模板输出action token[8] - 采用小词表和投机推理提升CoT效率,对action token创新使用并行解码[8] 轨迹生成与系统优化 - 利用diffusion将action token解码成最终驾驶轨迹,预测自车及他车行人轨迹,提升复杂交通博弈能力[10] - 使用多层Dit实现“开快点”等指令功能,采用ode采样器使diffusion在2~3步内生成稳定轨迹,解决效率问题[10] - 通过端到端可训VLA模型和3D重建联合优化解决强化学习两大限制,让系统超越人类驾驶水平[11] - 3D高斯具备出色多尺度3D几何表达能力和丰富语义,通过图片RGB自监督训练充分利用真实数据[5] 技术研发与论文成果 - 2024年2月提出DriveVLM,2024年6月提出Delphi端到端自动驾驶视频生成方法[11][12] - 2024年10月提出MVGS实现最先进渲染性能,提出首个基于Dit的生成长时间高一致性视频框架[12] - 2024年12月提出GaussianAD,探索以视觉为中心的端到端自动驾驶显式稀疏点架构[13] - 2025年4月发布MCAF多模态粗到细注意力聚焦框架,解决长视频理解关键瓶颈[13] - 2025年6月发布DriveAction基准测试集,包含2610个驾驶场景中生成的16185对问答数据[13]
理想认为VLA语言比视觉对动作准确率影响更大
理想TOP2· 2025-08-16 12:11
论文核心观点 - 理想发布DriveAction基准测试集,旨在评估VLA模型的人类驾驶决策能力,包含2610个驾驶场景和16185对问答数据 [1][3] - 实验表明VLA模型需同时结合视觉和语言输入才能准确预测动作:无视觉输入时准确率下降3.3%,无语言输入下降4.1%,两者均无下降8.0% [3][6] - 这是首个专为VLA设计的动作驱动基准测试集,数据来自量产辅助驾驶汽车的真实驾驶场景 [3] 数据集与技术细节 - DriveAction数据集已开源,包含导航指令、车道属性和动作决策三类问题,例如判断当前车道属性或是否允许转弯 [3][4] - 数据采集基于"智行家"系统,上月下载量达544次 [3] - 测试集设计涵盖视觉(V)、语言(L)、动作(A)三种模态组合的评估模式 [4][5] 模型性能分析 - 综合评估显示所有模型在完整V-L-A模式下准确率最高(如GPT-4.1 mini达91.43%),纯动作模式(A)最低(如Claude 3.5 Sonnet仅80.63%)[5][6] - 推理模型在V-L-A模式下普遍优于非推理模型(如ol模型93.56% vs GPT-4o 88.84%),但在A模式下优势不明显 [5][6] - 特定任务中模型表现分化:GPT-4o在道路标记语言类问题达90.4分,而Claude 3.7 Sonnet在同类任务仅58.2分 [7][8] 稳定性与行业应用 - GPT-4.1 mini和Gemini 2.5 Pro表现最优稳定性,三次重复测试标准差低于0.3 [9] - 该研究为自动驾驶行业提供标准化评估工具,凸显多模态融合对决策准确性的关键作用 [3][6]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 14:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]