文章核心观点 - 提出一种名为Max-V1的全新一阶段端到端自动驾驶框架,将自动驾驶重新概念化为广义语言任务,将轨迹规划形式化为“下一个waypoint预测”[2] - 该方法利用视觉语言模型的生成能力,仅输入前视相机即可端到端预测轨迹,在nuScenes数据集上取得SOTA性能,相较基线模型整体提升超过30%[2][3] - 该框架摒弃了传统的鸟瞰图特征空间和复杂的中间表示,采用单次前向生成范式,结合统计建模原则性监督策略,具备强大的跨域泛化能力[9][10][30] 背景回顾与主要贡献 - 将人类驾驶视为序列化决策过程,与自然语言生成高度相似,从而可将视觉语言模型视为强大的策略网络,将规划转化为可处理的自回归序列建模任务[5] - 当前端到端自动驾驶研究主要分为两大方向:开发专用架构并在大规模领域数据上训练,或适配大型预训练视觉语言模型以利用其世界知识与推理能力[5] - 专用架构受限于高质量标注数据依赖和鸟瞰图表示的脆弱性,而基于视觉语言模型的框架则面临计算效率低下及对连续控制不适配的挑战[8][9] 模型简介与技术创新 - 将“下一词预测”重构为“下一waypoint预测”,在自回归框架内将其视为回归问题,使用特殊令牌对连续坐标值占位符进行建模,避免了将坐标直接文本化带来的离散性不匹配问题[14][17] - 提出针对waypoint回归的特定任务损失,使用物理距离损失监督预测坐标与真实值,替代标准的交叉熵损失,该损失源于对waypoint表示统计基础模型的推导,等价于L2损失[16][24][25] - 框架设计具有深刻简洁性,无需依赖额外的思维链注释或多轮对话,是单次端到端方法,直接生成整个轨迹,且仅需前视摄像头单帧图像,无需额外自车状态信息[27] 实验结果与性能表现 - 在nuScenes数据集评估中,模型在轨迹规划项目上位移误差指标整体降低超过30%,其中MiMo-VL-7B-RL版本在3秒预测时的平均L2误差为0.27米,最大L2误差为0.49米[28][30] - 模型展现出强大的零样本泛化能力,在截然不同的场景和由完全不同的车辆采集的数据集上仍能表现合格驾驶行为,显示跨车辆部署潜力[3][10] - 初步探索了第一人称视角下的LiDAR-图像融合,发现明显的性能权衡,仅使用相机输入时3秒平均L2误差为0.34米,加入LiDAR后升至0.68米[28] 局限性与未来方向 - 推理延迟仍是实时部署的挑战,未来可探索知识蒸馏、量化等高效推理技术及定制芯片开发[32] - 端到端黑盒架构缺乏直接可解释性,未来可开发混合架构或事后分析方法弥合此差距[32] - 当前模型基于模仿学习,受限于专家演示,未来可通过引入强化学习使模型能从交互中学习并发现更优驾驶策略[31][32]
Less is More!Max-V1:面向自动驾驶精巧而强大的视觉-语言模型(复旦&中科院)
自动驾驶之心·2025-10-08 09:04