Workflow
SpaceDrive
icon
搜索文档
奔驰&图宾根联合新作!SpaceDrive:为自动驾驶VLA注入空间智能
自动驾驶之心· 2025-12-19 05:46
文章核心观点 - 奔驰与图宾根大学等机构联合提出了一种名为SpaceDrive的新型端到端自动驾驶框架,该框架通过引入统一的3D位置编码,解决了现有基于视觉语言模型的驾驶系统在精细3D空间关系理解和连续坐标预测方面的根本缺陷,从而显著提升了轨迹规划的几何精度与安全性 [2][3][31] 当前VLM在自动驾驶中的系统缺陷 - **2D语义与3D几何的割裂**:视觉语言模型主要在大规模2D图像-文本对上进行预训练,极度缺乏3D空间先验,导致场景描述模糊和空间推理能力存在缺陷 [5] - **数字token化的缺陷**:语言模型将坐标数值逐位拆解为字符或数字token进行处理,本质是拟合token的联合分布而非进行数值计算,这忽略了数值的连续邻近结构,并将不同位token的重要性平均化,从机制上拉低了连续数值预测的精度与稳定性 [5] SpaceDrive框架的核心方法 - **统一的空间接口**:摒弃传统VLM将坐标数值视为文本token的处理方式,引入统一的3D位置编码作为通用的空间表征,贯穿于感知、推理和规划阶段 [3][4] - **感知阶段:视觉与深度的显式融合**:利用冻结的深度估计器获取绝对深度,将图像Patch投影至3D度量空间,生成3D位置编码向量,并将其叠加到视觉token上,为视觉输入注入绝对空间坐标信息 [8][9] - **推理阶段:统一坐标接口**:将输入提示中的坐标数值提取出来,使用与视觉侧相同的3D位置编码器进行编码,替换原有的数字token序列,并在前面插入特殊指示符⟨IND⟩,实现文本侧的空间信息统一表示 [10] - **输出阶段:回归优于分类**:当模型生成特殊指示符⟨IND⟩时,后续的隐藏状态被送入一个专用的位置编码解码器,直接回归出3D坐标,取代了语言模型逐位生成数字的方式 [13][14] - **损失函数**:对于坐标预测采用Huber Loss进行监督,文本部分则保留原有的交叉熵损失 [15] 实验性能与评估 - **开环规划性能**:在nuScenes数据集的开环评估中,SpaceDrive+在所有指标上超越了现有的OmniDrive/ORION等VLM-based方法,平均L2误差为0.32米,平均碰撞率为0.23%,平均越界率为1.27% [17] - **闭环规划性能**:在Bench2Drive闭环基准测试中,SpaceDrive+取得了78.02的驾驶得分和55.11%的成功率,在VLM-based方法中排名第二 [3][20][21] - **框架优势**:SpaceDrive框架完全不依赖鸟瞰图特征,统一的位置编码接口足以支撑VLM内部的3D空间建模,从架构上减少了对密集鸟瞰图表征的依赖 [18] 消融实验的关键结论 - **位置编码注入位置很关键**:仅将位置编码用于文本坐标替换而不注入视觉token提升有限;将3D位置编码注入视觉token带来显著增益;当统一的位置编码同时应用于视觉和文本时,规划性能最高 [26] - **编码器/解码器选择十分重要**:正弦余弦编码因其天然的平移等变性,作为编码器优于可学习的MLP编码器;输出端使用可学习的、逐坐标点的MLP解码器优于直接反解正弦余弦编码 [27] - **可学习的归一化因子十分重要**:固定尺度的位置编码容易造成语义不稳定或收敛困难,而可学习的归一化因子显著改善了L2误差、碰撞率和越界率 [28] - **位置编码接口具备可迁移性**:同一套位置编码空间接口在Qwen-VL与LLaVA两种不同的基础视觉语言模型上都能保持相近的性能收益,说明增益主要来自统一空间推理接口而非特定基座模型的特殊适配 [30] SpaceDrive框架的主要贡献 - **通用空间表示**:引入统一的3D位置编码,在感知、推理和规划模块中始终如一地工作,超越了特定任务的嵌入,迈向了更具通用性的空间智能 [33] - **显式3D理解**:将空间编码与视觉token进行加性整合,在语义内容和3D位置之间创建了显式关联,实现了更准确的场景理解和推理 [33] - **回归坐标数值本质**:通过用基于回归的专用解码取代逐位坐标生成,解决了语言模型在处理连续数值量方面的根本限制 [33] - **框架通用性**:该方法展示了与不同VLM架构的兼容性,并证明适用于推理时增强功能,表明其广泛适用性 [33]