SpaceDrive - 财报，业绩电话会，研报，新闻

SpaceDrive

搜索文档

自动驾驶之心· 2025-12-19 05:46

文章核心观点 - 奔驰与图宾根大学等机构联合提出了一种名为SpaceDrive的新型端到端自动驾驶框架，该框架通过引入统一的3D位置编码，解决了现有基于视觉语言模型的驾驶系统在精细3D空间关系理解和连续坐标预测方面的根本缺陷，从而显著提升了轨迹规划的几何精度与安全性 [2][3][31] 当前VLM在自动驾驶中的系统缺陷 - **2D语义与3D几何的割裂**：视觉语言模型主要在大规模2D图像-文本对上进行预训练，极度缺乏3D空间先验，导致场景描述模糊和空间推理能力存在缺陷 [5] - **数字token化的缺陷**：语言模型将坐标数值逐位拆解为字符或数字token进行处理，本质是拟合token的联合分布而非进行数值计算，这忽略了数值的连续邻近结构，并将不同位token的重要性平均化，从机制上拉低了连续数值预测的精度与稳定性 [5] SpaceDrive框架的核心方法 - **统一的空间接口**：摒弃传统VLM将坐标数值视为文本token的处理方式，引入统一的3D位置编码作为通用的空间表征，贯穿于感知、推理和规划阶段 [3][4] - **感知阶段：视觉与深度的显式融合**：利用冻结的深度估计器获取绝对深度，将图像Patch投影至3D度量空间，生成3D位置编码向量，并将其叠加到视觉token上，为视觉输入注入绝对空间坐标信息 [8][9] - **推理阶段：统一坐标接口**：将输入提示中的坐标数值提取出来，使用与视觉侧相同的3D位置编码器进行编码，替换原有的数字token序列，并在前面插入特殊指示符⟨IND⟩，实现文本侧的空间信息统一表示 [10] - **输出阶段：回归优于分类**：当模型生成特殊指示符⟨IND⟩时，后续的隐藏状态被送入一个专用的位置编码解码器，直接回归出3D坐标，取代了语言模型逐位生成数字的方式 [13][14] - **损失函数**：对于坐标预测采用Huber Loss进行监督，文本部分则保留原有的交叉熵损失 [15] 实验性能与评估 - **开环规划性能**：在nuScenes数据集的开环评估中，SpaceDrive+在所有指标上超越了现有的OmniDrive/ORION等VLM-based方法，平均L2误差为0.32米，平均碰撞率为0.23%，平均越界率为1.27% [17] - **闭环规划性能**：在Bench2Drive闭环基准测试中，SpaceDrive+取得了78.02的驾驶得分和55.11%的成功率，在VLM-based方法中排名第二 [3][20][21] - **框架优势**：SpaceDrive框架完全不依赖鸟瞰图特征，统一的位置编码接口足以支撑VLM内部的3D空间建模，从架构上减少了对密集鸟瞰图表征的依赖 [18] 消融实验的关键结论 - **位置编码注入位置很关键**：仅将位置编码用于文本坐标替换而不注入视觉token提升有限；将3D位置编码注入视觉token带来显著增益；当统一的位置编码同时应用于视觉和文本时，规划性能最高 [26] - **编码器/解码器选择十分重要**：正弦余弦编码因其天然的平移等变性，作为编码器优于可学习的MLP编码器；输出端使用可学习的、逐坐标点的MLP解码器优于直接反解正弦余弦编码 [27] - **可学习的归一化因子十分重要**：固定尺度的位置编码容易造成语义不稳定或收敛困难，而可学习的归一化因子显著改善了L2误差、碰撞率和越界率 [28] - **位置编码接口具备可迁移性**：同一套位置编码空间接口在Qwen-VL与LLaVA两种不同的基础视觉语言模型上都能保持相近的性能收益，说明增益主要来自统一空间推理接口而非特定基座模型的特殊适配 [30] SpaceDrive框架的主要贡献 - **通用空间表示**：引入统一的3D位置编码，在感知、推理和规划模块中始终如一地工作，超越了特定任务的嵌入，迈向了更具通用性的空间智能 [33] - **显式3D理解**：将空间编码与视觉token进行加性整合，在语义内容和3D位置之间创建了显式关联，实现了更准确的场景理解和推理 [33] - **回归坐标数值本质**：通过用基于回归的专用解码取代逐位坐标生成，解决了语言模型在处理连续数值量方面的根本限制 [33] - **框架通用性**：该方法展示了与不同VLM架构的兼容性，并证明适用于推理时增强功能，表明其广泛适用性 [33]