Safety DPO

搜索文档
模仿学习无法真正端到端!DriveDPO:Safety DPO打破模仿学习固有缺陷(中科院最新)
自动驾驶之心· 2025-10-03 03:32
文章核心观点 - 中科院团队提出DriveDPO框架,旨在解决端到端自动驾驶模仿学习中的安全性问题,通过统一策略蒸馏和安全直接偏好优化,在NAVSIM基准上实现90.0的最新最优PDMS,比纯模仿学习提升1.9,比基于分数的最优方法提升2.0 [1][7][8][12][22] 端到端自动驾驶模仿学习的局限性 - 模仿学习仅关注预测轨迹与人类轨迹的几何相似度,但几何距离不等于安全距离,即使轨迹相似,安全性可能差异巨大 [5][11] - 模仿学习使用对称损失函数,对超越或滞后于人类轨迹的偏差给予同等惩罚,但不同方向的偏差对安全影响极不对称,例如紧急刹车时滞后通常更安全,但对称损失无法反映这种风险不对称性 [5][11] DriveDPO框架的技术创新 - 提出统一策略蒸馏方法,将人类模仿相似度与基于规则的安全分数融合为单一监督信号,直接优化所有锚定轨迹的策略分布,而非像基于分数的方法仅为每个候选轨迹独立学习评分函数 [7][17] - 引入迭代式安全直接偏好优化,将监督信号重构为轨迹级别的偏好对齐任务,优先选择既符合人类驾驶习惯又安全的轨迹,抑制看似合理但存在风险的轨迹 [7][8][18] - 设计了两种拒绝轨迹选择策略来构建偏好对,基于模仿的选择策略效果更优,用于识别空间上接近人类参考轨迹但安全性差的轨迹 [19][20][21][24] 实验验证与性能表现 - 在NAVSIM基准数据集上,DriveDPO完整模型在无责任碰撞、可行驶区域合规性、自车进度、碰撞时间等关键安全指标上均取得最佳或次佳表现,最终PDMS达到90.0 [22] - 消融实验表明,采用基于模仿的拒绝轨迹选择策略的模型PDMS为90.0,优于基于距离的选择策略和朴素选择方法 [24] - 模型输入包含多视图相机图像、激光雷达点云、自车状态与导航指令,输出为预定义离散候选轨迹上的概率分布,采用Transfuser作为感知骨干网络进行多模态融合 [14][15][16] 技术局限与未来方向 - 方法依赖PDMS这一预定义的加权复合指标进行安全评估,可能无法完全捕捉复杂驾驶场景中的所有潜在风险因素 [27] - 规则化监督依赖高保真仿真器提供评估分数,受限于规则设计和仿真器精度,且高保真仿真器获取难度大,制约了数据规模与多样性 [27]