Workflow
模仿学习无法真正端到端!DriveDPO:Safety DPO打破模仿学习固有缺陷(中科院最新)
自动驾驶之心·2025-10-03 03:32

想象一下,你正在教一个模型学习开车。你给它看了一堆人类司机的驾驶录像,希望它能模仿得一模一样。听起来很合理对吧? 但问题来了 ——人类司机偶尔也会犯错,或者做出一些在特定情况下很危险的操作! 这就是当前端到端自动驾驶面临的最大挑战:模仿学习虽然能让模型开车像人类,但不能保证它开得安全。针对这个现象,中科院的团队认为模 仿学习主要有两个大问题: 为了解决上述的问题,中科院的团队提出了DriveDPO - 一种基于safety DPO的策略学习框架。首先从人类模仿相似度和基于规则的安全分数中提 炼出统一的策略分布,用于直接的策略优化;其次,引入迭代式DPO,将其构建为轨迹级别的偏好对齐任务。在NAVSIM基准数据集上的大量实 验表明,DriveDPO实现了90.0的最新最优PDMS。此外在多种复杂场景下的定性结果进一步证明,DriveDPO能够生成更安全、更可靠的驾驶行 为。 更多自动驾驶的最新技术进展、行业动态和岗位招聘,欢迎加入自动驾驶之心知识星球! 背景回顾 几何距离不等于安全距离 :模仿学习通常使用均方误差等对称损失函数,只关心预测轨迹与人类轨迹的几何相似度。但现实中,即使轨迹看 起来很像,安全性可能天差 ...