Workflow
闭环仿真测试
icon
搜索文档
英伟达又一新作!MPA:基于模型的闭环端到端自适应策略新框架(CMU&斯坦福等)
自动驾驶之心· 2025-12-01 00:04
文章核心观点 - 英伟达、CMU和斯坦福团队提出了一种名为基于模型的策略自适应(Model-based Policy Adaptation, MPA)的新型框架,旨在解决端到端(E2E)自动驾驶模型在闭环评估中面临的性能下降问题 [1][2] - MPA框架通过利用高保真3D高斯溅射(3DGS)仿真引擎生成反事实数据,并训练基于扩散模型的策略适配器和多步Q值模型,显著提升了预训练E2E驾驶智能体在部署阶段的鲁棒性、安全性和泛化能力 [2][7][11] - 在nuScenes基准数据集上的实验结果表明,MPA在域内场景、域外场景及安全关键场景中均显著优于多种基线模型,尤其在路线完成率和综合驾驶评分等关键指标上提升显著 [33][34][35] 技术背景与问题定义 - 端到端自动驾驶模型在开环评估中表现出色,但在闭环环境中会因微小偏差累积导致的级联误差和分布偏移而出现性能下降,核心挑战在于离线训练的经验风险最小化与在线部署的累积奖励最大化目标不一致 [3][6] - 现有闭环评估方法存在局限性,例如缺乏闭环评估结果、仅在非照片级真实感仿真器中进行评估,或训练成本高且未充分利用价值评判器,且尚无工作在训练阶段纳入经过筛选的反事实数据 [5] - 性能下降的根本原因被归结为观测不匹配(训练与部署阶段的传感器输入差异)和目标不匹配(离线模仿学习缺乏有意义的长期奖励反馈) [6][9] MPA方法框架 - MPA框架包含三个核心组成部分:基于世界模型的反事实数据生成、基于扩散模型的策略自适应以及Q值引导的推理时间采样 [14][16][24] - 反事实数据生成流程利用几何一致的3DGS仿真器,对预训练E2E策略的预测动作进行随机增强(旋转角度范围[-10, 10]度,扭曲比例范围[0.1, 1.0],随机高斯噪声标准差0.05),并通过类似波束搜索的算法筛选出奖励最高的候选轨迹 [16][18] - 策略适配器采用基于潜扩散过程的1D U-Net结构,以预训练基础策略的输出为条件,预测残差轨迹进行优化,推理阶段使用DDIM采样器生成多模态(例如8个模态)的适配后轨迹 [21][22][39] - 多步动作价值模型(Q值模型)基于四个可解释原则(碰撞、距离、路线、速度)独立训练,综合Q值为各单原则Q值的加权和,用于在推理阶段选择期望效用最高的动作 [25][26] 实验结果与分析 - 实验在nuScenes数据集和HUGSIM仿真基准上进行,评估分为域内场景(70个)、域外场景(70个)和安全关键场景(10个)三类设置 [27][30] - 主要评估指标包括路线完成率(RC)、无碰撞率(NC)、可行驶区域合规率(DAC)、碰撞时间合规率(TTC)、舒适性(COM)和综合HUGSIM驾驶评分(HDScore) [29][31][32] - 在域内场景中,基于MPA的智能体(如MPA(UniAD))的路线完成率(RC)达到93.6%,HDScore为66.4,显著优于其预训练基础版本UniAD(RC 39.4%,HDScore 19.4)及其他基线模型 [33] - 在安全关键场景中,MPA(VAD)的路线完成率(RC)达到96.6%,HDScore高达74.7,远超预训练VAD的RC(25.4)和HDScore(16.0),证明了其在对抗性挑战下的有效性 [35][36] 消融研究与组件分析 - 消融实验表明,反事实数据生成的轨迹推演步数规模对性能有正面影响,更长的推演步数能为价值函数训练提供更丰富的未来步监督信号,帮助Q值模型更准确地评估长时域收益 [38] - 策略适配器的模态数量从1增加到8时,性能显著提升,超过8后提升趋于平缓,表明适当增加模态数量能有效覆盖更多反事实行为模式 [39] - 移除Q值模型的不同组件(如路径跟随Qc、车道距离Qd、避撞Qcol、速度合规Qspeed)会导致相关指标急剧下降,验证了各组件对保障闭环安全与性能的必要性 [40][42] 结论与未来方向 - MPA框架通过系统性的反事实数据生成、策略适配和价值引导,成功地将预训练开环E2E驾驶智能体适配为安全且具有泛化能力的闭环智能体 [41][43] - 当前工作的局限性包括对3DGS渲染质量的依赖、价值与策略模型的解耦设计以及实验场景覆盖范围有限(仅基于nuScenes数据集) [44] - 未来工作方向包括将MPA应用于更多多样化驾驶数据集、探索在线强化学习以实现价值模型与策略适配器的联合训练,以及将MPA部署到多模态基础模型中以增强对严重分布偏移场景的推理能力 [44][46]