研究背景与核心挑战 - 端到端自动驾驶模型的闭环仿真强化学习训练受到广泛关注,相比仅依赖专家演示的模仿学习,闭环强化学习能提升模型在多样场景中的鲁棒性和适应性 [1] - 现有方法面临两大核心挑战:仿真环境真实性不足和训练数据分布不均 [5] 核心框架:ReconDreamer-RL的三层设计 - 框架通过整合视频扩散先验与场景重建,包含三个核心组件:ReconSimulator、Dynamic Adversary Agent(DAA)和Cousin Trajectory Generator(CTG) [3] - 分两阶段优化自动驾驶策略:模仿学习阶段通过行为克隆初始化规划,强化学习阶段通过闭环试错优化策略 [3] ReconSimulator:高逼真度仿真环境 - 外观建模:通过3D高斯splatting(3DGS)重建驾驶场景并渲染新轨迹,再用DriveRestorer修正渲染视频中的伪影,迭代优化重建模型以支持多视角高质量渲染 [4] - 物理建模:采用运动学自行车模型确保车辆轨迹的物理可行性,车辆位姿通过线速度和转向角更新 [7] Dynamic Adversary Agent(DAA):极端场景生成器 - 通过控制周围车辆轨迹自动生成切入、急刹等复杂交互场景,解决训练中极端场景缺失问题 [8] - 生成的轨迹需通过可行性检查,确保在可行驶区域内、与其他车辆保持最小距离且符合运动学模型约束 [12] Cousin Trajectory Generator(CTG):轨迹多样性增强器 - 通过轨迹扩展和插值生成多样化轨迹,构建Cousin-nuScenes数据集,解决训练数据偏向直线运动的问题 [10] - 轨迹扩展生成车道变更、急转等新轨迹,轨迹插值对专家轨迹在时间步间线性插值 [14] 实验验证:性能与优势 - 实验在基于nuScenes和Waymo数据集重建的3DGS环境中展开,对比了VAD、GenAD、RAD等基线方法 [15] - 整体性能提升:碰撞率从模仿学习方法的0.386降至0.077,降低约5倍,位置和方向偏差总和(DR)从0.084降至0.040 [16][17] - 极端场景表现:在切入场景中,碰撞率从模仿学习的0.293降至0.053,提升404.5% [18][19] - 组件有效性:移除ReconSimulator后碰撞率升至0.238,DAA将碰撞率从0.172降至0.117,CTG将偏差率从0.073降至0.053 [20][22] - 渲染效率:ReconSimulator的渲染速度达125 FPS,远超EmerNeRF的0.21 FPS [21]
北大最新ReconDreamer-RL:基于扩散场景重建的强化学习框架,碰撞率降低5倍!
自动驾驶之心·2025-08-14 11:12