强化学习应用在自动驾驶中的一些思考

文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文，认为该方法逻辑通顺、通用性强，为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路，其核心在于通过预训练结合强化学习微调的两阶段方法，在无需高保真仿真环境的情况下实现闭环训练，从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法，进行开环训练，即在服务器训练后部署到车端运行，这种模式下，车辆在实车测试中一旦进入不合理状态很难自行纠正，增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练，若感知范围有限或远端感知不准，会导致因果不一致的问题，例如真实轨迹在远端无感知道路处转弯，而当前帧感知无法覆盖，此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式，其网络结构沿用了Waymo之前的MotionLM模型，采用自回归方式输出轨迹，在推理阶段通过循环依次输出自车与交通参与者的动作，从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作，这本身构成了一个简易版的世界模型，网络输入采用以场景为中心的编码方式，例如对于输出6秒轨迹的任务，静态信息是6秒内信息的汇总，而非仅当前帧，这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹，动作定义为横纵向加速度及一个13x13的空间网格，强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁，包含两部分：拟合真实轨迹的奖励和碰撞惩罚，具体公式为 $r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$ ，这种组合被认为能兼顾效率与安全性，且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化，公式为 $R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$ ，这种方法省略了评价者网络，类似于GRPO的方式，并采用策略梯度进行更新，作者认为若在采样轨迹范围内标准化会更精确，但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比，将类似约束转化为奖励函数能带来更好效果，因为奖励通过提升特定决策模态的概率来间接优化，而非直接作用于轨迹形态，可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习，即使使用较小但难度较高的数据集进行微调，也能显著提升模型能力，该方法参考了大语言模型中强化学习微调的思路，指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现，且不需要依赖高保真的仿真环境，为行业提供了一种通用性强的训练范式[4][13]