Workflow
自驾VLA新SOTA!阿里AutoDrive-R²:自反思思维链&物理奖励,突破VLA泛化瓶颈
自动驾驶之心·2025-09-03 23:33

核心观点 - 阿里巴巴和昆士兰大学团队提出AutoDrive-R²框架 通过结合思维链处理和强化学习 显著提升自动驾驶系统的推理能力和轨迹规划质量 [2][8][10] - 该框架采用两阶段训练方法 包括监督微调SFT和基于物理奖励的GRPO强化学习 在nuScenes和Waymo数据集上实现最先进性能 [17][35][37] - 创新性构建nuScenesR²-6K数据集 包含6000个样本 采用四步逻辑链结构 首次在自动驾驶领域同时激发模型推理与自反思能力 [8][19][20] 技术框架 - 第一阶段监督微调使用nuScenesR²-6K数据集 通过四步逻辑链(可视化→计算→逻辑→反思)建立基础感知能力 [19][20][43] - 第二阶段采用GRPO算法 每个输入生成6个候选响应 通过基于物理的奖励函数优化轨迹规划 [21][33][45] - 奖励函数整合空间对齐 车辆动力学和时间平滑性约束 确保轨迹的物理可行性和安全性 [26][28][29] 性能表现 - 在nuScenes数据集上 7B模型将平均L2误差降至0.19米 相比基准模型Qwen2.5-VL-7B的1.45米降低86.9% [35][43] - 在Waymo数据集零样本测试中 相比EMMA+方法降低33.3%误差 相比Qwen2-VL-72B基准降低90.7%误差 [37][38] - 3B模型同样表现优异 平均L2误差0.49米 证明框架对小规模模型的有效提升 [35][39] 关键创新 - 基于物理的奖励框架包含四个组件:空间对齐奖励(公式4) 转向角偏差惩罚(公式5) 速度约束(公式6)和时间平滑性惩罚(公式7) [27][28][29] - 自反思机制作为第四步推理 通过反向验证结论提升模型鲁棒性和答案正确性 [20][43] - GRPO算法采用候选响应间成对比较机制 简化架构并降低计算开销 [21][25] 实验验证 - 消融实验证明四步逻辑链的必要性:移除自反思使误差上升21.1% 移除完整推理结构使误差上升31.5% [43] - 奖励组件缺省实验显示空间对齐最关键 其缺失使误差升至0.53米 转向角 速度和时间组件缺失分别导致误差上升10.5% 15.8%和26.3% [44] - 候选响应数量实验表明6个为最优平衡点 达到0.19米最低误差 超过6个后性能提升减弱 [45][46] 行业意义 - 解决现有VLA方法两大局限:物理不可行轨迹生成和复杂场景推理能力不足 [8][9] - 为端到端自动驾驶提供新范式 实现感知 推理和规划的联合优化 [6][11][47] - 推动视觉-语言-动作模型在自动驾驶领域的实际应用部署 [7][12][47]