Workflow
告别被动感知!DriveAgent-R1:主动视觉探索的混合思维高级Agent
自动驾驶之心·2025-08-01 07:05

核心观点 - DriveAgent-R1是一款为解决长时程、高层级行为决策挑战而设计的先进自动驾驶智能体,通过混合思维和主动感知机制推动基于VLM的自动驾驶发展 [3][4] - 该智能体在SUP-AD数据集上取得SOTA性能,超越Claude Sonnet 4等顶尖多模态大模型,首帧联合准确率达61.42%,启用工具后提升至70.11% [4][27] - 创新性地提出三阶段渐进式强化学习策略和模式分组GRPO算法,将工具使用从性能干扰源转化为性能放大器,序列平均准确率提升15.9% [4][28] 技术架构 - 基于Qwen2.5-VL-3B模型构建,处理6个环视摄像头低分辨率图像、车速和导航指令,生成未来8秒驾驶意图决策 [11] - 决策由4个时间步(每步2秒)的离散元动作序列组成,包含速度和轨迹两部分 [11] - 集成视觉工具箱:高分辨率视图获取、关键区域检查、深度估计和开放词汇表3D物体检测 [19] 核心创新 - 混合思维框架:智能体根据场景复杂度在纯文本推理和工具辅助推理间自适应切换 [5][18] - 主动感知机制:配备视觉工具箱主动探查环境解决感知不确定性 [5][16] - 三阶段训练策略:双模式监督微调→强制对比模式强化学习→自适应模式选择强化学习 [17][24][25] 性能表现 - 在SUP-AD数据集上,首帧联合准确率61.42%(无工具)和70.11%(有工具),序列平均准确率38.03%和44.06% [27] - 推理质量评分7.16(无工具)和8.00(有工具),模式选择准确率达65.93% [25][27] - 消融实验显示完整三阶段策略最优,FCM-RL阶段强化单模式能力,AMS-RL阶段优化模式选择 [29] 技术验证 - 视觉工具对SOTA VLMs普遍有效,如Claude Sonnet 4联合准确率提升25.0% [27] - 未经训练的模型使用工具会导致性能暴跌42.1%,而DriveAgent-R1成功将工具转化为性能放大器 [28] - 移除图像输入后性能下降43.1%,证实决策是真正视觉驱动 [30]