混合思维

搜索文档
告别被动感知!DriveAgent-R1:主动视觉探索的混合思维高级Agent
自动驾驶之心· 2025-08-01 07:05
核心观点 - DriveAgent-R1是一款为解决长时程、高层级行为决策挑战而设计的先进自动驾驶智能体,通过混合思维和主动感知机制推动基于VLM的自动驾驶发展 [3][4] - 该智能体在SUP-AD数据集上取得SOTA性能,超越Claude Sonnet 4等顶尖多模态大模型,首帧联合准确率达61.42%,启用工具后提升至70.11% [4][27] - 创新性地提出三阶段渐进式强化学习策略和模式分组GRPO算法,将工具使用从性能干扰源转化为性能放大器,序列平均准确率提升15.9% [4][28] 技术架构 - 基于Qwen2.5-VL-3B模型构建,处理6个环视摄像头低分辨率图像、车速和导航指令,生成未来8秒驾驶意图决策 [11] - 决策由4个时间步(每步2秒)的离散元动作序列组成,包含速度和轨迹两部分 [11] - 集成视觉工具箱:高分辨率视图获取、关键区域检查、深度估计和开放词汇表3D物体检测 [19] 核心创新 - 混合思维框架:智能体根据场景复杂度在纯文本推理和工具辅助推理间自适应切换 [5][18] - 主动感知机制:配备视觉工具箱主动探查环境解决感知不确定性 [5][16] - 三阶段训练策略:双模式监督微调→强制对比模式强化学习→自适应模式选择强化学习 [17][24][25] 性能表现 - 在SUP-AD数据集上,首帧联合准确率61.42%(无工具)和70.11%(有工具),序列平均准确率38.03%和44.06% [27] - 推理质量评分7.16(无工具)和8.00(有工具),模式选择准确率达65.93% [25][27] - 消融实验显示完整三阶段策略最优,FCM-RL阶段强化单模式能力,AMS-RL阶段优化模式选择 [29] 技术验证 - 视觉工具对SOTA VLMs普遍有效,如Claude Sonnet 4联合准确率提升25.0% [27] - 未经训练的模型使用工具会导致性能暴跌42.1%,而DriveAgent-R1成功将工具转化为性能放大器 [28] - 移除图像输入后性能下降43.1%,证实决策是真正视觉驱动 [30]
自动驾驶Agent来了!DriveAgent-R1:智能思维和主动感知Agent(上海期智&理想)
自动驾驶之心· 2025-07-29 23:32
DriveAgent-R1核心创新 - 首创基于强化学习的混合思维架构,使智能体能在纯文本推理和工具辅助推理间自适应切换[12][14] - 引入主动感知机制,配备包含高分辨率视图获取、关键区域检查等功能的视觉工具箱[15][18] - 采用三阶段渐进式训练策略(DM-SFT→FCM-RL→AMS-RL),显著提升模型性能[16][19][24] - 在SUP-AD数据集上实现SOTA性能,首帧联合准确率达70.11%,超越Claude Sonnet 4等主流模型[12][26] 技术架构与性能 - 基于Qwen2.5-VL-3B模型构建,输入包含6路环视摄像头数据,输出8秒驾驶意图决策序列[11] - 创新MP-GRPO算法强化双模式能力,模式选择准确率达65.93%[24][28] - 工具使用使序列平均准确率提升15.9%,推理质量提升11.7%[26][27] - 消融实验显示完整训练策略使首帧准确率较基线提升44.8个百分点[28] 行业突破性 - 首次实现自动驾驶智能体的长时程决策能力(8秒连贯规划)[3][11] - 解决现有VLM短视决策(单步预测)和被动感知两大核心痛点[6][12] - 验证视觉工具对SOTA模型的普适增强效应(如Claude推理质量+26.1%)[26] - 建立首个评估体系量化安全性、舒适性等多维度表现[24]