视觉语言模型在自动驾驶领域的应用突破 - 视觉语言模型(VLM)展现出简化传统自动驾驶系统中感知、预测与决策模块的潜力 但现有方法在不确定性建模、泛化性能与可解释性方面存在局限[1] - 行业突破点正从基础感知与控制层面向高阶语义场景理解与复杂拓扑关系等问题收敛 例如复杂红绿灯和标牌语义理解问题[4] - VLM模型存在严重幻觉问题 即答案格式正确但内容错误 影响自动驾驶决策可靠性[4] AgentThink框架的核心创新 - 由清华大学、小米、麦吉尔大学等团队联合提出的AgentThink框架 将动态工具调用与思维链推理深度融合 提升VLM在自动驾驶任务中的推理可靠性和泛化能力[3][5] - 框架采用动态工具调用与思维链推理融合机制 使VLM能够根据场景自主调用工具并进行推理 显著降低幻觉问题[5][8] - 创新性地构建包含视觉信息、检测、轨迹预测、占用和建图五个核心模块的工具库 为感知和预测任务提供全面环境信息[11] 数据生成与训练方法论 - 通过GPT-4o生成带工具调用的结构化推理数据 每个推理步骤包含工具选择、子问题生成、不确定性标志、猜测答案和下一个动作选择五个关键元素[13] - 引入独立LLM审核器(Expert Qwen)对数据内容准确性和逻辑一致性进行双重校验 构建高质量结构化语料库[14] - 采用结合SFT和GRPO的两阶段训练流程 第一阶段通过SFT预热模型生成推理链和工具调用能力 第二阶段通过GRPO算法进行强化学习微调[15][18] 评估体系与实验结果 - 设计针对自动驾驶工具调用的全新评估指标 涵盖工具选择恰当性、工具链连贯性和感知对齐性三个维度[20] - 基于LLM-as-judge原则使用gpt-4o-mini进行多维度评价 对比模型输出与GroundTruth数据得到工具调用准确性和合理性分数[22] - 在主实验中AgentThink在所有评估类别达到最先进性能 整体推理得分从51.77%提升至79.68%(+53.91%) 最终答案准确率从37.81%提升至71.35%(+33.54%)[23][48] - 相比最强基线DriveLMM-o1 推理能力提升5.9% 最终答案准确性提升9.0%[24] - 在零样本和单一样本设置下分别达到26.52和47.24的分数 超过GPT-4o和LLaVA-72B等基线模型[43] 技术优势与行业影响 - 动态工具调用机制使模型能够学习何时以及为何调用外部工具 实现更具适应性和上下文感知的推理 从而提升决策质量并减少幻觉[36] - 结构化奖励设计(最终答案奖励、分步推理奖励和工具使用奖励)对推理行为有显著贡献 完整模型结合所有奖励成分达到最优结果[37][41] - 框架展现出优异的零样本泛化能力 能够有效处理BDD-X、Navsim、DriveBench、DriveMLLM等基准测试上的挑战性场景[44] 未来发展方向 - 当前工具语料库包含18k条标注实例 需要更大且更多样化的数据集以覆盖更广泛真实世界场景[49] - 模型基于qwen2.5-VL-7B参数架构 未来需研究更轻量级骨干网络(如~3B参数)以减轻车载资源约束[49] - 缺乏时间上下文和3D模态数据 未来需引入视频标记、递归记忆机制以及LiDAR点云等多模态工具融合[49] - 重点发展方向包括时序上下文建模、多模态工具扩展和强化学习泛化 以提升框架在开放道路环境中的适配能力[49]
超越GPT-4o!AgentThink: 清华&小米融合推理&工具调用的自动驾驶框架(EMNLP25)
自动驾驶之心·2025-09-09 23:33