超越GPT-4o！AgentThink: 清华&小米融合推理&工具调用的自动驾驶框架（EMNLP25）

视觉语言模型在自动驾驶领域的应用突破 - 视觉语言模型（VLM）展现出简化传统自动驾驶系统中感知、预测与决策模块的潜力但现有方法在不确定性建模、泛化性能与可解释性方面存在局限[1] - 行业突破点正从基础感知与控制层面向高阶语义场景理解与复杂拓扑关系等问题收敛例如复杂红绿灯和标牌语义理解问题[4] - VLM模型存在严重幻觉问题即答案格式正确但内容错误影响自动驾驶决策可靠性[4] AgentThink框架的核心创新 - 由清华大学、小米、麦吉尔大学等团队联合提出的AgentThink框架将动态工具调用与思维链推理深度融合提升VLM在自动驾驶任务中的推理可靠性和泛化能力[3][5] - 框架采用动态工具调用与思维链推理融合机制使VLM能够根据场景自主调用工具并进行推理显著降低幻觉问题[5][8] - 创新性地构建包含视觉信息、检测、轨迹预测、占用和建图五个核心模块的工具库为感知和预测任务提供全面环境信息[11] 数据生成与训练方法论 - 通过GPT-4o生成带工具调用的结构化推理数据每个推理步骤包含工具选择、子问题生成、不确定性标志、猜测答案和下一个动作选择五个关键元素[13] - 引入独立LLM审核器（Expert Qwen）对数据内容准确性和逻辑一致性进行双重校验构建高质量结构化语料库[14] - 采用结合SFT和GRPO的两阶段训练流程第一阶段通过SFT预热模型生成推理链和工具调用能力第二阶段通过GRPO算法进行强化学习微调[15][18] 评估体系与实验结果 - 设计针对自动驾驶工具调用的全新评估指标涵盖工具选择恰当性、工具链连贯性和感知对齐性三个维度[20] - 基于LLM-as-judge原则使用gpt-4o-mini进行多维度评价对比模型输出与GroundTruth数据得到工具调用准确性和合理性分数[22] - 在主实验中AgentThink在所有评估类别达到最先进性能整体推理得分从51.77%提升至79.68%（+53.91%）最终答案准确率从37.81%提升至71.35%（+33.54%）[23][48] - 相比最强基线DriveLMM-o1 推理能力提升5.9% 最终答案准确性提升9.0%[24] - 在零样本和单一样本设置下分别达到26.52和47.24的分数超过GPT-4o和LLaVA-72B等基线模型[43] 技术优势与行业影响 - 动态工具调用机制使模型能够学习何时以及为何调用外部工具实现更具适应性和上下文感知的推理从而提升决策质量并减少幻觉[36] - 结构化奖励设计（最终答案奖励、分步推理奖励和工具使用奖励）对推理行为有显著贡献完整模型结合所有奖励成分达到最优结果[37][41] - 框架展现出优异的零样本泛化能力能够有效处理BDD-X、Navsim、DriveBench、DriveMLLM等基准测试上的挑战性场景[44] 未来发展方向 - 当前工具语料库包含18k条标注实例需要更大且更多样化的数据集以覆盖更广泛真实世界场景[49] - 模型基于qwen2.5-VL-7B参数架构未来需研究更轻量级骨干网络（如~3B参数）以减轻车载资源约束[49] - 缺乏时间上下文和3D模态数据未来需引入视频标记、递归记忆机制以及LiDAR点云等多模态工具融合[49] - 重点发展方向包括时序上下文建模、多模态工具扩展和强化学习泛化以提升框架在开放道路环境中的适配能力[49]