Workflow
多模态多步推理VQA
icon
搜索文档
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
机器之心· 2025-08-22 04:01
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[3][7][30] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步推理[3][21][30] - 采用全自动数据合成引擎ToolEngine生成 无需人工标注[11] 技术架构 - 基于深度优先搜索(DFS)构建推理链条 确保工具调用具有实质性影响[17] - 引入最长公共子序列(LCS)动态匹配机制 灵活调整工具调用路径[18] - 问题构造强制隐藏推理线索 答案必须来自最终工具调用结果[19] 性能表现 - 微调后的LLaVA-7B模型在测试集上超越GPT-3.5-Turbo 在五项评估指标中领先[23] - 在分布外数据集表现优异:TextVQA准确率47% TallyQA 64.3% GTA 33.29%[24] - 小样本学习能力突出 10-shot准确率达20.69%[25] 错误分析 - 主要错误集中在参数预测(如遗漏关键词)和答案整合(如错误选择数值)[26] - 存在误差累积效应 早期错误会导致后续推理链失效[26] 应用价值 - 支持文本与图像双模态输入输出 适配真实应用场景[21] - 为多模态工具智能体研究提供系统性训练与评估平台[30]