多模态多步推理VQA - 财报，业绩电话会，研报，新闻 - Reportify

多模态多步推理VQA

搜索文档

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

机器之心· 2025-08-22 04:01

数据集概述 - 提出ToolVQA数据集包含23,655条样本专为多模态多步骤推理任务设计[3][7][30] - 覆盖10种多模态工具和7类任务领域每条样本平均涉及2.78步推理[3][21][30] - 采用全自动数据合成引擎ToolEngine生成无需人工标注[11] 技术架构 - 基于深度优先搜索(DFS)构建推理链条确保工具调用具有实质性影响[17] - 引入最长公共子序列(LCS)动态匹配机制灵活调整工具调用路径[18] - 问题构造强制隐藏推理线索答案必须来自最终工具调用结果[19] 性能表现 - 微调后的LLaVA-7B模型在测试集上超越GPT-3.5-Turbo 在五项评估指标中领先[23] - 在分布外数据集表现优异：TextVQA准确率47% TallyQA 64.3% GTA 33.29%[24] - 小样本学习能力突出 10-shot准确率达20.69%[25] 错误分析 - 主要错误集中在参数预测(如遗漏关键词)和答案整合(如错误选择数值)[26] - 存在误差累积效应早期错误会导致后续推理链失效[26] 应用价值 - 支持文本与图像双模态输入输出适配真实应用场景[21] - 为多模态工具智能体研究提供系统性训练与评估平台[30]

多模态多步推理VQA

工具增强的视觉问答（VQA）

ToolVQA数据集

ToolEngine数据合成引擎

多模态多步推理VQA

工具增强的视觉问答（VQA）

ToolVQA数据集

ToolEngine数据合成引擎