Workflow
ToolVQA数据集
icon
搜索文档
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-22 16:03
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景 包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架 通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注 数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出 平均查询长度15.7词 答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高 如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷 模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应 早期错误会导致后续连锁失败[27]
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
机器之心· 2025-08-22 04:01
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[3][7][30] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步推理[3][21][30] - 采用全自动数据合成引擎ToolEngine生成 无需人工标注[11] 技术架构 - 基于深度优先搜索(DFS)构建推理链条 确保工具调用具有实质性影响[17] - 引入最长公共子序列(LCS)动态匹配机制 灵活调整工具调用路径[18] - 问题构造强制隐藏推理线索 答案必须来自最终工具调用结果[19] 性能表现 - 微调后的LLaVA-7B模型在测试集上超越GPT-3.5-Turbo 在五项评估指标中领先[23] - 在分布外数据集表现优异:TextVQA准确率47% TallyQA 64.3% GTA 33.29%[24] - 小样本学习能力突出 10-shot准确率达20.69%[25] 错误分析 - 主要错误集中在参数预测(如遗漏关键词)和答案整合(如错误选择数值)[26] - 存在误差累积效应 早期错误会导致后续推理链失效[26] 应用价值 - 支持文本与图像双模态输入输出 适配真实应用场景[21] - 为多模态工具智能体研究提供系统性训练与评估平台[30]