Workflow
多模态视觉问答
icon
搜索文档
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-22 16:03
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景 包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架 通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注 数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出 平均查询长度15.7词 答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高 如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷 模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应 早期错误会导致后续连锁失败[27]