多模态视觉问答 - 财报，业绩电话会，研报，新闻

多模态视觉问答

搜索文档

中国自然资源报· 2025-11-13 05:51

数据集核心突破 - 构建了首个面向珊瑚图像理解的多模态视觉问答数据集，旨在解决珊瑚监测识别依赖人工判读的行业痛点[1] - 该数据集基于跨区域的20科67属1.28万张珊瑚图像样本，从16个维度形成了27万个问答对[1] - 与通用问答数据集相比，该数据集在视觉问答任务和生态健康评估任务上的平均准确率分别提升44%与36%[1] 技术应用与行业价值 - 将专业的生态学知识和分析识别转化为直观、结构化的信息，使非专业用户可借助多模态大模型获取专业级生态信息[1] - 用户提供珊瑚图像和问题即可自动获取科学答案，为快速、高效、精准的珊瑚监测提供了可能性[1] 未来发展路径 - 研究团队计划通过优化珊瑚知识图谱、利用多源珊瑚数据持续开展预训练等方式，进一步提高AI模型能力[1] - 未来将重点提升AI模型对珊瑚科（属）级分类、健康状态、生态关系等方面的理解能力[1]

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集

具身智能之心· 2025-08-22 16:03

数据集概述 - 提出ToolVQA数据集包含23,655条样本专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出平均查询长度15.7词答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应早期错误会导致后续连锁失败[27]