多步推理

搜索文档
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-22 16:03
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景 包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架 通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注 数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出 平均查询长度15.7词 答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高 如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷 模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应 早期错误会导致后续连锁失败[27]
OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
创业邦· 2025-08-12 03:33
OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克(IOI)中取得金牌级别成绩,在AI参赛者中排名第一 [2] - 公司模型得分533.29,在所有参赛选手中排名第6,仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则,包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型,未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI,未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术,仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现,公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳,不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩,显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断,期待公司推出采用相同技术的公开版本 [18]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 04:01
核心观点 - 通义实验室推出自主信息检索智能体WebDancer,具备多步推理与连续动作执行能力,解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法(CRAWLQA、E2HQA)和两阶段训练策略(监督微调+强化学习),显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型,最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺(现有数据集如2WIKI仅支持浅层问题)、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - **CRAWLQA**:模拟人类浏览行为爬取权威网站(arXiv、Wikipedia),生成多样化真实问答对[6] - **E2HQA**:采用"由简到难"策略构建多步推理问答,通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容,确保逻辑性与多样性[9][10] 训练方法 - **监督微调(SFT)**:屏蔽Observation干扰,专注Thought-Action损失计算,提升鲁棒性[12] - **强化学习(RL)**:采用DAPO算法动态采样低利用率数据,优化奖励函数设计,降低训练成本[13][15] 实验结果 - **GAIA数据集**:WebDancer+QwQ-32B组合达到56.4% Level 1准确率,显著高于Qwen-2.5-32B(20.5%)[20] - **WebWalkerQA数据集**:中等难度任务中WebDancer表现最优(55.0% vs 基线35.0%)[20] - **BrowseComp数据集**:中文任务得分22.2,远超GPT-4o(6.2)[21][22] 未来方向 - 扩展工具集成(浏览器建模、Python沙盒)以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸,提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]