工具协同 - 财报，业绩电话会，研报，新闻

工具协同

搜索文档

小红书提出DeepEyesV2，从“看图思考”到“工具协同”，探索多模态智能新维度

量子位· 2025-11-13 00:49

核心观点 - DeepEyesV2是DeepEyes模型的重大升级版本，实现了从“会看细节”到“能主动解决复杂问题的智能体”的进化 [3] - 该模型突破性地实现了代码执行、网页搜索和图像操作的全工具协同，解决了传统多模态模型工具调用能力薄弱和多能力协同缺失的痛点 [3][4][5][8] - 通过“冷启动+强化学习”的两阶段训练策略，模型具备了自适应推理能力，能根据任务难度动态调整工具调用策略 [37][71][72] 多工具协同能力 - DeepEyesV2能够动态选择、组合和使用工具，包括生成可执行Python代码、进行网络搜索查询和图像操作 [23][24][26] - 模型采用“推理—工具—整合”的循环工作模式，直至得出准确答案，支持在单一轨迹中动态结合代码执行和搜索 [22][25][27] - 代码执行在沙箱环境中进行，产生结构化输出；图像查询通过SerpAPI提交，返回排名前五的视觉匹配网页 [24] 性能表现 - 在团队构建的RealX-Bench基准测试（包含300个真实场景问题）上，DeepEyesV2准确率远超开源模型 [41][45] - 在数学推理任务上，DeepEyesV2（71.9）相比Qwen2.5-VL-7B（68.3）提升3.6个百分点；在MathVerse上从45.6提升至52.7，提升7.1个百分点 [48] - 在搜索任务中，DeepEyesV2在MMSearch上达到63.7，相比Qwen2.5-VL-7B Search提升11.5个百分点 [49] 训练方法论 - 采用两阶段训练策略：阶段一为冷启动，使用感知类、推理类、搜索类和CoT数据打好基础；阶段二为强化学习，通过“准确率+格式规范”双奖励机制优化工具调用 [37][38][43] - 强化学习后模型工具调用率显著下降，从冷启动阶段的90%以上降至自适应水平，表明模型学会了“按需调用”工具 [66][67] - 最优数据组合为“感知+推理+CoT”，三类数据结合后模型在感知和推理测试集上均实现最优表现 [58] 技术突破 - DeepEyesV2通过强化学习自主获得了通过代码访问API的技能，而该行为在训练数据中并不存在 [19] - 模型展现出任务自适应的工具使用模式，对于真实世界感知任务偏向使用裁剪工具，数学推理任务主导使用数学计算，搜索任务主要使用搜索工具 [62][63] - 在复杂问题解决示例中，模型能依次调用图像搜索、文本搜索和代码执行API获取雅虎金融数据并进行计算 [15][16][17]