DeepEyes - 财报，业绩电话会，研报，新闻

DeepEyes

搜索文档

小红书提出DeepEyesV2，从“看图思考”到“工具协同”，探索多模态智能新维度

量子位· 2025-11-13 00:49

核心观点 - DeepEyesV2是DeepEyes模型的重大升级版本，实现了从“会看细节”到“能主动解决复杂问题的智能体”的进化 [3] - 该模型突破性地实现了代码执行、网页搜索和图像操作的全工具协同，解决了传统多模态模型工具调用能力薄弱和多能力协同缺失的痛点 [3][4][5][8] - 通过“冷启动+强化学习”的两阶段训练策略，模型具备了自适应推理能力，能根据任务难度动态调整工具调用策略 [37][71][72] 多工具协同能力 - DeepEyesV2能够动态选择、组合和使用工具，包括生成可执行Python代码、进行网络搜索查询和图像操作 [23][24][26] - 模型采用“推理—工具—整合”的循环工作模式，直至得出准确答案，支持在单一轨迹中动态结合代码执行和搜索 [22][25][27] - 代码执行在沙箱环境中进行，产生结构化输出；图像查询通过SerpAPI提交，返回排名前五的视觉匹配网页 [24] 性能表现 - 在团队构建的RealX-Bench基准测试（包含300个真实场景问题）上，DeepEyesV2准确率远超开源模型 [41][45] - 在数学推理任务上，DeepEyesV2（71.9）相比Qwen2.5-VL-7B（68.3）提升3.6个百分点；在MathVerse上从45.6提升至52.7，提升7.1个百分点 [48] - 在搜索任务中，DeepEyesV2在MMSearch上达到63.7，相比Qwen2.5-VL-7B Search提升11.5个百分点 [49] 训练方法论 - 采用两阶段训练策略：阶段一为冷启动，使用感知类、推理类、搜索类和CoT数据打好基础；阶段二为强化学习，通过“准确率+格式规范”双奖励机制优化工具调用 [37][38][43] - 强化学习后模型工具调用率显著下降，从冷启动阶段的90%以上降至自适应水平，表明模型学会了“按需调用”工具 [66][67] - 最优数据组合为“感知+推理+CoT”，三类数据结合后模型在感知和推理测试集上均实现最优表现 [58] 技术突破 - DeepEyesV2通过强化学习自主获得了通过代码访问API的技能，而该行为在训练数据中并不存在 [19] - 模型展现出任务自适应的工具使用模式，对于真实世界感知任务偏向使用裁剪工具，数学推理任务主导使用数学计算，搜索任务主要使用搜索工具 [62][63] - 在复杂问题解决示例中，模型能依次调用图像搜索、文本搜索和代码执行API获取雅虎金融数据并进行计算 [15][16][17]

OpenAI未公开的o3「用图思考」技术，被小红书、西安交大尝试实现了

机器之心· 2025-05-31 06:30

多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程，具备"用图思考"能力，在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域（如物理试卷公式区、建筑图纸承重结构），结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型，通过端到端强化学习实现类似o3的"图像思考"能力，并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限：推理阶段无法回看图像补充细节，易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息，实现视觉与语言交替交互，提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程：全局视觉分析→智能工具调用→细节推理识别，无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制：根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略，不依赖监督微调(SFT)，通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期（随机尝试）、探索期（频繁调用工具）、成熟期（精准预判关键区域）三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率，HR-Bench超越现有工作流方法，7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势：训练更简洁（仅需问答对）、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升，展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式：无需复杂工作流或大规模监督数据，通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属，为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学，成果已在实习期间完成并开源[31]

多模态模型

用图像思考

Artificial Intelligence

Artificial Intelligence

o3推理模型

DeepEyes