Workflow
OpenAI Deep Research
icon
搜索文档
超越GPT-5、Gemini Deep Research!人大高瓴AI金融分析师,查数据、画图表、写研报样样精通
量子位· 2025-12-26 06:35
能自动查数据、写分析、画专业金融图表的AI金融分析师来了! 最近,中国人民大学高瓴人工智能学院提出了一个面向真实金融投研场景的多模态研报生成系统—— 玉兰·融观 (Yulan-FinSight) 。 面对用户的研究需求,FinSight能够自动拆解任务,从互联网和金融数据库中搜集包括股价、财报、新闻在内的 多源异构数据 ,并生成包 含"发展历程"、"核心业务架构"、"竞争格局"等章节的 万字图文报告 。 FinSight团队 投稿 量子位 | 公众号 QbitAI △ 可在FinSight预设基础上自行配置 该系统也在 AFAC 2025 金融智能创新大赛挑战组 的1289支队伍中夺冠,并在多项评测中超越了GPT-5 w/Search、OpenAI Deep Research与Gemini-2.5-Pro Deep Research,展现出接近人类专家的金融分析与写作能力。 下面来看详细内容。 为什么通用AI做不好金融研报? 在研究者看来,问题的关键并不在于模型"不会写字",而在于金融行业的研究报告本身是一项 高度结构化、强逻辑、强可视化 的专家级工 作,涉及多个流程。 相比通用问答、检索或文本生成任务,金融 ...
Kimi新功能Deep Researcher海外引发热议 还被马斯克直播点名
搜狐财经· 2025-07-10 10:15
模型发布 - 马斯克旗下公司xAI正式发布最新旗舰模型Grok 4 [1] HLE测试表现 - OpenAI Deep Research在HLE测试中创下26.6%的新纪录,较之前最高分(o3-mini的13%)翻倍 [4] - Google Gemini 2.5 Pro在HLE测试中得分为21.64%,优于o3(20.32%)但落后于OpenAI Deep Research [4] - 月之暗面Kimi-Researcher以26.9%的成绩创下HLE测试新纪录,超越OpenAI Deep Research和Google Gemini [4] - AI行业在一年内HLE测试成绩从不足5%提升至超过25% [4] Kimi DeepResearcher产品特性 - 在执行研究任务时平均进行23次推理,筛选高质量信息并剔除冗余内容 [6] - 具备自动生成分析结论能力,拥有文献严谨性,可有效减少模型幻觉 [6] - 在xBench DeepSearch基准测试中达到69%的优异表现 [4] 行业评价 - AI从业者高度评价Kimi DeepResearcher,认为其视觉效果出色且研究能力精准 [3] - 海外研究者将Kimi列为中国AI领域前三强,与DeepSeek、字节跳动并列 [4] - 行业人士指出Kimi是基于模型的Agent产品,而非简单工具套用 [4]
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 09:22
核心观点 - Alita是一款基于「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式实现自主思考、搜索和创造MCP工具[1][5][14] - Alita在GAIA基准测试中表现卓越,pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research和Manus等竞争对手[3][22] - Alita的动态MCP工具创建能力使其在复杂任务中展现出超越预定义工具系统的灵活性与创造力[6][7][19] 技术架构 设计理念 - 最小化预定义:仅内置Manager Agent和Web Agent作为核心组件,避免人工预设工具库[13][14] - 最大化自进化:通过MCP协议动态生成、优化和复用工具,实现持续演化[14][16] 核心模块 - MCP Brainstorming模块:分析任务需求并生成能力缺口描述与工具构建建议[17] - 脚本生成模块:结合网页检索结果实时创建可执行的MCP工具代码[17] - 代码运行与验证模块:在虚拟环境测试工具并实现自我优化[17] 性能表现 GAIA基准 - Validation测试pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research的67.36%[3][22] - Mathvista数学推理测试pass@1达74%,PathVQA医学图像识别达52%[22] 跨模型赋能 - 其生成的MCP工具可使Open Deep Research-smolagents准确率从27.88%提升至33.94%[30] - GPT-4o-mini模型复用MCP后准确率从21.82%提升至29.09%,Level 3任务提升3倍[30] 创新应用 动态工具创建案例 - 针对PPT页码提取任务,动态生成专用处理工具而非依赖预设文本转换工具[19] - 在视频理解任务中创建逐帧分析MCP,突破字幕抓取工具的局限性[19][20] MCP复用价值 - 实现智能体蒸馏新范式,降低传统蒸馏成本[27] - 通过工具复用使单次尝试(pass@1)达到近似多次尝试(pass@N)的效果[28]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 12:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
海外独角兽· 2025-04-21 13:13
作者:Krystal 编辑:penny Deep Research 产品可被理解为 一个以大模型能力为基础、集合了检索与报告生成的端到端系统,对 信息进行迭代搜索和分析,并生成详细报告作为输出。 参考 Han Lee 的 2x2 分析框架,目前 Deep Research 类产品在 输出深度、训练程度 两大维度呈现分 异。 输出深度 即产品在先前研究成果的基础上进行了多少次迭代循环以收集更多信息,可进一步被 理解为 Agentic 能力的必要基础。 低训练程度 指代经过人工干预和调整的系统,比如使用人工调整 的 prompt,高训练程度则是指利用机器学习对系统进行训练。 从 2024 年末问世的 Google Deep Research,到 2024 年 2 月以来密集发布的 OpenAI Deep Research、 Perplexity、xAI Deep Search、Manus,Deep Research 成为各家 Agent 产品角逐的白热化赛道。 和传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的一次跃迁,可能也将成为具 有阶段代表性的经典产品形态。 ...
从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?
海外独角兽· 2025-03-03 13:10
行业竞争格局 - 头部AI实验室在过去一个月密集发布三个SOTA推理模型:OpenAI的o3-mini和deep research、xAI的Grok 3、Anthropic的Claude 3.7 Sonnet,标志着新范式第一轮竞赛暂告段落 [1] - 当前尚无全面领先的SOTA模型:OpenAI和xAI在基础模型和竞赛解题能力占优,Anthropic更擅长真实世界工程问题,Claude 3.7 Sonnet的混合推理模型可能成为行业新标准 [1][3] - DeepSeek R1在有限资源下实现开源创新,虽表现暂时落后但技术扩散价值显著 [7][8] 模型能力对比 - **数学推理**:o3-mini-high在AIME 2024测试中Pass@1达87.3,显著优于Claude 3.7 Sonnet的61.3/80.0和Grok 3的83.9/93.3 [9] - **工程代码**:Claude 3.7 Sonnet在SWE-bench验证中准确率领先20%+,可靠代码输出长度从3.5版的200行提升至1000-1500行 [19][20] - **多模态**:Gemini 2.0 Flash在多模态理解能力上绝对领先,但高阶融合能力尚未涌现 [6] 技术范式演进 - 基础模型预训练仍具关键价值:高质量基础模型是强化学习的前提,且当前评估方法已落后于模型智能发展 [12] - 混合推理成为趋势:Claude 3.7 Sonnet通过"extended thinking"设置实现快慢思考切换,未来模型需具备动态计算能力 [13][14][16] - RL Scaling效果优于垂直微调:OpenAI竞争性编程报告显示通用RL scaling比领域RL finetuning效果更好 [34][35] 产品应用创新 - Claude Code定位为AI Coding基建:通过命令行界面帮助AI扎根传统代码库,结合action scaling能力实现类Devin的agentic工作流 [22][23] - OpenAI Deep Research确立PMF形态:在网页理解深度、信息准确性、意图识别等方面领先,支持可配置的研究广度/深度控制 [29][31][32] - Agent能力升级关键:action scaling实现连续tool use,verifiable environment构建(如OS browser/Coding)及online learning机制 [25][27][28] 性能基准数据 | 测试维度 | Claude 3.7 Sonnet | Grok 3 Beta | o3-mini-high | |----------------|-------------------|-------------|--------------| | GPQA Diamond | 78.2/84.8 | 80.2/84.6 | 79.7 | | Codeforces评分 | - | - | 2130 | | SWE-bench | 49.3 | - | 49.2 | [9]