Agent

搜索文档
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 12:31
模型发布与能力升级 - OpenAI发布o3和o4-mini模型,o3具备最全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [8] - o4-mini专为高效推理优化,部分benchmark表现优于o3,但实际使用中思考时间更短 [8] - 模型首次实现将图像直接融入CoT中,能"看懂"图像并用图像思考,在多模态理解benchmarks中领先 [45] - o3在外部专家评估中比o1少犯20%重大错误,能意识到自身能力边界并拒绝无法解决的问题 [61] 技术路线与产品策略 - Agent产品分化出两类路线:OpenAI黑盒化端到端训练路线和Manus白盒化虚拟机模仿人类工作方式路线 [15] - OpenAI将Agent产品作为未来商业化收入占比的大头 [4] - OpenAI开源Codex CLI,具备多模态推理能力和本地代码环境集成特性,旨在普及竞争对手产品 [64][68] - OpenAI采用先训练mini reasoning版本再scale到full model的发布策略,与GPT系列先大后小的策略不同 [9] 能力测试与表现 - o3在YC官网信息收集任务中经过两次prompt后完成90+家公司信息整理,而Manus能一次性完成但速度较慢 [16][17] - 在Amazon销售数据分析任务中,o3比Manus给出更简洁专业的策略建议和可视化效果 [19][27][28] - o3能通过模糊图片识别出《绝命毒师》角色"炸鸡叔"Gus Fring [46][52] - 模型在数手指个数和判断时钟时间等视觉推理任务上仍存在系统性错误 [69][70][72] 定价与市场竞争 - o3定价为$10/Mtok输入和$40/Mtok输出,是旗舰模型中最贵的 [77][80] - o4-mini定价为o3的1/10,比Claude 3.7更便宜 [78][80] - Gemini 2.5 Pro和DeepSeek-V3等模型在性价比上更具优势 [80] - 行业认为所有一线模型定价可视为在同一水平竞争,Gemini和OpenAI相对便宜 [77][79] 技术发展与未来方向 - OpenAI发现RL Scaling呈现"more compute = better performance"规律,o3投入算力比o1高一个数量级 [81][82] - 强化学习教父提出Era of Experience概念,认为agent需从experience中学习达到superhuman水平 [85][86] - 未来agent可能发展出非人类思维方式的推理,如符号化、分布式或可微分计算 [89] - 构建"world model"预测动作对环境的影响将成为重要发展方向 [89]
对话朱松纯:Agent喧嚣之上,“走心”才是AGI的未来?
AI科技大本营· 2025-04-30 03:02
Agent概念与现状 - 当前AI领域最热门的词是"Agent",被业界称为"智能体元年",但对其定义存在模糊性,有人认为只是RPA的升级版,有人视为无所不能的商业应用[1] - 真正的Agent应具备自主性、自我意识和内在诉求,能主动与环境互动并形成价值判断,而非被动响应指令的工具[4] - 目前多数系统缺乏物理世界互动能力和社会性,仅能完成特定任务,本质仍是工具而非智能体[4] 通通智能体的创新路径 - "通通"采用价值与因果驱动的终身学习模式,在虚拟环境中持续演化并发展个性,核心在于内在驱动力而非数据堆砌[4] - 该智能体已展现出类人行为如讨价还价、策略性撒谎等社会性特征,表明其价值体系正在形成[7] - 与主流Agent相比,"通通"强调"理"(推理能力)和"心"(价值体系)的构建,而非仅关注"技"(任务技能)[6] 多智能体协作挑战 - 社会智能需要模拟组织结构的动态演化,包括家庭、公司等V++集合体的目标形成与内部认知构建[7] - 当前多智能体系统缺乏共享价值体系和社会关系理解,难以实现鲁棒的群体智能[7] - 关键瓶颈在于对社会规则、契约及责权利等内隐知识的建模能力[7] AI发展范式批判 - 主流大模型路径被比作"鹦鹉范式",依赖海量数据但缺乏深层理解,表现出任务脆弱性[9][10] - 倡导转向"乌鸦范式",通过小数据解决大任务,强调内在需求驱动和因果推理的自主智能[12] - 千亿参数模型虽工程有效但科学上"丑陋",存在黑箱问题和泛化能力缺陷[9][13] AGI评估新框架 - 提出能力与价值双系统的评级方法,通过开放环境测试自主定义任务和适应变化的能力[14] - "通通"在测试中表现接近3-6岁儿童水平,验证了该框架可行性[14] - 批评"预测下一个token"模式缺乏多模态反馈闭环,导致知识组织混乱[14] 中国AI发展路径 - 主张跳出数据算力军备竞赛,结合实体经济需求发展具身智能[16] - 将儒家文化等传统价值融入AI设计,探索不同于西方的社会智能解决方案[16] - 强调哲学心理学等人文学科对构建AI价值体系的关键作用[16] 智能本质的哲学思考 - AGI发展应回归对智能本质的理解,构建具备内在价值和认知能力的智能体[18] - "为机器立心"是技术目标也是哲学宣言,关乎AI与人类社会的共生方式[18] - 指出通用人工智能的发展选择将深刻影响国家未来竞争力[18]
多模态和Agent成为大厂AI的新赛点
36氪· 2025-04-29 23:29
大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜,多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力,进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级,代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能,基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力,谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线,包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent,如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式,能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务,包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力:第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力,国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要,OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础,OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展,未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元,2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent,OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]
做浏览器、买Chrome、争AI OS,Perplexity也想「上牌桌」
Founder Park· 2025-04-28 11:00
核心观点 - Perplexity CEO Aravind Srinivas 提出公司的终极目标是构建类似 Windows、Mac、Android 或 iOS 的操作系统,认为操作系统是 AI 时代的终极战场 [2][14] - 公司计划通过推出自有浏览器「Comet」获取用户跨平台上下文数据(如交易、浏览历史),以实现深度个性化和构建 Agent 能力 [2][11][13] - 浏览器被视为构建 Agent 的最佳途径,因其具备容器化操作系统特性,可代表用户执行跨应用操作 [11][13] - 公司正通过预装合作(如 Motorola)和浏览器开发挑战 Google 在 Android 生态的主导地位 [5][6][9] 战略布局 浏览器战略 - 计划下月推出「Comet」浏览器,未来将开发 Mac 和 Windows 版本 [5][11] - 浏览器可解决移动操作系统权限限制问题,实现跨应用数据抓取与操作(如比较 Uber/Lyft 价格) [11] - 通过浏览器获取用户交易记录、购物历史等跨平台数据,建立比 ChatGPT 更深入的个性化能力 [13] 合作与分销 - 与 Motorola 达成预装合作,新款 Razr 手机将预装 Perplexity 应用,潜在覆盖数百万用户 [5] - Google 通过 Play Store 权限施压 OEM 厂商(如要求默认 Gemini),但反垄断审查为公司创造合作机会 [6][7] - 正与电信运营商、OEM 厂商洽谈合作,计划复制 Google/Microsoft 的预装模式 [9] 技术架构 - 在 iOS 端使用 Apple EventKit SDK 集成提醒、播客、地图等功能,但无系统级控制权限 [10] - 当前 Agent 能力聚焦于信息检索(如歌曲、视频推荐),而非基础功能(如设置闹钟) [10] - 需利用前沿推理模型快速积累用户数据,通过数据压缩降低未来运营成本 [16] 行业竞争 - OpenAI 被曝研发自有浏览器,Google 可能被迫出售 Chrome(Yahoo/OpenAI/Perplexity 均有意收购) [3][5] - ChatGPT 通过「登录集成」策略获取用户数据,但缺乏跨平台上下文信息(如 Amazon 购物记录) [12][13] - Microsoft Copilot 凭借 Windows 预装优势占据市场,尽管技术评价不及 Perplexity [9] 其他动态 - 正以 180 亿美元估值融资,资金将用于加速 Agent 技术研发 [16] - 参与 TikTok 竞购但成功率低,主要障碍是字节跳动不愿放弃算法控制权 [17] - 已改善与出版商关系,抓取数据时严格遵守 robots.txt 协议 [15]
行业周报:积极关注高景气社交出海、Agent及多模态AI应用-20250427
开源证券· 2025-04-27 14:34
报告行业投资评级 - 看好(维持) [2] 报告的核心观点 - 社交、游戏出海中东北非等地延续高景气,国内成熟商业模式和丰富运营经验,叠加AI赋能及本地化深耕运营,或驱动线上社交产品出海延续高景气,建议关注有布局卡位优势、本地化运营能力突出的公司及有望拓展出海社交业务的公司,重点推荐腾讯控股、盛天网络,受益标的包括赤子城科技、Yalla等 [4] - 国产模型多模态、推理能力持续提升及MCP协议广泛运用,将推动Agent等应用在垂直场景加快落地,拉动推理算力需求,建议继续布局AI,给出大模型/Agent、AI游戏、AI虚拟陪伴等多领域的重点推荐和受益标的 [5] 根据相关目录分别进行总结 行业数据综述 - 游戏方面,截至2025年4月26日22:00,《七日世界》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一,《失控进化》为安卓和iOS预约榜第一;重点公司游戏产品iOS游戏畅销榜排名中,《王者荣耀》本周最高排名维持第1名 [12][16][22] - 影视方面,电影《向阳·花》获得周票房冠军;网播剧《无忧渡》表现良好;网播综艺《哈哈哈哈哈第五季》周播映指数第一;台播剧《我的后半生》周市占率第一;台播综艺芒果超媒《乘风2025》周市占率登顶第一;抖音卡牌爆款榜前10名中喝酒之奕金铲铲卡牌本周销量领先 [26][27][29][31] 行业新闻综述 AIGC - 4月24日,Coze首进国内榜前十,Photoroom海外排名跃升13位至海外榜第30;近期AI生成的猎奇内容在全球社交平台掀起热潮;4月17日,腾讯元宝赶超Kimi位居国内榜第四,Poe上升2位进入总榜前十;国产Vidu Q1在权威评测基准中超越Sora、Runway等顶尖模型,勇夺文生视频赛道双榜第一 [33][35][36] 游戏 - 4月21日,国家新闻出版署发布4月国产网络游戏审批信息,118款游戏获批,网易《极限战场》等双端产品入选;4月25日,《原神》茜特菈莉手办首发,预计12月出货;《失落星船:马拉松》测试首日登上Twitch第三 [36][38] 影视/IP - 4月24日,芒果TV与红果短剧达成系列合作,围绕优质成品短剧授权、IP联动开发及联合出品、短剧商业化展开深度合作 [39] 公告总结 - 部分公司发布2024年年报,如蓝色光标2024年收入607.97亿元,同比增速15.55%,归母净利润 -2.91亿元,同比增速 -349.32%等 [39][42] 板块行情综述 - A股传媒板块2025年第17周(4月21日 - 4月25日)下跌0.11%,弱于上证综指、沪深300、深证成指、创业板指;游戏板块表现最好(+1.15%),体育板块表现最差(-0.85%);相对传媒指数/沪深300,游戏板块获得最高超额收益,分别为+1.26%/+0.77% [47] - A股传媒互联网相关个股中,生意宝周涨幅最大(+21.1%),芒果传媒周跌幅最大(-9.68%);美股传媒互联网相关个股中,BTC DIGITAL周涨幅最大(+22.29%),云集周跌幅最大(-7.30%);港股传媒互联网相关个股中,睿见教育周涨幅最大(+23.3%),宇华教育周跌幅最大(-9.86%) [47]
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 14:10
Agent定义与核心特征 - Agent是基于环境反馈使用工具的程序 采用Anthropic的定义[2] - 核心三要素包括状态(Context)、行动(Tool Use)、激励信号(RL反馈机制)[32][33] - 与RL强关联 需理解强化学习才能设计优质Agent产品[31] Agent技术演进 - 2023年4月AutoGPT为代表的早期Agent更像玩具 实际应用价值有限[4] - 当前Agent已能在工作生活场景中真正解决问题 实现价值跃迁[5] - 进步源于:1)底层模型能力提升(如RL结合、长思维) 2)工程产品突破(Context构建)[6][7] Context工程创新 - Context是大模型执行任务所需信息总和 不同产品Context构成不同[8] - 相比传统RAG Agent能自动化提炼Context 减少人工干预[10][11] - 优质Context需包含用户历史行为路径 如APP打开瞬间即提供海量意图线索[48][49] Tool Use技术方案 - Function Call/MCP/A2A属于代码驱动派 Computer Use/Browser Use属于视觉模拟派[13] - MCP核心价值在于统一Tool Use标准 降低工具调用门槛[12] - Browser Use存在纯视觉方案(如已倒闭的Adept)和API包装方案 后者更成熟稳定[15] 产品设计方法论 - Chat是最佳交互入口 保障用户自由度优于追求准确度[41] - 需解决双重信任问题:开发者信任模型能力 用户信任执行过程[52][54] - 垂直领域Agent将长期主导 通用Agent面临收敛困难[25][46] 行业竞争格局 - 当前Agent可分为:1)Coding Agent(交付代码) 2)调研Agent(交付报告) 3)表格Agent(定量分析)[61][64] - Sheet0实现100%准确率 核心在于模块化工具复用与AI Coding验证[57][67] - AI Coding与Agent存在协同效应 但直接编码执行任务成本过高[29][30] 发展关键变量 - 模型能力突破与Context工程进步是两大核心驱动因素[69][70] - 需构建完整评估体系(激励信号) 确保系统可收敛[35][71] - 产品需平衡通用性与准确性 不同场景选择不同技术路径[59][60]
Manus估值36亿了?
投中网· 2025-04-27 06:35
公司融资与估值 - Manus AI背后的公司"蝴蝶效应"获得由Benchmark领投的7500万美元融资,约合5.46亿人民币[2] - 此前已从腾讯、真格基金和红杉中国等投资人处筹集超过1000万美元[2] - 本轮融资使公司估值增长约5倍,达到近5亿美元,约合36.44亿人民币[2] - Benchmark此前还投资过HeyGen和Sema4.ai两个华人AI创业项目[3] 产品与技术 - 3月发布尚在内测中的通用AI Agent,能独立处理简历筛选、行程规划和股票分析等任务[3] - 订阅服务价格为每月39美元,高级版本199美元[3] - 基于开源模型和第三方API构建工程化能力,核心优势在于任务规划与执行框架[8] - 使用Anthropic的Claude 3.5 Sonnet v1和阿里巴巴Qwen模型[12] - 单任务平均成本约2美元,发布后两周内在Claude模型上花费超过100万美元[12] 市场与竞争 - 计划将服务扩展至美国、日本和中东市场[3] - 被《MIT技术评论》评价为中国AI公司积极普及Agent的代表[9] - 字节推出Agent产品"扣子空间",基于自研豆包大模型[13] - OpenAI推出强调Agent能力的o3和o4 mini模型[13] - 智谱发布Agent产品AutoGLM沉思,号称首个集深度研究能力和操作能力于一体的Agent[13] - Genspark发布Super Agent,宣称在GAIA Benchmark上超越Manus[13] 团队背景 - 三位合伙人分别为肖弘、季逸超和张涛[5] - 创始人肖弘曾创立夜莺科技,推出"壹伴助手"和"微伴助手",获腾讯和真格基金投资[5] - 联合创始人季逸超曾创立Peak Labs,开发"中文互联网最大通用知识图谱"Magi系统[5] - 产品合伙人张涛曾任光年之外产品负责人[5] 行业趋势 - 模型推理能力提升使Agent成为2025年最热的AI投资方向[2] - 2025年被称作Agent元年[2] - AI Agent对算力需求巨大,带动相关基础设施投资[10] - CoreWeave上市市值近200亿美元,主营业务为GPU租赁[9]
Windsurf团队科普Agent:不是什么都叫智能体!
Founder Park· 2025-04-25 13:29
Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构 接收用户输入后交替调用推理模型和工具 推理模型决定行动步骤 工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数 而非单纯生成内容 其输出包含行动原因解释和结构化参数指令 工具则独立于LLM 涵盖计算器 系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理 或混淆AI工作流与Agent系统 前者是LLM内部思考过程 后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛 当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式 与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板 如数学计算 实时数据获取等 使系统能力突破文本生成限制 同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地 而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性 尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界 需评估工具独特性(如Windsurf网页解析技术)和扩展性 同时数据访问需平衡范围与控制 如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈 包括模型推理加速 提示工程缓存 工具并行化等 需权衡质量与响应速度 高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合 避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险 算力增长可能使定制化提示 工具选择等投入失效 需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求 因其降低了对LLM绝对可靠性的依赖 通过人机协同实现可控产出[17][19]
人工智能行业专题:大厂Agent来临,MCP拓宽应用边界
国信证券· 2025-04-24 07:52
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - Agent发展打开人机协同全新范式,为AI应用提供新发展思路,未来模型能力持续提升,各领域Agent将成模型触达终端用户的载体,持续看好AI应用后续发展 [2][33] 根据相关目录分别进行总结 字节跳动:发布通用Agent,掀开大厂竞赛帷幕 - 4月18日晚间,字节跳动扣子空间开启内测,定位通用Agent,采用邀请码制,用户可选择通用实习生或行业领域专家,通过与AI互动完成工作任务 [5] - 扣子空间特点:从回答到解决问题全线打通,拥有专家Agent生态,有探索/规划双模式,支持MCP扩展集成 [5] - MCP是开放标准协议,集成MCP扩展可扩展Agent能力边界,国内大厂纷纷布局MCP,有望成为AI时代的HTTP协议,提效AI应用开发、加速生态扩展 [8] - 扣子空间优点:内容全面、输出文档能力优秀、人机协同能力强,支持多任务同时进行,分专家和通用模型,MCP扩展集成解决调用数据问题并提供应用接入入口 [11] - 字节跳动发布扣子空间拉开大厂布局通用Agent序幕,阿里、腾讯等公司有望迅速推进,相关生态有望加速扩张 [2][11] 智谱:全栈自研,开源推动生态 - 3月31日,智谱发布AutoGLM沉思,具备深度研究和实际操作能力,能模拟人类思维过程,完成数据检索、分析到生成报告 [15] - AutoGLM沉思技术演进历经多阶段,核心链路技术与32B/9B GLM模型于4月15日全面开源 [15] - AutoGLM沉思核心在于深度思考、感知世界和工具使用三大能力,以智谱新推出的沉思模型为基础,可通过强化学习提升模型能力 [15] - AutoGLM沉思利用智谱自主研发的全栈大模型技术,新版基座模型GLM - 4 - Air - 0414参数量320亿,新版推理模型GLM - Z1 - Air性能与DeepSeek - R1媲美,推理速度提升8倍,成本降低至1/30 [19] - AutoGLM系列模型在多个测试环境中取得SOTA成绩,特别是在Phone Use和Browser Use基准测试中超越顶尖模型 [19] - AutoGLM沉思能回应开放式复杂问题,已在智谱清言PC客户端上线preview版本,未来两周将扩展更多智能体执行能力 [19] - AutoGLM沉思进步:叠加环境交互能力,输出内容更全面,降低AI技术使用门槛;核心模型逐步开源,推动生态扩展和应用场景催化;比Manus更灵活、高效、易于访问,无明确任务限制,自主研发具备更高灵活性、控制力和成本效益 [20] Genspark:整合多AI模型提供准确响应 - 美国时间4月2日,景鲲发布Genspark超级智能体,宣称是综合性AI助手,可协调多个AI工具高效执行任务,在GAIA Benchmark测试中表现超越多个产品 [28] - Genspark采用整合多AI模型的混合代理(MoA)系统,包含80多个工具集和10多个高级数据集,背后有9个模型,能汇总和优化多个高级模型的响应 [28] - Genspark 3月上线iOS应用程序,定位超级AI应用,集多种功能于一体,新注册用户有免费体验积分,PLUS会员需付费,价格为239.88美元/年或24.99美元/月,每月可获10000使用积分 [31] - Genspark特点:调用不同模型完成任务,内部构建可靠工具集和数据集,信息来自可靠来源,无广告和商业偏见,可提高效率 [31] 投资建议 - Agent时代到来,海外垂直Agent和国内通用Agent发展,相关生态有望快速发展,覆盖下游领域、实现全面自动化 [33] - C端Agent重塑流量入口,B端Agent对垂直私域数据进行智能体改造或将率先落地 [33] 相关标的梳理 - 通用企业Agent领域,用友网络、金蝶国际、泛微网络等公司有相关布局 [34] - 金融领域,中科金财、顶点软件、天阳科技等公司有相关产品和服务 [34] - 政务领域,博思软件、久其软件在相关领域开展应用和预研工作 [34] - 法律领域,华宇软件、金桥信息利用大模型和Agent技术助力业务 [34] - 医疗领域,嘉和美康、国脉科技推出相关智能体产品 [34] - 工业领域,赛意信息、鼎捷数智构建相关平台和智能体 [34] - 虚拟机领域,深信服提供安全和管理相关Agent [34] - 营销领域,新大陆发布AI营销助手 [34]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 12:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]