Deep Research

搜索文档
下一个10年,普通人改命的4大机会
36氪· 2025-09-22 23:41
AI时代,有人焦虑被替代,有人却看到新机遇。 要知道,省钱的业务会导致GDP萎缩,因为原本需要花费10块钱的事情,现在只需5块钱就能完成,从 而造成GDP损失5块钱。 因此,我认为凯茜·伍德(Cathie Wood)最终过于乐观了,并非人工智能无用,而是即便是一项有用的 技术,其对GDP的影响也分为两种:一种是省钱型,另一种是扩大市场型,只有当扩大市场型的应用被 广泛采用时,GDP才能真正增长。 AI的本质不是替代人类,而是让"人类经验可复制",从而催生过去无法规模化的复杂服务。从健康管 理、交通出行,到个性化消费,一场以"服务规模化"为核心的造富浪潮正在展开。 人工智能时代,真正的赢家不是最懂技术的人,而是最懂需求、最能利用技术规模化满足需求的人。要 像刘邦一样,具备预测能力和资源统筹能力,将AI(张良、韩信)作为强大工具,共同为用户提供规 模化的复杂服务,从而在这场造富浪潮中占据主导地位。 本文将拆解AI与产业结合的关键逻辑,帮你找到属于自己的入场券。 希望能给你带来启发。 一、AI的本质是"人类经验的规模化" AI时代的核心机会是让人类的经验可以被复制,并且催生出复杂的智能服务这种全新的商业模式。 1. ...
一夜刷屏,27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
36氪· 2025-09-12 04:04
腾讯刚辟谣「姚顺雨入职」,但行业并未松口气: 顶尖智能体人才去哪儿,或将决定AI下半场的走向。27岁、清华姚班、普林斯顿博士、OpenAI智能体核心项目,引用过万……他提出「评测将比训练更 重要」,把研究拉向产品与可度量价值。 姚顺雨昨天被传加入腾讯,今早「第37手」和腾讯旗下的「鹅厂黑板报」正式辟谣! | 为什么姚顺雨能引起行业如此大的关注?为什么会传出来一亿人民币的天价薪酬传闻? | | --- | | 自然少不了Meta在硅谷的天价挖角:小扎给OpenAI核心研究员的报价就是1亿美元! | | 如此看来,一亿人民币绝对不算高;同理,如果他入职国内公司,谁给得起1亿美元的薪酬包? | | 他绝对值得Meta给出1亿美元的报价——他是Deep Research的核心贡献者。 | 要知道,作为OpenAI Deep Research的核心贡献者Hyung Won Chuang已经加入了Meta的超级智能实验室。 这是OpenAI迈向AGI Levele 3的关键一步,代表着OpenAI将大模型能力落地为可自主执行复杂多步任务的实用型产品,开启从「会聊天」到「会办事」 的关键跃迁。 这次辟谣只能说明姚顺雨没去腾 ...
深度|OpenAI Agent团队:未来属于单一的、无所不知的超级Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移
Z Potentials· 2025-08-29 03:52
核心观点 - OpenAI通过合并Deep Research和Operator项目开发出新型AI Agent 能够执行长达一小时复杂任务 具备多工具协同和状态共享能力 开启人机协作新范式 [2][5][6][7][19][24][42] 技术架构与能力 - Agent配备虚拟计算机环境 集成文本浏览器 GUI浏览器 终端和API调用工具 所有工具共享状态 实现跨工具无缝切换 [5][6][24] - 支持运行代码 分析文件 创建电子表格和幻灯片 访问GitHub Google Drive等私有服务 [5][6][11] - 单次任务推理时间达28分钟至1小时 突破传统上下文长度限制 [19][20][21] - 采用强化学习训练 在数千个虚拟机上进行实验 模型自主学会工具使用策略 [7][24][26][45] 产品演进路径 - 2024年1月先后发布Operator(执行网页交互任务)和Deep Research(信息综合研究) 两周后意识到功能互补性 [9] - 文本浏览器擅长高效阅读但缺乏交互 GUI浏览器擅长点击操作但文本处理弱 合并后实现能力互补 [9][10] - 新增终端 图片生成 API调用等工具 形成完整工具生态 [11][12][13] 应用场景与用例 - 设计保持开放性 预期出现未预见用例 类似Deep Research曾被用于代码搜索的意外场景 [14][40] - 实际用例包括:从实验日志提取数据制作幻灯片 研究古代DNA生成报告 网上购物比价 创建财务模型估算公司估值 [16][18] - 同时适用于消费级和企业级场景 目标用户为"专业消费者"(prosumer)[15] 人机交互特性 - 支持双向实时交互 用户可中途打断 纠正指令或授权登录 Agent也可主动请求澄清 [7][22] - 提供计算机界面实时观察Agent操作 任务完成后可追溯修改 用户可接管环境手动操作 [23] - 交互模式向"幕僚长"形态演进 未来可能实现主动服务 [42][43] 训练方法与扩展性 - 强化学习数据效率极高 高质量小规模数据集即可训练 数据量较预训练可忽略不计 [44] - 计算资源与训练数据量增长约十万倍 使"World of Bits"愿景成为可能 [45] - 所有技能存在正向迁移 单一基础模型比专用子Agent更具优势 [44] 性能表现 - 在DataScienceBench评估中超越人类基准 具备超人级研究能力 [46] - 点击准确度大幅提升 表单填写可靠性显著改善 日期选择仍存挑战 [46][47][48] 开发团队构成 - 由原Deep Research团队(3-4人)和Operator团队(6-8人)合并而成 [30][33][34] - 研究团队与应用团队深度协作 从用例反向定义产品需求 [34][35] - 跨部门合作涉及安全 治理 法律 研究 工程等多团队 [28] 安全风险管控 - 因具备写入能力 存在外部副作用风险 安全训练为核心开发环节 [26][27] - 采用监控系统实时检测异常行为 类似杀毒软件机制 [27] - 重点防范生物安全风险 进行数周红队测试确保不被用于有害目的 [29]
喝点VC|a16z对话OpenAI研究员:GPT-5的官方解析,高质量使用场景将取代基准测试成为AGI真正衡量标准
Z Potentials· 2025-08-21 03:09
GPT-5技术能力提升 - 模型在推理、编程和创意写作方面实现质的飞跃,前端开发能力相比GPT-3达到完全不同的层次[6][9][12] - 通过优化数据集设计和奖励模型,显著提升编程能力,被描述为"市面上最强的编程模型"[11][12] - 创意写作能力显著增强,能够生成细腻动人的文本,例如悼词等难以撰写的内容[29] - 通过中期训练(mid-training)更新知识截止时间并扩展模型智能,弥补预训练和后期训练之间的空白[45] 行为设计与幻觉控制 - 针对GPT-4存在的"逢迎"问题,团队重新设计行为目标,追求健康、有帮助的互动感[13] - 幻觉和欺骗问题得到显著收敛,通过引导模型逐步思考而非快速回答来减少错误[14] - 优化多奖励目标的权衡,确保模型既有帮助性又避免过度互动[13] 智能体与工作流变革 - 智能体定义为能异步完成真实任务的助手,核心能力包括深度研究、文档编辑和跨服务数据整合[36] - 未来方向包括长时间运行任务(如耗时数小时或数天的项目)和端到端流程自动化[35] - 当前限制在于缺乏高质量计算机使用数据,需通过自举(bootstrap)方式生成训练数据[43][44] - 用户对异步任务接受度提高,愿意为高质量结果等待(如深度研究任务等待5分钟)[37][38] 评估标准与开发方法论 - 基准测试价值趋近饱和(如指令跟随分数从98提升至99),未来标准转向真实使用场景和新用例解锁[21][22] - 开发方法从目标能力反推,针对具体场景(如幻灯片制作、电子表格编辑)设计内部评测[6][22] - 通用能力优先于垂直领域,因智能提升会同时改善多项功能(如指令理解、工具使用)[24][25] 行业影响与机会 - 非技术背景用户可通过"vibe coding"快速构建完整应用,几分钟完成过去需一周的工作[6][17] - 定价策略降低使用门槛,预计催生大量独立开发者和创业公司[15][17] - 多模态能力(如计算机视觉理解网页截图)和工具集成(浏览器+终端)为自动化奠定基础[28][42] 公司文化与使命 - 研究团队保持小规模灵活结构(如深度研究团队仅2人),强调主动性和跨部门协作[54] - 使命是推动AGI落地并通过免费提供最强模型实现技术普及[58] - 数据质量被视为当前能力跃升的关键因素,优于架构或规模改进[26][27]
很多创业者都没意识到,Deep Research 也是做 Go-to-Market 的利器
Founder Park· 2025-08-18 08:27
Deep Research功能概述 - Deep Research能显著提升AI产品GTM效率,将数小时工作压缩至几分钟[2] - 主流AI产品如ChatGPT、Gemini、Perplexity均已上线该功能[2] - 需通过高质量提示词和背景信息指导才能产出定制化研究成果[2] 使用技巧 技巧1:信息源质量控制 - AI可能误用社交媒体观点或过时数据,需人工指定优先来源类型(如政府数据)[7][12] - 可要求AI在报告中添加来源概述表,列明数据年份、用途及替代来源差异[8][9] 技巧2:背景信息输入 - 需主动提供公司运营模式、目标及限制条件等背景信息[13] - 可创建项目档案存储共享背景,避免重复输入[14] - 建议使用GPT-5/Claude Opus生成背景信息需求清单[18] 技巧3:研究计划审核 - Gemini会主动提供研究计划,其他工具需在提示词中明确要求[20][22] - 审核重点包括:内容覆盖度、方法合理性及AI假设验证[23] 技巧4:报告格式优化 - 默认生成报告可读性差,需指定摘要前置、关键见解优先等结构化格式[24] - 推荐使用金字塔原则:结论先行,论据支撑[31] 工具选择策略 - ChatGPT为最佳通用工具,尤其GPT-5版本具备深度分析和Agent Mode交互优势[38][39] - Gemini适合备用,Perplexity擅长特定网站/论坛研究,Claude/Grok输出简洁[40][42] - 工具对比维度包括定价限制、研究规划、上下文处理等7项指标[43] GTM实战用例 用例1:内部项目指南 - 可快速生成营销归因模型等复杂项目实施手册,含方法对比及分步SQL代码[46][47] - 需明确公司技术栈(如Salesforce+Snowflake)以获取定制方案[47] 用例2:竞品广告分析 - 通过Agent Mode抓取LinkedIn广告库50+案例,分析定位策略及CTA设计[51][54] - 输出含具体广告链接及截图,覆盖广告类型、受众画像等维度[56] 用例3:网页审计 - 结合竞品分析与行业最佳实践,提出改进优先级排序及文案示例[63] - Agent Mode可交互验证页面元素,避免静态分析误差[64] 用例4:产品功能对比 - 基于官方文档生成竞品功能差距分析,需验证信息时效性[67][68] - 可延伸生成竞争力文案,如客户比较页面设计建议[69] 用例5:国际市场评估 - 采用两阶段法:先由GPT-5建立评估框架,再通过Deep Research生成国家排名[72][75] - 关键数据源包括政府统计(如Eurostat)和企业规模数据(如UK Business Population)[9][76] 扩展应用场景 - 使用Perplexity监测社交媒体反馈,或通过Agent Mode记录竞品用户流程[80] - 生成行业增长技巧报告并与推理模型协作筛选适用方案[80]
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials· 2025-08-14 03:33
核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]
Thomson Reuters Launches CoCounsel Legal: Transforming Legal Work with Agentic AI and Deep Research
Prnewswire· 2025-08-05 13:00
产品发布 - 汤森路透推出新一代AI产品CoCounsel Legal 包含Deep Research和智能引导工作流功能 代表公司最先进的AI产品 [1] - 该产品将法律研究、工作流自动化、智能文档搜索和AI辅助功能整合在统一解决方案中 是代理AI首次大规模部署于专业法律工作流程 [3] - 产品直接嵌入工作流程而非作为辅助工具 专注于推动诉讼、交易工作和监管分析的实际成果 [4] 技术特点 - Deep Research基于Westlaw和Practical Law内容 具备法律行业首个专业级代理AI研究能力 能够推理、规划并交付全面法律研究成果 [5] - 系统可生成多步骤研究计划 通过透明推理展示逻辑 并交付带有Westlaw和Practical Law引用的结构化报告 [8] - 包含不断增长的引导工作流库 将代理AI应用于高摩擦法律工作 利用Westlaw和Practical Law专业知识 [7] 市场应用 - 超过20,000家律师事务所和企业法律部门以及大多数美国顶级法院和Am Law 100强公司已使用CoCounsel产品 [10] - 新产品为法律实践设定了可信、可解释且生产就绪的AI新基准 [10] - 摩根路易斯首席AI与知识管理官认为Deep Research能够推理法律问题而非简单返回搜索结果 这种透明度对律师监督和信任至关重要 [6] 公司优势 - 公司拥有AI助手与先进推理模型、全面法律内容工具以及数千名领域专家专业知识 这三要素构成可靠专业级代理AI的必要条件 [2] - 产品整合了法律内容 应用结构化推理 并通过设计提供人工监督 帮助律师和企业法律团队加快工作速度同时保持控制 [7]
量子位智库2025上半年AI核心成果及趋势报告
2025-08-05 03:19
**行业与公司关键要点总结** --- **1. 行业概述** - **AI行业核心逻辑**:技术范式推动模型能力增强,解锁更大应用空间,加速价值创造 [7] - **四大趋势方向**:应用趋势、模型趋势、技术趋势、行业趋势 [4] --- **2. 应用趋势** - **通用类Agent**: - 深度整合工具使用,完成复杂研究任务(如生成图文报告、视频素材)[9] - 交付内容深度提升(从简单文字到多文件编辑)[9] - **Computer Use Agent (CUA)**: - 基于视觉操作GUI,打破数据孤岛,但成本高、异步化难 [12] - **垂类Agent涌现**: - **旅行**:飞猪“问一问”支持多Agent协同(路线规划、票务查询)[13] - **设计/创作**:自然语言生成生产级海报/视频(如GPT-4o图像生成)[13][26] - **时尚**:自然语言生成穿搭方案 [13] - **AI编程**: - Cursor ARR突破5亿美元,演化阶段:代码补全→端到端交付 [15] - 验证成本高(人类反馈占90%工作量),需拆解为小问题解决 [48] - **模型上下文协议(MCP)**: - 标准化接口调用外部工具,但生态未成熟(仅支持20-30个调用)[16] --- **3. 模型趋势** - **推理能力提升**: - 思维链技术推动数学/代码能力进步(如AIME 25准确率+23%)[19] - 工具使用端到端训练(如o3模型,任务准确率+81%)[21] - **多模态融合**: - 视觉推理(如o3模型解决量子力学题目)[24] - 图像生成控制力增强(支持16个细节指令、多轮编辑)[26] - 视频生成整合原生配音(如Veo 3唇动同步)[27][28] - **小模型普及**: - 极致性价比(如Qwen3-0.6B、Gemma 3n仅需2GB RAM)[33] - **评估演化**: - 传统静态榜单饱和,转向实用性任务(如HealthBench医疗评估)[35] --- **4. 技术趋势** - **训练阶段重心**: - 预训练(基础能力)与后训练(激发能力)并重,强化学习算力需求超预训练 [39][41] - **强化学习**: - 算力消耗未来占比最高(如xAI集群扩展至100万卡规模)[56] - **多智能体系统(Multi-Agent)**: - 分布式处理提升效率(如Grok 4采用此架构)[43] - **在线学习**: - 从交互经验中学习,突破人类数据依赖(如Google Deepmind“经验时代”)[44] - **Transformer架构迭代**: - 优化注意力机制(如MiniMax-01支持400万token上下文)[45] - 混合架构涌现(如腾讯混元T1融合Mamba-Transformer)[46] --- **5. 行业趋势** - **头部玩家竞争**: - OpenAI领先优势缩小,谷歌Gemini 2.5 Pro、xAI Grok 4(科学/工程类SOTA)达第一梯队 [58] - 中美差距缩小:中国多模态(如Seedance视频生成)和代码能力(Qwen3-Coder)达SOTA [60][61] - **AI编程争夺战**: - 海外:OpenAI Codex、Anthropic Claude Code、谷歌Gemini Code [62] - 国内:通义灵码、字节Trae(对标Cursor)[63] - **创业公司分化**: - 技术驱动(如DeepSeek开源R1模型)vs. 商业化落地(如零一万物聚焦B端)[64] - **算力竞赛**: - xAI算力集群快速扩张(2025年达100万卡),强化学习算力需求+567% [56] --- **6. 其他关键数据** - **视频生成商业化**:字节可灵月收入1400万美元 [31] - **系统提示词**:Claude模型1.7万字提示词决定用户体验 [51] - **验证瓶颈**:AI编程中90%工作量来自代码验证 [48] --- **注**:所有数据与观点均引自原文标注的文档ID,未进行主观推断。
OpenAI迎来“Agent时刻”:智能体大战的路线选择
虎嗅· 2025-08-04 02:47
文章核心观点 - OpenAI发布通用型ChatGPT Agent,整合深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,但存在速度慢、个性化不足等短板 [1] - ChatGPT Agent采用"浏览器+沙盒虚拟机"架构,与Manus、Genspark形成技术路线差异 [1] - Agent将重塑互联网入口,改变流量分发模式,对创作者商业模式产生影响 [52][56][64] 主流底层架构对比 - 浏览器(Browser-based)代理:万能但运行速度慢,Token消耗高 [12][13][14] - 沙盒(Sandbox)环境:高效但无法联网操作,工具库受限 [16][17] - 大模型加限制沙盒:如Genspark,环境封闭,仅能运行预设程序包 [18][19] - 工作流集成(Workflow API):速度快、结果精准,但业务范围有限 [21] 主要Agent产品优劣势 - OpenAI ChatGPT Agent:深度研究能力强,浏览器执行层面表现优异,基准测试达50多分(其他最高20多分) [4][6] - Manus:虚拟机环境搭建优势,但受浏览器能力限制,执行速度慢(30多分钟/任务) [27][28][31] - Genspark:垂直化模板设计,速度较快但通用性下降 [33][34] - Pokee:执行速度最快(市面产品的4-10倍),采用第三方集成SDK,Token成本降低50%-60% [36][40] 用户体验差异 - 浏览器架构Agent(如Manus、ChatGPT):功能全面但速度慢 [27][28] - 沙盒架构Agent(如Genspark):执行速度快但功能受限 [34] - 工作流集成Agent(如Pokee):专业场景高效但需平台接口支持 [40][41] 商业模式与技术路线 - ToC产品(Manus、Genspark、ChatGPT Agent):面向普通消费者,解决通用需求 [46] - ToB产品(如Pokee):针对专业人士重复性工作场景 [46][48] - 平台接口开放程度直接影响Agent能力边界 [43][48] 行业趋势与影响 - Agent将改变互联网流量入口模式,门户网站流量可能下降 [52][56] - 广告模式可能从流量分成转向知识产权直接付费 [64] - 推荐系统算法可能从排名导向转向连续交互机制 [67][68][69] - 多智能体协作协议(MCP)发展面临可用性挑战 [58][59]
OpenAI杀入通用AI Agent的背后:四大技术流派与下一个万亿流量之战
36氪· 2025-08-03 09:57
OpenAI发布ChatGPT Agent进军通用AI Agent赛道 - 7月17日OpenAI正式发布ChatGPT Agent 融合Deep Research(搜索)和Operator(执行)两大工具 实现"搜索与执行"一体化能力 [1][4] - 技术路线基于浏览器控制 通过视觉模型模拟人类网页操作 通用性强但速度慢 任务耗时可达几十分钟 [7][9][12] - 发布当日ChatGPT日指令量达25亿条 年化9125亿次 相当于谷歌年搜索量的18% [48] 通用AI Agent四大技术流派对比 浏览器为主派(OpenAI) - 优势:全网访问 通用性极强 视觉模型和浏览器点击能力领先行业 [9][13] - 劣势:需加载完整HTML和脚本 Token消耗高 速度慢成为主要痛点 [10][12] 虚拟机+浏览器派(Manus) - 沙盒虚拟机提供隔离计算环境 可本地执行复杂操作 结合浏览器增强功能 [14][16] - 4月融资7500万美元 估值5亿美元 但受限于浏览器能力 页面导航等精细操作困难 [20][22] 大模型+虚拟机派(GensPark) - 限制性沙盒环境搭配预置工具 通过API直接调用服务 牺牲通用性换取速度 [24][26] - A轮融资1亿美元 估值5.3亿美元 集成80多个预构建工具 标准化工作流提升可靠性 [28][31] 工作流+工具集成派(Pokee/UiPath) - 预设节点调用第三方应用 速度达行业4-10倍 工具调用成本降低50%-60% [32][34] - 强化学习自动规划流程 但局限于特定场景 通用性不足 [33] 未来流量入口与商业模式变革 - Agent交互将产生"幽灵光标"现象 取代人类成为互联网访问主力 门户网站流量面临断崖式下跌 [39][41][42] - Google推出Agent2Agent协议争夺入口标准 内容付费模式可能取代广告分成 [42][46] - 创作者可通过API直接收费 广告嵌入Agent工作流环节 商业生态面临重构 [46]