Workflow
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials·2025-08-14 03:33

核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]