喝点VC｜红杉对谈OpenAI Agent团队：将Deep Research与Operator整合成主动为你做事的最强Agent

核心观点 - OpenAI通过合并Deep Research和Operator项目，开发出能执行长达一小时复杂任务的AI Agent，具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法，所有工具共享状态，支持多轮交互和任务中断/纠正，开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合，因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力，Operator精于可视化操作但文本处理较弱，两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能，可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等，最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练，模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍，数据效率极高，小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破，支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名，鼓励用户探索未预设的用例（如代码搜索等意外场景） [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景，兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性（如表单填写等）和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性（网站宕机等）和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research（3-4人）和Operator（6-8人）团队合并，研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式，产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]