ChatGPT Agent的技术原理 - 由Deep Research和Operator两个核心工具整合而成,并加入终端、图像生成等多项功能 [8][9] - 通过虚拟机环境整合所有工具,强化学习让模型自主探索最佳工具组合 [12] - 工具共享状态设计使模型能高效处理互联网、文件系统和代码交互任务 [12] 训练方法 - 模型被赋予所有可用工具并运行在同一虚拟机环境中,通过奖励机制学习高效完成任务 [12] - 训练后模型能自主切换工具,例如从文本浏览器转向GUI浏览器处理JavaScript元素 [13] - 训练规模较2017年World of Bits项目提升数十万倍,强化学习计算量大幅增加 [15] 团队与组织架构 - 团队由Deep Research(3-4人)和Operator(6-8人)合并而成,总规模20-35人 [17][19] - 应用工程师参与模型训练,研究人员参与部署,打破研究与应用的严格界限 [20] - 以用户场景为导向,跨职能合作加速迭代,数月内完成项目 [21][23] 性能与交互设计 - 专注端到端性能,从用户提示到任务完成全程优化 [15] - 训练中纳入多样化任务轨迹,支持用户实时干预和反馈调整 [15] - 补足Deep Research多轮对话短板,兼具视觉交互与研究能力 [11] 挑战与安全机制 - 最大挑战是训练稳定性,需同时运行成千上万虚拟机应对网络宕机或API限制 [24] - 实施多层次安全措施,包括实时监控、敏感操作确认、生物风险专项防护 [24][27] 未来发展方向 - 目标为通用超级智能体,无缝处理从简单查询到复杂工作流的任务 [25] - 探索通过强化学习提升泛化能力,减少对额外训练数据的依赖 [25] - 计划增强多轮对话记忆、主动服务能力及复杂任务(如数据分析)完成度 [28]
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
量子位·2025-07-23 10:36