Workflow
端到端训练
icon
搜索文档
万字长文,聊聊下一代AI Agent的新范式
36氪· 2025-03-25 10:19
产品创新与设计 - Manus AI被定位为全球首款通用型AI Agent 能够实现从指令到结果的一站式服务 通过多任务协同处理完成复杂工作 例如在17分钟内生成完整的行业分析报告 涵盖现状分析 趋势预测和公司筛选等功能 [3][17] - 产品设计突出用户体验优势 展示详细任务清单和实时进度 使用户清晰了解AI的规划与执行过程 这种设计显著降低了普通用户的使用门槛 被评价为对非技术用户友好 [18][20] - 虽自称通用型Agent 但实际内置29个工具 覆盖写作 信息收集 数据分析和代码编写等基础工作场景 专业领域能力仍存在局限 如无法处理炒股等特殊任务 [21] 技术架构与实现 - 采用多Agent协同架构 但运作模式固定 缺乏真正的自主交互能力 核心技术整合自现有方案如Devin的可视化代码展示和GPT Pilot的任务分解机制 未实现突破性创新 [20][25] - 核心瓶颈在于错误容忍度和记忆管理 大模型在多步调用中准确率下降 需根据不同场景调整容错标准 同时长上下文处理依赖RAG技术和窗口扩展 但当前效果仍不理想 [28][29] - 端到端训练代表下一代方向 Deep Research通过单一模型整合完整Agent能力 避免传统工程拼接 结合强化学习实现自主规划 与OpenAI O1和DeepSeek R1的阶段性生成思路一致 [27][37] 能力演进与突破方向 - 自我评估与反思能力成为关键进化路径 当前Agent缺乏结果验证机制 需通过环境闭环反馈或奖励模型提升自主性 [33] - 跨环境操作能力亟待加强 现有Agent局限于浏览器环境 未来需突破应用边界 自主调用专业软件如绘图或报表工具 [42] - 持续学习机制是核心挑战 需从使用数据中提取模式优化执行效率 例如将50步操作简化为10步 实现成本降低和个性化适配 [43] 行业影响与落地路径 - 垂直领域专业化优于通用型方案 细分场景如代码生成或SVG绘制需深度优化 通用Agent难以在各领域达到同等专业水平 [23] - 企业落地面临接口标准化挑战 需减少非标人机交互 通过自适应流程整合业务数据 实现灵活部署 [48] - 2025年预计出现转型拐点 企业积极拥抱AI提升人效 案例显示低代码平台50%代码由AI生成 硅谷企业采用AI更新旧系统替代高成本程序员 [51] 发展范式与未来趋势 - Agent下半场聚焦端到端训练范式 通过强化学习直接内化自主能力 降低传统工程开发依赖 [37][41] - 产品形态向"模型即服务"演进 从生成文本 代码 软件升级为直接提供服务 深度整合用户场景 [38][40] - 开源生态加速创新 OpenManus项目提供轻量级开发框架 MetaGPT实现动态任务分配 推动多Agent系统协同发展 [31][41]
Deep Research 团队:Agent 的终极形态是所有任务 All-in-one
海外独角兽· 2025-02-27 12:09
文章核心观点 - OpenAI推出第二个Agent Deep Research,可搜索多网站生成全面报告,团队分享构建技术细节、产品思路及使用场景,未来希望打造终极Agent整合多种功能,且Agent有望在2025年崭露头角 [1][11] 分组1:OpenAI的第二个Agent - Deep Research能搜索多在线网站生成全面报告,在ChatGPT中运行,回答时间5 - 30分钟,能深入研究并详细回答问题,是OpenAI第二个Agent,未来还会发布更多 [5] - 约一年前OpenAI采用reasoning范式训练模型,解锁长时任务处理能力,意识到完成任务需在线研究等能力,开发出对应模型训练方法,项目最初由Isa Fulford和Yash Patil合作原创demo,Josh Tobin 6个月前加入 [6] - Deep Research有澄清流程,在研究前向用户提问,确保用户提供模型所需细节,很多用户先与o1或o1 Pro互动完善prompt后再发给它 [9][10] - 过去几个月OpenAI推出三种不同的Deep Research,因模型构建方式等因素质量有差异,未来希望用户通过终极Agent自然融合多种功能 [11] 分组2:Agent能力来自模型端到端的训练 - Deep Research底层模型是O3微调版本,经复杂浏览和推理任务端到端训练,学会应对策略,能整合信息生成带引用报告 [13] - 端到端训练使Deep Research有创新的Agent能力,能对实时网页信息灵活反应,创造性搜索,与非端到端训练的AI搜索产品有差异 [14][15] - Josh Tobin曾尝试构建Agent,发现按常规方式构建在现实中会有问题,说明Deep Research强大源于端到端训练,还建议按需用人工编写逻辑,在模型整体基础上进行RL调优可能是构建强大Agent的关键 [16][18] - 高质量数据集是Deep Research模型成功的关键因素之一,Edward Sun会对所有数据集进行优化 [19] 分组3:Deep Research的优势 - 当用户需求详细时,Deep Research能通过阅读互联网内容提供最佳答案,问题模糊时也能理清信息,擅长收集冷门事实和综合信息,但提炼新见解和做出新科学发现效果不佳 [20] 分组4:Deep Research的使用场景 - 目标用户是从事知识性工作的人员,适合需大量收集信息、分析数据并决策的人,可应用于工作和个人生活场景 [21] - 商业和个人生活场景中,Deep Research能节省时间,赋予知识型工作者超能力,实现更多事情,访谈提及的场景包括医疗、投资、购物、旅行、编程和个性化教育等 [22][23] 分组5:Agent会在2025年崭露新头角 - OpenAI希望未来Deep Research在产品形态上嵌入图像和生成图表,扩展可访问数据源,提升浏览和分析能力,改进信息准确度,融入Agent路线图扩展应用场景 [30] - Deep Research能完成部分经济上可行的任务,为用户节省时间,OpenAI希望其和后续构建的Agent能根据用户工作类型节省1% - 25%的时间 [31] - Isa Fulford和Josh Tobin认为今年Agent会崭露头角,现在有强大预训练语言模型和监督微调方法,适合根据用户奖励函数调整模型用于各种用例 [32][34]