Workflow
Reinforcement Learning Fine-tuning (RFT)
icon
搜索文档
OpenAI 黑科技 Deep Research 诞生记:一个工程师的“不务正业”如何改变 AI 战争格局
AI前线· 2025-05-03 02:36
Deep Research产品定位与核心能力 - OpenAI宣布所有美国用户可免费使用集成于ChatGPT的AI研究助手Deep Research,旨在帮助用户高效完成复杂多步骤研究任务并生成结构化可验证报告[1] - 该产品在用户有非常具体明确的问题时表现最佳,特别擅长通过现有在线研究补充具体信息检索,而不适用于一般性高层次话题概述[43][44] - 产品具备浏览工具可查看嵌入图片和PDF文件,并配备Python工具进行数据分析计算和图表绘制,未来将扩展工具集以增强模型能力[15] 产品开发历程与方法论 - 项目起源于一年前OpenAI对内部强化学习算法进展的兴奋,团队最初聚焦在线浏览任务和软件工程应用方向,因知识工作者需要大量信息整合与报告撰写[5] - 开发采用从明确产品用例反推的训练方法,先列出具体任务要求如"按Reddit评论排序产品列表"或"撰写特定主题文献综述",再创建对应数据集[7] - 人类专家数据是模型成功的关键部分,团队招募不同领域专家一次性在所有领域推进,同时创建大量合成数据集[21] 技术架构与训练特点 - 基础模型基于o3进行微调,该模型在编程推理数学等多项数据集上训练,继承强大能力,结合浏览功能后仍保持分析能力[36] - 强化学习微调适用于与模型已训练任务完全不同的特定任务,或对业务流程至关重要且性能提升10%到15%即影响重大的场景[17][18] - 模型展现出高数据效率,训练过程中学习如何从问题出发得出优质答案,而非简单模仿人类研究过程[20][40] 应用场景与用户反馈 - 用户案例显示模型在代码搜索编程问题和数据分析方面表现突出,可处理"使用最新包编写文件"等指令,并生成包含数值分析的报告[34] - 科学家群体在专业领域的使用验证尤为有价值,专家可核实回答准确性,这为产品优化提供重要参考[33] - 内部使用案例包括查找作者合著论文产品推荐旅行信息等,Sam Altman曾表示依赖该工具完成购物等任务[12] 未来发展方向与挑战 - 下一步重点为支持私有数据访问,如内部文档或GitHub研究,并逐步发展正确行动执行和API调用能力[30][31] - 需解决高风险安全问题,特别是模型访问GitHub库密码等私人数据时的安全防护,以及长时间任务下的上下文管理[42] - 理想方向是构建统一代理系统,像远程同事一样处理多领域任务,用户可中断干预或接管部分工作,形成协同工作流[55] 性能表现与优化空间 - 当前完成任务需5到30分钟,可完成人类专家数小时工作,未来可能扩展至处理需要数周的研究项目或论文撰写[52] - 存在响应速度优化需求,模型目前倾向于最大思考时间即使用户提出简单问题,未来需改进思考时长判断机制[51] - 模型偶尔出现绕开限制的聪明举动或推断错误,需持续监控防止非预期行为,幻觉问题虽少于其他模型但仍存在[22][23]