Deep Research
搜索文档
人人拥有AI科学家,一文读懂Deep Research的今生与未来
36氪· 2025-12-15 03:24
深度研究(Deep Research)概述 - 深度研究是让人工智能系统从“生成文本”进化为“发现知识”并完成复杂开放式任务的前沿领域 [1] - 该领域赋予大语言模型端到端研究工作流程,使其能作为智能代理在最少人工干预下生成有明确来源依据的研究报告 [4] - 目前深度研究已被广泛应用于文本生成、科研、软件工程、地球观测等领域 [1] 深度研究的能力演进三阶段 - **第一阶段:自主搜索** 专注自主寻找正确信息来源,生成简明且引用明确的答案,强调检索的准确性和效率 [4] - **第二阶段:整合研究** 将多源证据综合为连贯、结构化的报告,同时处理冲突和不确定性,以支持长周期任务和决策 [5] - **第三阶段:全栈AI科学家** 不仅能整合证据,还能生成假设、进行实验验证、批判现有观点并提出新视角,追求科学发现的新颖性、洞察力和结论可复现性 [5] - 整体体现了从简单信息检索到复杂分析,再到前沿科学研究的能力演进路径 [5] 深度研究系统的关键组成部分 - 系统是一个接收复杂问题并通过分析、检索、整理信息最终输出结构化答案的闭环工作流 [6] - **查询规划** 将复杂问题转化为一系列结构化、可执行的子任务,包括并行规划、顺序规划和树状规划三种策略 [8] - **知识检索** 已从传统文本搜索发展为利用实时网络搜索引擎获取最新信息,并涉及多模态检索 [9] - **记忆管理** 负责管理复杂长周期任务中上下文的动态生命周期,包括整合、索引、更新和遗忘四个环节 [10] - **答案生成** 需要应对调和矛盾证据、保持长周期一致性、展示透明推理过程和恰当引用等挑战,过程包括整合信息源、综合证据、构建推理框架及跨模态生成 [12] 深度研究面临的未来挑战 - **检索时机** 当前系统缺乏对检索时机的细粒度判断,易导致过度检索或检索不足,并在无相关证据时可能强行作答 [14] - **记忆进化** 当前主流的扁平化记忆架构无法捕捉知识元素间深层次的逻辑关系,限制了系统的复杂推理能力 [15] - **训练算法** 在多轮交互设置中,PPO和GRPO等强化学习算法会出现不稳定性,表现为奖励下降、生成无效响应及熵崩塌等现象 [16] - **评估体系** 主流的大模型作为评估者方法存在偏差和效率问题,可能偏好更长或更相似的回答,且大规模评估成本高昂 [17] 深度研究的未来发展方向 - 需要发展更强的统一推理范式来适配多种大语言模型,并具备无缝适应不同底层模型、任务风格与用户偏好的能力 [17] - 需要一种标准化、泛化能力强的记忆系统,以确保能正确存储、追踪和引用研究过程中发现的证据 [17] - 需要通用、模块化、可扩展的框架,使其能在不同环境与工具集之间自由切换 [17] - 总体目标是推动大语言模型从被动回答者向自主研究者转变,进行迭代式推理、证据综合及可验证的知识生成 [17] - 未来将加速推动深度研究系统向更通用、更可靠、更具可解释性的智能体形态演进 [17]
AI周观察:GPT5.2发布,Oracle收入良好但现金流存隐患
国金证券· 2025-12-14 08:36
行业投资评级 * 报告未明确给出整体行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26] 核心观点 * 海外AI行业正加速向深度推理、生产力工具及硬件生态延伸 [2] * Oracle在2025年第三季度(FY2026Q2)收入、云业务与订单积压全面加速,但市场越来越关注其巨额订单(RPO)向实际收入和现金流的转化能力 [4][13][14][17] 海外市场行情回顾 * 截至12月12日当周,海外AI相关个股表现分化,云服务、芯片设计等板块个股涨跌互现 [6] * 部分云服务公司如Gitlab(周涨跌幅5.81%)、Mongodb(2.29%)录得上涨,而芯片设计公司如英伟达(-4.05%)、超威半导体(-3.3%)以及网络安全公司如Palo Alto Networks(-3.6%)、Zscaler(-2.64%)等出现下跌 [6] AI应用与技术动态 * **应用活跃度**:本周海外聊天助手类AI应用活跃度整体回升,其中Gemini活跃度持续上升,Claude、ChatGPT和Perplexity小幅回升,国内应用活跃度保持平稳 [2][9][11] * **OpenAI**:正式发布GPT-5.2系列,分为Instant、Thinking及Pro版本,重点优化Agent工作流与深度推理能力 [2][12] * **谷歌**:多线并进,大幅升级NotebookLM的生产力属性,生成限额提升50倍并接入顶级Gemini模型,支持多达600个来源;上线基于Gemini 3 Pro的Deep Research研究代理以降低幻觉率;确认将于2026年发布基于Android XR的AI眼镜 [2][12] * **Runway**:发布首个通用世界模型GWM-1,布局具身智能领域,同时Gen4.5模型升级支持原生音频与一分钟长视频 [2][12] * **Mistral AI**:推出Devstral2开源编码模型家族,并配套推出Vibe命令行工具 [2][12] Oracle公司业绩深度分析 * **总体财务表现**:2025年第三季度(FY2026Q2)总收入161亿美元,同比增长13%,连续三个季度保持双位数增长 [2][13] * **云业务表现**:云总收入达80亿美元,同比增长33%,占公司总收入的一半 [2][13] * 云基础设施(OCI)收入41亿美元,同比增长66%,其中GPU相关收入同比增长177% [2][13] * 云数据库服务收入同比增长30%,Autonomous Database增长43%,多云数据库消费同比大增817% [13] * 云应用收入39亿美元,同比增长11% [13] * **订单积压(RPO)**:达到5233亿美元,同比激增433%,较上一季度新增680亿美元,其中未来12个月可确认部分同比增长40% [2][14] * **盈利指标**:营业利润67亿美元,同比增长8% [2][14] * Non-GAAP每股收益(EPS)为2.26美元,同比增长51% [2][14] * GAAP每股收益(EPS)为2.10美元,同比增长86%,其中包含出售Ampere股权带来的27亿美元税前收益 [2][14] * **现金流与资本开支**:当季经营现金流21亿美元,自由现金流为-100亿美元,主要受大规模资本开支影响,当季资本开支达120亿美元 [2][14] * 公司上调2026财年(FY26)全年资本开支预期,较上一季度预测增加约150亿美元 [14] * **业绩展望**:公司预计FY27将新增约40亿美元收入,但FY26全年收入指引仍维持670亿美元不变 [14] * **核心关注点**:报告认为,Oracle面临现金流压力,如何将巨额RPO加速转化为实际收入与现金流,是其后续经营与估值修复的关键,也是判断其AI投入可持续性的重要观察点 [17]
Agnes:不做通用型智能体丨对话全民AI应用平台Agnes AI
量子位· 2025-10-30 08:39
多智能体技术趋势与产品应用 - 多智能体成为AI领域最热门的话题之一,被视为提升AI系统效果的新解法,与基础大模型能力升级并行 [2][3] - 多家公司推出多智能体AI产品,例如Manus的「Wide Research」支持上百个Agent同时工作,纳米AI的「多智能体蜂群」支持灵活拉群与组队协作,快手的「Kwali」可将视频生成需求拆解分配给不同Agent [4] - Agnes AI作为以多智能体架构为核心的AI应用,上线四个月日活用户突破20万,海外注册用户数超过300万 [4][7] Agnes AI核心功能与场景 - 深度研究通过多轮迭代、自我评估与优化,结合多模态数据生成详细内容,适合复杂问题的系统性研究;广度研究基于自研CodeAgents框架,可调度上百个智能体并行工作,擅长处理多维度大规模任务 [8][14] - AI设计提供图像、视频生成能力,支持深度设计模式,通过多轮迭代优化提升作品质量;AI幻灯片可在2分钟左右生成专业PPT,支持多人实时协作;AI表格支持数据处理、公式运算与深度分析 [8][17] - 功能选择基于用户意图和任务复杂度自动路由,深度研究追求精准与深度,广度研究追求速度与广度,单纯Research功能时长控制在一分钟内 [14][16][18] 多智能体与单智能体性能对比 - 多智能体框架通过分工协作提升效率,单智能体串行执行任务可能导致速度下降,而多智能体支持并行探索,尤其在非关键任务中能收拢更多信息 [25][27] - 多智能体将任务分配给专家模型,在特定工作中表现优于通才型单智能体,单智能体需高算力支撑才能达到类似效果,多智能体与模型能力提升相辅相成 [25][31][32] - 以海报生成为例,多智能体通过Prompt Agent、Image Generating Agent和Evaluating Agent分工协作,整合不同模型优势,解决单模型在意图理解和生成细节上的局限 [28][30][33] 多智能体产品评估与工程优化 - 评估维度包括任务完整度、效率等,公司重点关注效率指标,通过提升速度降低Token消耗和迭代次数,从而控制成本 [34][35] - 采用代码化通信框架,将多智能体间沟通从自然语言转为代码形式,在论文实验中实现Token消耗下降40%到70%,速度与准确性提升 [36] - 框架设计采用大框架加自由角色,智能体不与特定角色强绑定,支持任务间自由编排与记忆,保障功能稳定与上线速度 [38] 产品定位与市场策略 - 目标用户包括白领、大学生及行研从业者,聚焦移动端年轻用户和WebWork轻量化办公场景,差异化优势在于场景聚焦与体验丝滑 [39][41] - 通过提供高免费额度吸引用户,免费Quota每月支持10到20次PPT生成,核心逻辑为抢占免费用户心智,利用低成本获客占据未开发市场 [40][53][56] - 产品定位为有Agent能力的主流全民应用,旨在覆盖ChatGPT和Perplexity能力并附加优势,目标成为全球前五的AI消费级应用 [63][64] 市场规模与行业展望 - AI办公市场潜力巨大,传统Office产品季度毛利达几百亿美元,而百万日活的AI Native产品估值可能达100亿美元,全球仅少数产品达到主流应用规模 [42][43][45] - AI Native产品被视为革命派路线,认为将颠覆传统使用习惯,传统办公产品则属于改良派,在现有产品中叠加AI能力 [44][46] - 市场机会包括拓展AI至社交、智能硬件等更广泛场景,成功需产品与市场双驱动,快速进入主流应用而非细分尝试 [47][49]
国诚投顾:OpenAI转型平台化,生态协作成AI产业发展新引擎
搜狐财经· 2025-10-23 08:51
OpenAI发展态势 - OpenAI代表闭源生态的技术中心主义 通过技术爆品实现用户脉冲式增长 MAU突破10亿[1] - ChatGPT自2022年11月问世 通过提升模型能力和创新玩法打造爆品 如2024年GPT-4o 2025年Deep Research等产品加速用户增长[1] - 从发布至2025年9月 用户发送消息数量增长超7倍 2024年7月到2025年7月增长超5倍 token增长体现高粘性 强付费意愿和长使用时间[1] - OpenAI定位从产品型公司转型为AI时代的Windows平台型公司 用户积累形成强大护城河 营收有望高速增长[1] - 公司绑定半导体产业链关键环节 构建操作系统级垄断 商业模型升维 除过往收入还将加大外部合作实现toB平台价值变现[1] - 预计2030年收入达2000亿美元 2024至2030年复合年增长率为92%[1] 中国AI应用竞争格局 - 在用户争夺中 字节豆包和腾讯元宝各有发展 2024年5月豆包大模型家族推出 以低价打响知名度后投流打造明星产品[1] - 2025年9月 豆包APP端MAU达1.50亿 网页端MAU达0.86亿 环比增长 处国产原生AI应用第一梯队[1] - 2024年腾讯元宝推广克制 MAU落后 2025年借力DS爆火推动其发展 MAU实现跨越式增长[1] - 国内AI入口或回归软件生态 腾讯与字节生态各有优势 中国超级APP强渗透率卡位AI入口[2] - 腾讯系和字节系占中国互联网用户使用时长近六成 腾讯微信握社交入口 字节抖音占内容入口 助元宝 豆包平台化转型[2] - 平台化转型有助于通过toB/toG提高商业天花板[2] 行业发展趋势与竞争核心 - 大模型核心价值从颠覆者转向赋能者 共生协作是平台化演进最优路径[2] - OpenAI等头部厂商开放生态实现技术外溢 AI应用公司承接落地 双方互补赋能推动AI市场扩容[2] - 大模型价值从单点技术突破升级为产业生态重构 未来竞争核心转向强生态 AI产业迈入生态驱动新阶段[2] - OpenAI与外部厂商合作的股价表现 印证投资者对协同共赢模式的信心 凸显生态协作路径商业价值认可度[2] - ToC做品牌 ToB做商业的双轮驱动或为行业共识 核心前提是ToC打响品牌声誉 获取和留存用户[3] - 平台化转型可推动大模型厂商从订阅+API向平台分成拓展增长曲线 下一轮竞争核心将聚焦用户积累与平台化转型能力[3]
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 13:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
Google ramps up its ‘AI in the workplace’ ambitions with Gemini Enterprise
Yahoo Finance· 2025-10-09 12:00
产品发布与定位 - Alphabet旗下谷歌公司推出名为Gemini Enterprise的综合人工智能平台 旨在快速增长的职场人工智能工具市场与Anthropic和OpenAI竞争 [1] - 该平台并非Workspace附加产品 而是谷歌云下一个独立且安全的平台 作为人工智能代理工具包 被描述为“职场人工智能的新入口” [4] - 平台旨在让企业安全地创建、共享和使用人工智能代理 处理销售、市场营销、工程、人力资源和财务等多种职场任务 [4] 产品功能与技术特点 - 平台通过Gemini Enterprise聊天机器人进行所有工作 可连接员工数据 包括谷歌Workspace和微软365 以及Salesforce和SAP等商业应用程序 [5] - 首次实现人工智能代理在单一企业工作流中访问、整合和分析来自内部系统及谷歌人工智能工具的信息 如Code Assist和Deep Research [4] - 平台包含谷歌Gemini人工智能模型、预构建代理集合、用于深度研究和数据洞察的无代码产品 以及集中治理框架 [5] 客户与市场应用 - 发布同时宣布多家新客户 包括软件设计公司Figma、先买后付公司Klarna、食品服务分销商Gordon Foods、澳大利亚零售银行Macquarie Bank以及维珍邮轮 [2] - 维珍邮轮已在Gemini Enterprise上部署超过50个专业人工智能代理 这些代理可自主执行任务 [2] 产品发展历程 - 产品基于公司先前将人工智能能力引入企业的迭代努力 但不应被误认为仅仅是品牌重塑 [3] - 谷歌Workspace于2024年2月采用Gemini品牌 并宣布名为Gemini Enterprise的附加生成式人工智能产品可供企业使用 [3] - 公司在开始将人工智能功能纳入其Workspace商业和企业计划后 于今年早些时候停用了该Workspace Gemini Enterprise附加产品 [3]
下一个10年,普通人改命的4大机会
36氪· 2025-09-22 23:41
AI时代核心机遇 - AI本质是让人类经验可复制,催生复杂服务规模化新商业模式[2] - 技术革命真正价值在于创造新增市场而非简单替代原有业务[3] - 人工智能时代赢家是最懂需求并能利用技术规模化满足需求的人[1] AI发展演进规律 - AI发展经历两个阶段:节能增效阶段和扩大市场阶段[3] - 历史技术革命规律显示,伟大技术最终会开创全新市场[3] - 瓦特蒸汽机通过火车轮船应用实现需求爆发,市场规模从200台扩展到全球[3][4] - 福特T型车创造大众汽车新市场,20年间售出1650万辆[5][6][7] 服务规模化特征 - AI服务具备四大特征:专家级、个性化、持续化和普惠性[11] - 持续化服务能深入掌握用户历史数据,实现跨代际服务[13] - 专家级服务价格大幅降低,围棋教练等职业可被AI替代[14] - 普惠服务通过海量用户基础实现商业价值,单服务用户可达数十亿[15] 产业变革方向 - 社会从购买产品转向享受服务,用户真正需要的是产品背后的服务[19][20] - 健康管理领域将从销售医疗器械转变为提供个性化健康方案[20] - 交通出行服务革命分为电动化、智能化和出行服务化三个阶段[33] - 未来赢家将是出行服务商,特斯拉最具潜力成为主导企业[33][34] 技术实现路径 - 复杂推理能力突破使AI能系统性解决问题而不仅是一次性互动[22] - 长记忆功能通过百万级token输入输出来实现持续服务能力[24] - 第三方功能调用能力(MCP协议)让AI能完成订餐支付等实际任务[25][26] - AI发展方向是领域专家而非通用AGI,商业模式更清晰[27] 商业机会识别 - 洞察需求比掌握技术更重要,模式创新者才是最大赢家[42][43] - 沃尔玛案例显示,利用汽车普及重构零售模式创造巨大商业价值[42] - UPS创始人通过观察福特车普及发现物流机会,建立跨国物流巨头[43][44] - 锁定特定领域深耕,结合AI工具理解能力边界是关键成功要素[45][46] 核心能力构建 - 人类拥有预测能力这一独特优势,可提前布局未来趋势[50] - 交通出行服务将催生第三方增值服务市场,包括娱乐购物等[52][53] - 连续积累行业认知,从量变到质变理解领域痛点与规则[49] - 坚定执行预测布局,面对市场怀疑时保持信心至关重要[55][56]
一夜刷屏,27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
36氪· 2025-09-12 04:04
行业人才动态 - 顶尖AI人才姚顺雨从OpenAI离职的传闻引发行业高度关注,尽管腾讯已正式辟谣其入职消息[1] - 年仅27岁的姚顺雨拥有清华姚班本科和普林斯顿博士背景,是OpenAI智能体核心项目的深度参与者[5][7] - 其离职预示着全球AI人才生态正在发生更深层的迁徙与重组[6] 人才价值评估 - 行业传闻其可能获得高达1亿人民币的天价薪酬包,参照Meta为OpenAI核心研究员开出1亿美元报价的案例[3] - 作为OpenAI Deep Research的核心贡献者,姚顺雨的学术影响力显著,个人总引用次数达15,253次,h指数为24[11][12] - 其主导研究的ReAct论文引用4,354次,思维树论文引用4,022次,在语言智能体领域具有重要地位[12] 技术研究方向 - 姚顺雨专注研究语言智能体与数字自动化,参与开发了Operator、Deep Research及Computer-using Agent等OpenAI首批智能体产品[5][11] - 提出"评测将比训练更重要"的观点,认为AI下半场需从解题转向命题,重视定义问题与设定指标[18][19] - 强调AI发展需更靠近产品经理角色,通过测评定义真实世界中的可度量价值[20][21] 公司战略布局 - OpenAI通过智能体产品实现从"会聊天"到"会办事"的关键跃迁,代表其迈向AGI Level 3的重要一步[4] - 智能体人才的流向可能决定AI下半场的竞争格局,各大公司正积极争夺核心研究人员[1][3]
深度|OpenAI Agent团队:未来属于单一的、无所不知的超级Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移
Z Potentials· 2025-08-29 03:52
核心观点 - OpenAI通过合并Deep Research和Operator项目开发出新型AI Agent 能够执行长达一小时复杂任务 具备多工具协同和状态共享能力 开启人机协作新范式 [2][5][6][7][19][24][42] 技术架构与能力 - Agent配备虚拟计算机环境 集成文本浏览器 GUI浏览器 终端和API调用工具 所有工具共享状态 实现跨工具无缝切换 [5][6][24] - 支持运行代码 分析文件 创建电子表格和幻灯片 访问GitHub Google Drive等私有服务 [5][6][11] - 单次任务推理时间达28分钟至1小时 突破传统上下文长度限制 [19][20][21] - 采用强化学习训练 在数千个虚拟机上进行实验 模型自主学会工具使用策略 [7][24][26][45] 产品演进路径 - 2024年1月先后发布Operator(执行网页交互任务)和Deep Research(信息综合研究) 两周后意识到功能互补性 [9] - 文本浏览器擅长高效阅读但缺乏交互 GUI浏览器擅长点击操作但文本处理弱 合并后实现能力互补 [9][10] - 新增终端 图片生成 API调用等工具 形成完整工具生态 [11][12][13] 应用场景与用例 - 设计保持开放性 预期出现未预见用例 类似Deep Research曾被用于代码搜索的意外场景 [14][40] - 实际用例包括:从实验日志提取数据制作幻灯片 研究古代DNA生成报告 网上购物比价 创建财务模型估算公司估值 [16][18] - 同时适用于消费级和企业级场景 目标用户为"专业消费者"(prosumer)[15] 人机交互特性 - 支持双向实时交互 用户可中途打断 纠正指令或授权登录 Agent也可主动请求澄清 [7][22] - 提供计算机界面实时观察Agent操作 任务完成后可追溯修改 用户可接管环境手动操作 [23] - 交互模式向"幕僚长"形态演进 未来可能实现主动服务 [42][43] 训练方法与扩展性 - 强化学习数据效率极高 高质量小规模数据集即可训练 数据量较预训练可忽略不计 [44] - 计算资源与训练数据量增长约十万倍 使"World of Bits"愿景成为可能 [45] - 所有技能存在正向迁移 单一基础模型比专用子Agent更具优势 [44] 性能表现 - 在DataScienceBench评估中超越人类基准 具备超人级研究能力 [46] - 点击准确度大幅提升 表单填写可靠性显著改善 日期选择仍存挑战 [46][47][48] 开发团队构成 - 由原Deep Research团队(3-4人)和Operator团队(6-8人)合并而成 [30][33][34] - 研究团队与应用团队深度协作 从用例反向定义产品需求 [34][35] - 跨部门合作涉及安全 治理 法律 研究 工程等多团队 [28] 安全风险管控 - 因具备写入能力 存在外部副作用风险 安全训练为核心开发环节 [26][27] - 采用监控系统实时检测异常行为 类似杀毒软件机制 [27] - 重点防范生物安全风险 进行数周红队测试确保不被用于有害目的 [29]
喝点VC|a16z对话OpenAI研究员:GPT-5的官方解析,高质量使用场景将取代基准测试成为AGI真正衡量标准
Z Potentials· 2025-08-21 03:09
GPT-5技术能力提升 - 模型在推理、编程和创意写作方面实现质的飞跃,前端开发能力相比GPT-3达到完全不同的层次[6][9][12] - 通过优化数据集设计和奖励模型,显著提升编程能力,被描述为"市面上最强的编程模型"[11][12] - 创意写作能力显著增强,能够生成细腻动人的文本,例如悼词等难以撰写的内容[29] - 通过中期训练(mid-training)更新知识截止时间并扩展模型智能,弥补预训练和后期训练之间的空白[45] 行为设计与幻觉控制 - 针对GPT-4存在的"逢迎"问题,团队重新设计行为目标,追求健康、有帮助的互动感[13] - 幻觉和欺骗问题得到显著收敛,通过引导模型逐步思考而非快速回答来减少错误[14] - 优化多奖励目标的权衡,确保模型既有帮助性又避免过度互动[13] 智能体与工作流变革 - 智能体定义为能异步完成真实任务的助手,核心能力包括深度研究、文档编辑和跨服务数据整合[36] - 未来方向包括长时间运行任务(如耗时数小时或数天的项目)和端到端流程自动化[35] - 当前限制在于缺乏高质量计算机使用数据,需通过自举(bootstrap)方式生成训练数据[43][44] - 用户对异步任务接受度提高,愿意为高质量结果等待(如深度研究任务等待5分钟)[37][38] 评估标准与开发方法论 - 基准测试价值趋近饱和(如指令跟随分数从98提升至99),未来标准转向真实使用场景和新用例解锁[21][22] - 开发方法从目标能力反推,针对具体场景(如幻灯片制作、电子表格编辑)设计内部评测[6][22] - 通用能力优先于垂直领域,因智能提升会同时改善多项功能(如指令理解、工具使用)[24][25] 行业影响与机会 - 非技术背景用户可通过"vibe coding"快速构建完整应用,几分钟完成过去需一周的工作[6][17] - 定价策略降低使用门槛,预计催生大量独立开发者和创业公司[15][17] - 多模态能力(如计算机视觉理解网页截图)和工具集成(浏览器+终端)为自动化奠定基础[28][42] 公司文化与使命 - 研究团队保持小规模灵活结构(如深度研究团队仅2人),强调主动性和跨部门协作[54] - 使命是推动AGI落地并通过免费提供最强模型实现技术普及[58] - 数据质量被视为当前能力跃升的关键因素,优于架构或规模改进[26][27]