Workflow
推理范式
icon
搜索文档
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 04:40
文章核心观点 - OpenAI联合创始人Greg Brockman分享GPT-5和GPT-OSS的技术突破及AGI战略路径 强调推理能力演进、算力核心地位和模型泛化能力 [3][4][6] - GPT-5实现深度认知突破 在数学证明、编程和科研领域达到接近人类专家的智能水平 标志AGI发展进入新阶段 [24][25][26] - 强化学习与在线学习范式成为技术核心 通过推理-训练循环和现实交互提升模型可靠性 推动智能体集群协同发展 [9][10][29] - 算力规模化是技术突破的根本驱动力 成本两年半降低1000倍 未来算力分配将成社会核心议题 [12][39][59] OpenAI推理能力演进 - GPT-4后期训练发现对话能力 但存在可靠性不足和错误答案问题 通过强化学习实践提升假设验证能力 [5][6] - 推理技术团队提出10种方案验证 最终由Jerry领导团队取得突破 依赖卓越基础设施和跨团队协同 [7] - 模型从离线预训练转向在线学习 通过token价值强化实现高质量数据生成 样本效率远超传统预训练 [8][9] - 人类策划任务产生高杠杆效应 10-100个任务可激发复杂行为 下一步将实现实时在线学习 [10] 算力规模化与超临界学习 - 算力是根本瓶颈 通过持续突破算力边界推进技术 扩展过程蕴含工程实践价值 [11][12] - 算力转化为智能势能 通过摊销效应降低单次使用成本 形成优美技术范式 [12] - IMO模型能力可迁移至IOI竞赛 核心团队仅三人 证明通用学习技术解决复杂问题的可迁移性 [14] - 生物学语言与人类语言在神经网络中同构 400亿参数模型已达GPT-2水平 需突破长上下文处理 [18][21][22] GPT-5技术特征与应用 - 智能达到深度认知领域 能写出媲美人类的数学证明 在编程任务中实现无需调整的完美执行 [23][24] - 作为科研合作伙伴加速研究 帮助物理学家快速推导洞见 改变传统科研范式 [25] - 在竞争性编程平台表现卓越 但真实编程环境更复杂 需连接智能与现实应用多样性 [26][27] - 通过多实例协同释放潜力 用户需培养模型直觉 成为智能体集群管理者而非单智能体 [28] 模型优化与安全架构 - 采用指令层级技术建立信任层级 类似SQL注入防护 通过沙盒隔离和多级防护保证安全性 [30] - Model Spec提供价值对齐框架 规范与行为差距持续缩小 社区反馈完善争议问题处理 [31] - 架构决策受限于运行时资源 混合专家模型优化内存占用和计算消耗 体现工程务实性 [43] - 本地与远程模型协同实现隐私架构 边缘计算保持基础功能 智能分配计算负载 [44] 技术普及与生态建设 - 降价策略激进 价格降低80%后用量激增 需求曲线陡峭 推理效率持续优化 [39] - 开源模型构建技术栈依存关系 有利于商业发展和国家战略 形成完整生态系统 [46] - 软件工程变革聚焦AI优化架构 创建自包含单元和模块组合 提升10倍效率 [47][48] - 算力分配成未来核心议题 物质需求满足后 算力访问权决定问题解决能力 [59] 发展路径与行业展望 - 研究领域存在多样性 各实验室持有独特视角 OpenAI专注阶跃式突破和范式转移 [52][53] - 多模态、语音、图像生成相互关联 但需聚焦连贯核心问题 硬件瓶颈领域进展缓慢 [55] - 模型连接现实应用蕴藏机遇 需深入理解行业和建立合作关系 而非单纯技术优化 [56] - 技术发展速度使2045年难以想象 人类或成多行星物种 算力需求持续飙升 [58][59]
GPT-5被批过度炒作、性能落后,OpenAI联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够
AI前线· 2025-09-04 06:30
GPT-5企业市场表现 - GPT-5目标用户为企业市场而非普通消费者[2] - 多家初创公司如Cursor、Vercel和Factory已将GPT-5设为默认模型 因其设置速度更快 复杂任务表现更出色且价格更低廉[2] - 在代码和界面设计领域 GPT-5已能与Anthropic的Claude相匹敌甚至实现超越[2] 企业客户反馈与测试 - Box针对长篇逻辑性文档测试GPT-5 其CEO称该模型推理能力是以往系统无法比拟的突破[3] - JetBrains将GPT-5设为AI Assistant和Kineto的默认语言 因其能快速生成单一用途工具[3] - Factory与OpenAI合作将GPT-5设为默认工具语言 其CEO指出GPT-5在制定复杂编码解决方案计划方面表现更好 长期计划连贯性更优[3] - Lovable公司对GPT-5 Beta测试非常满意 发现其在复杂用例中更强大智能 且更易采取行动并反思[4] 技术发展与模型能力 - GPT-5代表几乎难以形容的智能 能在IMO数学竞赛中写出顶尖人类水平证明 这是前所未有的突破[22] - 模型从纯文本GPT-3 多模态GPT-4发展到GPT-5时代核心特征为与AI合作的科研模式 加速人类研究进展[22][23] - 在强化学习范式下 模型通过尝试和反馈学习 人类设计任务价值极高但需要成比例投入更多算力[12] - 从GPT-4发布至今 同等智能水平成本已降低1000倍 仅用两年半时间[35] 算力与扩展 - 模型发展瓶颈永远是算力 只要有足够算力就能找到方法迭代并充分利用[12] - 算力可分配到不同维度 如让模型更大 投入更多预训练算力或更多推向强化学习[13] - 算力是从能量变成算力再变成智能的结晶化过程 训练时投入大量算力但可无数次复用摊薄成本[14] 模型应用与泛化 - GPT-5在需要深度智能的复杂问题上表现比任何其他测试模型都好[24] - 模型已能泛化到不同领域 如IMO模型也能在IOI中获得金牌 无需专门训练[14] - 在生物学领域 训练400亿参数模型处理DNA序列 效果相当于GPT-1到GPT-2之间 但需解决长上下文挑战[19] 开发与工程实践 - 开发者需积累提示词库 测试模型优势和短板 并思考如何拆分任务让模型处理自包含子任务[25] - 代码库应围绕模型优劣构建 更独立单元 快速运行单元测试和清晰文档[41] - 模型在软件工程中优势高度匹配大多数工程师工作 如用不熟悉语言写代码 但架构类问题也开始擅长[39] 安全与可靠性 - 从深度防御角度思考代理稳健性 采用指令层级技术防止恶意攻击[28] - 模型规范让外界清晰了解对模型预期 规范与实际行为差距不断缩小[29] - 随着代理被赋予更多责任 安全性和可靠性必须同步提升[29] 定价与成本 - GPT-5定价有竞争力 甚至比Gemini更低[34] - 定价历史持续降价 每年降10倍甚至更激进 如GPT-3降价80%后使用量增长使收入持平或上升[34] - 当前瓶颈主要是计算资源 依赖算力 但还有很大效率提升空间[35] 未来方向与研究 - 研究领域多样性出乎意料 不同实验室有不同视角和聚焦点[43] - OpenAI关注如何通过研究实现阶跃式突破和范式转变 如推理范式突破[44] - 多模态 生成方式等方面多样性让研究比以往更丰富[44]
GPT-5首次会推理,OpenAI联创曝AGI秘诀,超临界学习吞噬算力,2045金钱无用?
36氪· 2025-08-17 23:50
GPT-5技术突破 - GPT-5是OpenAI首个混合模型,通过路由器在推理模型与非推理模型间自动切换,降低使用复杂度[3] - 模型在数学、编程、物理等高智力任务上表现质变,能写出与国际奥林匹克竞赛(IMO/IOI)优秀人类相当的证明[3][5] - 物理学家反馈GPT-5的推理过程可重现数月研究成果,表明其已成为科研合作者而非单纯辅助工具[7] 技术范式转变 - 从GPT-4的"预训练+推理"转向"推理-反馈-强化学习"动态模式,这是实现可靠AGI的唯一途径[3][7] - 模型从静态训练迈向动态推理,通过"测试想法-获得反馈-强化学习"循环缩小与AGI差距[7] - 未来模型不再是"一次训练+无限推理",而是边用边学的"推理+基于推理数据的再训练"模式[3][8] 超临界学习与算力需求 - 算力增加10倍至10000倍时将触发超临界学习,模型不仅能掌握任务还能推导二阶、三阶效应[8][10] - 算力是唯一稀缺资源,OpenAI正在建造"星际之门"超级集群以扩张基础设施[19][20][21] - 算力被比作能量:预训练将算力转化为潜在智力,推理将智力释放为动能[20] 工程实践与开发策略 - 开发者需构建AI友好型代码库(模块清晰、单元测试完整、文档详尽)并拆解任务由多智能体并行完成[13] - 需积累Prompt库探索模型边界,但Prompt非唯一正确答案而是发挥创造性的测试[13][14] - 模型应视为开发团队而非单一工具,可远程异步工作或实时协作,且能无限复制[14][15] 行业应用与未来展望 - AI在生物领域已实现DNA建模达到GPT-2水平,人类语言与生物语言对神经网络无本质区别[10] - 2045年可能进入物质丰饶时代,AI生成一切或使金钱失去意义,算力将成为新稀缺资源[24][26] - 医疗、教育等行业存在大量"未被采摘的果实",AI应用空间无比广阔[24]
深度|OpenAI 多智能体负责人:许多人正在构建的产品并未真正遵循Scaling Law,最终都会被所取代
Z Potentials· 2025-07-20 02:48
多智能体与游戏AI研究 - OpenAI开发的Cicero系统在《Diplomacy》游戏中达到人类玩家前10%水平,并通过AI反哺训练使开发者Noam Brown成为2025年世界冠军[3][4] - Cicero采用27亿参数的小型语言模型,开发过程中发现更大模型能显著提升性能[8] - 多智能体研究不仅关注博弈策略,更探索如何扩展模型推理时间至数小时甚至数天以解决复杂问题[55] AI推理范式演进 - 测试时计算成为下一代AI核心能力,模型思考时间从15分钟向更长周期扩展带来数量级性能提升[32][34] - 系统一(直觉)与系统二(推理)能力需协同发展,模型规模扩大后推理性能呈现涌现特性[15][16] - OpenAI通过o系列模型验证推理范式,o3已具备网页浏览和深度研究能力,性能持续迭代[11][26] 数据效率与算法改进 - 当前AI数据效率显著低于人类,算法改进是提高数据利用率的关键方向[38][39] - 强化学习微调(RFT)可针对性优化模型,收集的数据对未来模型迭代仍具价值[30] - 预训练模型需结合中训练和后训练才能实用化,纯预训练模型表现欠佳[88][90] 行业竞争与技术路线 - 自对弈在两人零和游戏(如围棋)中有效,但在多人非零和场景面临目标函数设计挑战[66][69] - 模型路由等辅助结构可能被扩展范式取代,开发者需警惕技术快速迭代带来的架构淘汰风险[26][28] - OpenAI采用集中资源进行大规模实验的策略,区别于传统实验室的小型分散研究模式[40][41] 应用场景与商业化 - Codex编程助手可独立完成代码提交,未来将覆盖从问题提出到PR审核的全流程[43][51] - 虚拟助手成为继软件开发后的重点应用领域,AI对齐需求使其可能超越人类表现[52] - 生成式媒体(Sora)与推理模型形成技术矩阵,推动商业订阅增长[71] 前沿研究方向 - 显式建模其他智能体的必要性存疑,大规模模型可能自发形成心理理论能力[64] - 万智牌等超复杂不完美信息游戏暴露现有AI方法的局限性,状态空间爆炸问题待解[99][100] - 生物模拟器开发被视为突破药物研发瓶颈的关键路径,需跨学科协作[86]