Long Context
搜索文档
GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
量子位· 2025-12-12 01:00
GPT-5.2系列产品发布与核心定位 - OpenAI在成立十周年之际快速迭代发布GPT-5.2系列,距GPT-5.1发布仅30天,显示出公司加速产品迭代的紧迫感 [1][16] - 新版本的核心升级方向是专门强化“打工能力”,即提升在各类实际工作场景中的生产力 [1] 多模态与复杂任务处理能力 - 视觉理解能力大幅提升,能更准确地标记主板上的元件 [4] - 长文档处理能力是升级重点,在256k上下文长度的4针版MRCRv2评测中达到接近100%准确率 [30] - 能够处理超越最大上下文窗口的复杂任务,兼容简洁回复模式以支持工具密集型、长时间运行的工作流 [33] - 在需要调用Python工具的高分辨率图形界面截图推理测试中得分达到86.3%,禁用工具则得分显著降低 [37][39] 专业与高经济价值任务表现 - 在GDPval测试中,涵盖美国GDP前九大产业的44个职业领域,能完成人类需4-8小时的任务 [18] - 在人类评委打分下,GPT-5.2 Thinking相比人类专家有71%的胜率,GPT-5.2 Pro胜率更高,且速度是人类的11倍以上,成本不到人类的1% [19][20] - 在投行分析师的电子表格建模任务上,GPT-5.2 Thinking平均得分相比GPT-5.1提升9.3%,从59.1%上升到68.4%,任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等 [21] - 评委评价其输出质量有“令人兴奋且显著的飞跃”,成果看起来像由专业公司员工完成 [23] 代码与软件开发能力 - 代码能力刷新纪录,在SWE-bench Verified上得分达到80% [25] - 在更难的SWE-Bench Pro评测上,GPT-5.2 Thinking拿下55.6%的新高,该评测涵盖Python、JavaScript、TypeScript和Go,贴近真实工业场景 [26][27] - 在前端开发和涉及3D元素的复杂UI工作方面表现明显更强 [28] 工具调用与端到端工作流 - 工具调用能力达到新高度,在Tau2-bench Telecom多轮交互电话客服场景评测上取得98.7%的成绩,在零售场景也达到82% [40][41] - 这意味着更强大的端到端工作流程能力,例如解决客户支持案例、从多系统提取数据、运行分析并生成最终输出,且步骤间故障更少 [43] 科学推理与研究辅助能力 - 公司相信GPT-5.2 Pro和GPT-5.2 Thinking是当前世界上最适合辅助科学家的模型 [44] - 在研究生水平的GPQA Diamond问答评测上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking达到92.4% [45] - 在专家级数学评测FrontierMath上,GPT-5.2 Thinking以40.3%的解题率创下新纪录 [47] - 研究人员使用GPT-5.2 Pro探索统计学习理论中的开放问题,模型提出的证明被作者验证并通过了同行评审 [49] 效率、成本与事实准确性 - 在ARC-AGI测试中,GPT-5.2 Pro取得90.5%的最新SOTA得分,平均任务成本仅为11.64美元,相比一年前成本为4500美元的模型,效率在一年内提高了约390倍 [12][13] - 事实准确性方面,GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2% [52] - 公司提示模型仍不完美,关键内容需要人工复核 [53] 市场竞争与团队 - GPT-5.2在ARC-AGI测试中得分超过了谷歌Gemini 3 Pro的对应版本 [14] - GPT-5.2的核心团队成员多为2024年后加入的新面孔,且多具有数学专业背景,例如来自斯坦福、伯克利、中科大、北大的数学与统计学博士 [57][58][59][61][62] - 公司近期研究进展文章统一署名OpenAI,不再附上详细贡献者列表 [55] 产品使用与商业化 - 在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或Enterprise套餐,并选择GPT-5.2 Thinking或Pro版本 [24] - 生成复杂内容可能需要几分钟时间 [24]
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-18 18:24
MiniMax M1技术研讨会核心观点 - MiniMax举办全球M1技术研讨会 聚焦模型架构创新、RL训练、长上下文应用等前沿领域 邀请全球顶尖学者及企业嘉宾参与[1][2] - 会议探讨RL能力边界、预训练数据价值、视觉推理瓶颈等关键技术挑战 并展示混合注意力架构的实践突破[6][8][11][19] - 长上下文窗口被视为Agent领域的game-changer 可解锁法律合规分析、客户洞察等企业级应用场景[15][16][17] 强化学习(RL)能力边界 - RL在有限上下文长度下能赋予模型新能力 通过改变输出分布使原需10W token解决的问题压缩至10K token[6] - pass@k指标有效性取决于定义方式 无限次尝试通过率反映基础能力 特定次数通过率反映实用性能[7] - Reward建模是RL扩展核心瓶颈 非结果导向的奖励信号(如主观感受)缺乏有效建模方法[7][13] 预训练数据价值 - 预训练本质是RL特例 当前最大价值在于接触多样化数据分布 弥补RL训练数据分布狭窄缺陷[8] - 仅数学/代码RL训练会加剧幻觉 需构建WebInstruct-verified等通用数据集 已扩展至50万量级[10] - mid-training阶段引入RL成为新范式 通过检索预训练数据获取多样化RL数据[10] 视觉推理突破方向 - 现有视觉编码器处理高分辨率图像能力弱 需依赖zoom-in等增强感知的权宜方案[11] - 根本瓶颈在于像素编码与潜在空间推理 需发展latent reasoning技术应对空间思考需求[12] - 图像生成技术(如几何辅助线)代表更高级的"用图像思考"方式 但尚未有成功案例[11] RL前沿挑战领域 - 超越结果评估的Reward建模将极大扩展RL应用场景[13] - 多智能体系统受限于基础设施 需构建AI模型交互训练环境[13] - AI自动化研究(模型自我训练)与AGI发展密切相关[13] 长上下文应用价值 - 1M token窗口可一次性处理完整案件历史 解决法律行业分块处理遗漏关键细节问题[17] - 企业级应用集中在法律合规分析(合同审查)、客户研究洞察(问卷总结)、收入报告自动化三大场景[17][18] - 技术支持与知识管理领域需求显著 可提升工单处理、内容更新等流程效率[18] 混合注意力架构优势 - 混合架构结合线性注意力效率与Full Attention灵活性 成为主流设计方向[19] - MiniMax Text-01验证混合模型潜力 推理速度较传统模型提升一个量级(10万token请求响应从1分钟降至4-5秒)[20][22] - 需构建混合分配器、批处理重叠等技术解决GPU利用率不平衡问题[21][22] 混合架构实践洞察 - RL训练曾因线性注意力不稳定性停滞 修复后证明混合模型可通过适当算力匹配Full Attention性能[23] - 评估应基于固定计算预算下的性能 而非固定输出长度 更反映真实效率[24] - 工程挑战包括计算图优化部署困难 需开发统一抽象层支持缓存复用[21] System2推理本质 - 高级推理能力源于计算资源扩展 体现为自动化Prompt Engineering替代人工分步指令[25] - 写作等任务中模型自动拆解专业步骤 通过延长推理路径实现"专家式思考"[25] - 本质是计算预算高效利用与问题自动深化的结合[26]
重塑记忆架构:LLM正在安装「操作系统」
机器之心· 2025-07-16 04:21
大型语言模型记忆能力与上下文窗口 核心观点 - 现代大型语言模型(LLM)存在内在的「记忆缺陷」,上下文窗口有限导致难以维持长期一致性 [5][6] - 长上下文处理能力与记忆能力密切相关,但上下文窗口不等同于记忆 [11][34] - 新兴记忆管理系统借鉴操作系统架构,实现更持久的LLM记忆 [48][50][54] 上下文窗口演变 - 早期GPT-3仅支持2,048 token,近期模型如Llama 4 Scout可达1,000万token [2][4] - 上下文窗口扩展面临长度泛化、高效注意力、信息保留等挑战 [12][13][14] 记忆分类体系 - **短期记忆**:当前推理可见的历史文本,用于文档问答/多轮对话 [16] - **长期记忆**包含: 1) 事件记忆-记录代理操作历史 [18] 2) 语义记忆-整合外部知识与自我认知 [19] 3) 程序性记忆-系统运行机制与行为边界 [20] 提升记忆能力的技术路径 - **长上下文方法**: 1) RAG实现动态知识检索,减少幻觉 [27][28] 2) 分层摘要处理超长文本但易累积错误 [31] 3) 滑动窗口推理结合次级模型整合 [32] - **记忆系统架构**: 1) 固定记忆池(MemoryLLM)限制容量避免无限增长 [36][37] 2) 非固定记忆池采用键值对/隐藏向量等灵活形式 [41][42] 代表性记忆系统 - MemGPT借鉴操作系统分页机制管理虚拟内存 [50][52] - MemOS采用工业级分层架构融合Memory3技术 [52][54] - MemoryOS实现三级分层存储体系(实时/主题/个性化) [54][56] - MIRIX首创多模态多智能体记忆系统 [58][63] - Larimar受人类情景记忆启发构建分层框架 [60][64]
53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招
36氪· 2025-06-20 00:11
技术突破 - 公司开源全球首个大规模混合架构推理模型MiniMax-M1,成为全球前二的开源模型[1] - 模型包含4560亿个参数,459亿个激活函数,32层架构,支持100万上下文输入,为业内最高[8] - 模型在17个主流评测集上表现优异,如SWE-bench验证基准取得55.6%和56.0%的成绩[6] - 在长上下文理解任务中全面超越所有开源权重模型,在代理工具使用场景中战胜Gemini-2.5 Pro[6] 架构创新 - 采用独创的Lightning Attention神经网络架构和CISPO强化学习算法[11][17] - 每7个闪电注意力模块搭配1个softmax注意力模块,可将推理长度扩展到数十万token[12] - 计算复杂度从平方级降为线性,64token下FLOP消耗不到DeepSeek R1的50%[15] - 训练内核与推理内核相关性从0.9倍提升至0.99倍,增强执行一致性[20] 成本优势 - 强化训练成本降至53.74万美元,相比传统方法降低一个数量级[22] - 仅需512块H800显卡和三周时间完成训练[22] - CISPO算法用一半训练步数达到DAPO相当性能[18] 应用能力 - 百万级上下文窗口可处理超长合同、科研文献和完整代码库[11] - 在TAU-bench航空和零售场景分别取得60.0%和67.8%的成绩,领跑开源模型[6][24] - 支持XML格式工具描述,自动生成调用代码,降低开发者门槛[24] - 内置UI组件和交互应用能力,可快速生成3D动画、HTML页面和游戏[25] 行业影响 - 技术发布迅速占据VentureBeat、Seekingalpha等海外主流媒体版面[2] - 获得行业KOL深度解读并在TestTM等平台引发跨圈层讨论[2] - 公司技术路线连贯,从年初400万token处理能力迭代至百万级上下文[26] - 以业务为中心的技术策略增强企业对AI应用的信心[27]
AI创业效率预警:“立即行动”
第一财经· 2025-06-04 07:16
AI行业发展趋势与机遇 - OpenAI CEO山姆·奥尔特曼认为2026年是AI驱动发现的关键年,AI将从辅助工具升级为帮助人类解决复杂问题的核心角色 [1] - 红杉中国提出AI Agent是当前AI落地的重要方式,企业需根据智能目标层级(如Leval 2 vs Leval 4)选择差异化路径 [1] - 具身智能概念受关注,无论硬件机器人或软件Agent均需具备信息获取与交付能力 [1] AI技术应用现状 - Revelio Labs数据显示ChatGPT发布后,招聘广告中"可被AI完成"的任务比例整体下降19%,技术岗位降幅达31% [2] - ChatGPT日活/月活比例已接近Reddit水平,应用场景覆盖广告文案创作、教育可视化、医疗诊断等领域 [2] - AI编程场景达到PMF最佳状态,OpenAI的Codex Agent可实现后台持续任务处理,成为工程师"搭档" [3] 行业竞争策略 - 红杉资本指出AI市场需求强劲,宏观经济因素为"杂音",创业者需抢占先机避免真空 [4] - 吴恩达AI Fund募资1.9亿美元,强调创业成功首要因素是执行速度,技术理解力比传统商业技能更稀缺 [5][6] - 实验成本降低使企业可快速试错修正,技术快速演进要求团队具备方向直觉判断力 [5][6] Agent领域发展格局 - 中美大厂Agent发展路径分化:北美云厂商侧重模型部署,国内沿用流量逻辑推通用Agent产品 [7] - OpenAI与Anthropic领跑LLM竞争,Coding+Agentic AI被视为AGI时代的超级应用机会 [7] - 长上下文技术突破将引爆Agent应用,2030年前或出现多家10万亿美元市值公司 [7] 企业融资与国际化 - AI Agent领域融资情绪乐观,投资人看重创始人对技术趋势的洞察力及团队执行力 [8] - 国际化公司需构建海外架构(人力/品牌/合规),并通过全球人才协同提升竞争力 [8]