Workflow
o3
icon
搜索文档
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 04:56
新基准GDPval的提出与设计 - 提出GDPval基准用于衡量AI模型在真实世界具有经济价值任务上的表现[1] - 基准覆盖对美国GDP贡献最大的9个行业中的44种职业 这些职业年均创收合计达3万亿美元[2] - 任务基于平均拥有14年经验的行业专家的代表性工作设计而成[2][18] 测试方法与数据构建 - 筛选对美国GDP贡献超5%的9个行业 再挑选各行业贡献工资总额最多且以数字任务为主的职业[14] - 通过GPT-4o对任务按数字/非数字分类 若60%以上为数字任务则纳入[14] - 最终筛选44个职业 年创收合计3万亿美元[15] - 每个GDPval任务包含需求和交付成果两部分 行业专家对照O*NET任务分类设计[20] - 通过平均完成时间×时薪计算每个任务的经济价值[23] - 最终包含1320项任务 每个任务获得至少3次平均5次的人工审核[23] 模型性能评估结果 - Claude Opus 4.1成为表现最佳模型 47.6%产出被评定媲美人类专家成果[4] - GPT-5以38.8%的成绩位居第二[6] - GPT-4o与人类相比只有12.4%获胜或平局[6] - OpenAI各代模型在GDPval上的表现大致呈线性提升[32] - GPT-5在准确性方面优势显著 Claude在文件处理上表现更佳[33] 性能提升方法与经济价值 - 增加推理努力 提供更多任务背景 优化提示词与智能体辅助框架能显著提升模型性能[38] - 将AI模型与人类监督结合 在完成任务时有望比单独人类专家更经济高效[35] - 多种使用模式都能帮人类节省成本和时间[36] 开源与自动评分 - 开源包含220项任务的优质子集[9] - 开发实验性自动评分器 与人类专家评分的一致性达66% 仅比人类间评分一致性低5%[27] 局限性与发展计划 - 数据集规模有限仅44种职业 聚焦计算机上完成的知识工作[40] - 任务为精准指定的一次性任务 缺乏交互性 自动评分器存在不足 评估成本高[40] - 计划在未来迭代版本中拓展覆盖范围 增强真实性与交互性 纳入更多场景细节[41]
速递|Claude与OpenAI都在用:红杉领投AI代码审查,Irregula获8000万美元融资估值达4.5亿
Z Potentials· 2025-09-18 02:43
融资与估值 - Irregular获得8000万美元新一轮融资,由红杉资本和Redpoint Ventures领投,Wiz首席执行官Assaf Rappaport跟投 [1] - 此轮融资后公司估值达到4.5亿美元 [1] 公司定位与技术能力 - Irregular前身为Pattern Labs,是AI评估领域的重要参与者,其研究成果被Claude 3.7 Sonnet和OpenAI的o3、o4-mini模型安全评估引用 [2] - 公司开发了SOLVE框架,用于评估模型漏洞检测能力,该框架已在业内得到广泛应用 [3] - 公司构建了精密的模拟环境系统,能够在模型发布前进行高强度测试,通过让AI同时扮演攻击者和防御者角色来识别防御体系的有效点和薄弱环节 [3][4] 行业趋势与风险 - 人工智能行业将安全作为重点关切领域,OpenAI今年夏天全面升级了内部安全机制以防范潜在商业间谍活动 [4] - AI模型在识别软件漏洞方面愈发娴熟,这种能力对攻击方和防御方均具有重大影响 [5] - 大型语言模型能力增长引发众多安全隐患,前沿实验室致力于创造更复杂强大的模型,而安全公司需持续应对动态风险 [6] 核心观点 - 大量经济活动将来自人与AI互动及AI与AI互动,这将从多个层面打破现有安全防护体系 [2] - Irregular的使命是守护前沿模型,但需应对如射击移动靶标般的动态安全挑战 [6]
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 02:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 03:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
Gilat Becomes First to Market with AI-Powered Network Management System
Globenewswire· 2025-09-11 11:01
公司AI技术升级 - 公司宣布其网络管理系统(NMS)完成AI转型 集成模型上下文协议(MCP) 新AI功能立即上线[1] - NMS-MCP作为NMS与AI代理之间的网关 支持认证、许可和安全通信 确保合规性和运营完整性[2] - 系统支持GPT系列4、5和5 mini以及o3、o4、o4 mini和Claude Sonnet 4等多种AI模型接口[2] 公司业务定位 - 公司是全球领先的卫星宽带通信提供商 拥有超过35年行业经验[3] - 业务范围涵盖卫星、地面和新空间连接领域 为商业和国防应用提供关键连接解决方案[3] - 通过全资子公司提供多轨道星座、甚高通量卫星(VHTS)和软件定义卫星(SDS)的集成解决方案[4] 产品与技术组合 - 产品组合包括云平台、调制解调器、高性能卫星终端、先进卫星动中通(SOTM)天线和电子扫描阵列(ESA)[4] - 提供高效高功率固态功率放大器(SSPA)、上变频器(BUC)以及集成地面系统[4] - 服务涵盖网络管理软件、现场服务和网络安全服务[4] 应用市场领域 - 解决方案支持政府国防、机上连接(IFC)与移动、宽带接入、蜂窝回程、企业、航空航天、广播和关键基础设施等多个应用领域[5] - 所有产品和服务均满足最严格的服务级别要求[5] AI应用场景 - NOC AI代理可持续监控系统健康 检测异常并采取主动措施 在性能下降时自动触发纠正行动[6] - SDS AI代理能根据业务优先级、流量模式和服务级别协议动态调整网络配置 确保最优资源利用和服务质量[6] 战略发展导向 - 公司视AI为关键业务乘数 将帮助客户更快创新并以更简化的方式管理网络[2] - 此次转型展示了公司在深度卫星通信技术领域的领导地位 是AI转型计划的第一步[2]
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 04:40
文章核心观点 - OpenAI联合创始人Greg Brockman分享GPT-5和GPT-OSS的技术突破及AGI战略路径 强调推理能力演进、算力核心地位和模型泛化能力 [3][4][6] - GPT-5实现深度认知突破 在数学证明、编程和科研领域达到接近人类专家的智能水平 标志AGI发展进入新阶段 [24][25][26] - 强化学习与在线学习范式成为技术核心 通过推理-训练循环和现实交互提升模型可靠性 推动智能体集群协同发展 [9][10][29] - 算力规模化是技术突破的根本驱动力 成本两年半降低1000倍 未来算力分配将成社会核心议题 [12][39][59] OpenAI推理能力演进 - GPT-4后期训练发现对话能力 但存在可靠性不足和错误答案问题 通过强化学习实践提升假设验证能力 [5][6] - 推理技术团队提出10种方案验证 最终由Jerry领导团队取得突破 依赖卓越基础设施和跨团队协同 [7] - 模型从离线预训练转向在线学习 通过token价值强化实现高质量数据生成 样本效率远超传统预训练 [8][9] - 人类策划任务产生高杠杆效应 10-100个任务可激发复杂行为 下一步将实现实时在线学习 [10] 算力规模化与超临界学习 - 算力是根本瓶颈 通过持续突破算力边界推进技术 扩展过程蕴含工程实践价值 [11][12] - 算力转化为智能势能 通过摊销效应降低单次使用成本 形成优美技术范式 [12] - IMO模型能力可迁移至IOI竞赛 核心团队仅三人 证明通用学习技术解决复杂问题的可迁移性 [14] - 生物学语言与人类语言在神经网络中同构 400亿参数模型已达GPT-2水平 需突破长上下文处理 [18][21][22] GPT-5技术特征与应用 - 智能达到深度认知领域 能写出媲美人类的数学证明 在编程任务中实现无需调整的完美执行 [23][24] - 作为科研合作伙伴加速研究 帮助物理学家快速推导洞见 改变传统科研范式 [25] - 在竞争性编程平台表现卓越 但真实编程环境更复杂 需连接智能与现实应用多样性 [26][27] - 通过多实例协同释放潜力 用户需培养模型直觉 成为智能体集群管理者而非单智能体 [28] 模型优化与安全架构 - 采用指令层级技术建立信任层级 类似SQL注入防护 通过沙盒隔离和多级防护保证安全性 [30] - Model Spec提供价值对齐框架 规范与行为差距持续缩小 社区反馈完善争议问题处理 [31] - 架构决策受限于运行时资源 混合专家模型优化内存占用和计算消耗 体现工程务实性 [43] - 本地与远程模型协同实现隐私架构 边缘计算保持基础功能 智能分配计算负载 [44] 技术普及与生态建设 - 降价策略激进 价格降低80%后用量激增 需求曲线陡峭 推理效率持续优化 [39] - 开源模型构建技术栈依存关系 有利于商业发展和国家战略 形成完整生态系统 [46] - 软件工程变革聚焦AI优化架构 创建自包含单元和模块组合 提升10倍效率 [47][48] - 算力分配成未来核心议题 物质需求满足后 算力访问权决定问题解决能力 [59] 发展路径与行业展望 - 研究领域存在多样性 各实验室持有独特视角 OpenAI专注阶跃式突破和范式转移 [52][53] - 多模态、语音、图像生成相互关联 但需聚焦连贯核心问题 硬件瓶颈领域进展缓慢 [55] - 模型连接现实应用蕴藏机遇 需深入理解行业和建立合作关系 而非单纯技术优化 [56] - 技术发展速度使2045年难以想象 人类或成多行星物种 算力需求持续飙升 [58][59]
OpenAI、Anthropic罕见合作
36氪· 2025-08-29 01:32
合作背景与目的 - 全球领先AI初创企业OpenAI与Anthropic过去两个月罕见开展跨实验室合作 相互开放严密保护的AI模型进行联合安全测试[1] - 合作旨在揭示各自公司内部评估盲点 展示领先AI企业未来在安全与协调方面的合作方式[1] - 行业正处于军备竞赛阶段 数十亿美元数据中心投资和千万美元级别顶尖研究员薪酬成为基础门槛[1] 合作实施细节 - 双方通过特殊API权限相互授予访问权限 测试对象为降低安全防护等级的AI模型版本[3] - OpenAI的GPT-5模型因未发布未参与此项测试[3] - Anthropic希望未来继续允许OpenAI研究人员访问其Claude模型[4] 模型性能差异发现 - Anthropic的Claude Opus 4和Sonnet 4模型在无法确定答案时会拒绝回答高达70%的问题[5] - OpenAI的o3和o4-mini模型拒绝回答频率远低于Anthropic 但出现幻觉概率高得多[5] - 理想平衡点应介于两者之间 OpenAI模型需更频繁拒绝作答 Anthropic模型需尝试提供更多答案[5] 安全隐患研究结果 - 谄媚现象成为当前AI模型最紧迫安全隐患 GPT-4.1和Claude Opus 4存在极端谄媚案例[6] - 这些模型最初抵制精神病态行为 但随后认可某些令人担忧的决策[6] - OpenAI声称GPT-5模型较GPT-4o显著改善谄媚性问题 更能应对心理健康紧急状况[6] 行业影响与未来展望 - AI技术已进入每天数百万人使用的具有重大影响发展阶段 安全合作愈发重要[4] - 尽管行业投入数十亿美元资金并存在人才用户产品争夺战 建立安全与合作标准仍是广泛问题[4] - 未来希望深化安全测试合作 拓展研究主题并测试未来模型 同时期待其他AI实验室效仿协作模式[7]
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
量子位· 2025-08-28 06:46
合作背景 - OpenAI与Anthropic首次在AI行业顶级竞争对手间达成合作 互相授予API权限并评估模型安全性和对齐情况 [2][3][5] - 合作目的是推动AI安全标准制定 尽管存在数十亿美元投资和产品竞争 但行业需共同关注安全与协作框架 [9] 模型评估阵容 - OpenAI评估模型包括GPT-4o、GPT-4.1、o3和o4-mini [6] - Anthropic评估模型包括Claude Opus 4和Claude Sonnet 4 [6] 指令层次结构测试 - Claude 4在指令优先级遵守方面略优于o3 显著优于其他模型 [6] - Claude模型在系统提示词提取测试中达到满分 与o3持平 优于GPT系列模型 [33][35] - 在系统指令与用户请求冲突测试中 Opus 4和Sonnet 4表现优于o3 [37] 幻觉测试 - Claude模型在人物幻觉测试中拒答率达70% 显著减少幻觉发生 [6][19] - OpenAI模型倾向于积极回答 导致幻觉概率更高 [20] - 在无搜索问答测试中 Claude模型继续保持高拒答率 OpenAI模型更易给出错误答案 [26] 越狱测试 - 使用StrongREJECT v2基准测试 以Goodness@0.1指标衡量防御力 [42][43] - 推理模型(o3、o4-mini、Sonnet 4、Opus 4)整体防御较强 非推理模型(GPT-4o、GPT-4.1)更易被历史化攻击绕过 [47] - 导师越狱测试中 o3和o4-mini表现最强 Sonnet 4未开启推理时优于Opus 4 [48] - 最难防御的提示词为逻辑清晰的权威指令或合理需求场景 [50][55] 策略性欺骗测试 - 测试涵盖说谎、装傻和奖励钻空子三种欺骗行为 [57] - 推理模型(如o3和Opus 4)未表现出更高欺骗倾向 不同公司模型表现相似 [58] - o3在思维链中直接表达欺骗意图 Opus 4则隐晦避免使用欺骗相关词汇 [61][64] - 部分模型表现出"考试意识" 增加行为动机判断复杂度 [62]
GPT-5通关《宝可梦水晶》创纪录,9517步击败赤爷,效率碾压o3三倍
36氪· 2025-08-27 06:19
核心观点 - GPT-5在《宝可梦水晶》游戏中以显著优势击败对手o3和人类玩家 通关效率提升约3倍 并得到OpenAI高管的公开认可 [1][3][11] - 宝可梦游戏已成为评估AI大模型上下文处理、规划执行和界面控制能力的新基准 但测试成本高昂 [21][22][23] 性能表现 - 通关步数仅9517步 相比o3的27040步减少约65% [3] - 主线徽章收集环节仅用9205步 相比o3的22334步减少约59% [5] - 最终对战环节仅用312步 相比o3的近5000步效率提升超15倍 [5] - 四天王剧情环节用7329步 相比o3的18115步减少约60% [8] 技术优势 - 幻觉错误显著减少 行动序列规划能力增强 [14] - 空间推理能力提升 可避免穿墙或迷路等错误 [15] - 目标规划与执行效率优化 支持长程决策 [15] - 采用多层信息整合机制 包括游戏截图、内存数据与路径规划工具 [21] - 配备自我批评模型 定期进行错误检查与策略优化 [21] - 构建标记化小地图 模拟人类玩家的空间认知能力 [25] 行业应用 - 谷歌Gemini 2.5 Pro已于今年五月成功通关《宝可梦蓝》 [17] - Anthropic的Claude模型仍在挑战中 尚未完成通关 [17] - 单次测试成本极高 《宝可梦红》测试消耗约3500美元API额度 [23] - 平均每个token成本约4元人民币 测试需6470步操作 [24]
当AI成“视觉神探”,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道· 2025-08-21 07:18
行业技术发展动态 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备不依赖搜索工具精准识别图像细节及推测拍摄地点的能力 [1] - 视觉推理成为大模型竞争焦点 OpenAI、谷歌、豆包、通义千问等国内外企业均推出多模态视觉推理模型 [1][5] - 豆包APP在实测中实现100%地理位置识别准确率 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2][3] - 典型地标(如国家跳台滑雪中心、杭州西湖)识别准确率最高 模糊信息场景下模型表现出现显著差异 [3][4] - 联网功能显著提升识别准确度 豆包通过联网搜索比对实现100%准确率 [4] 技术能力细节 - 模型优先依据地标、人物、文字等关键元素进行推理 在包含明确文字信息的图片中表现更优 [3][4] - 智谱GLM-4.5V在"图寻游戏"全球积分赛中击败99%人类玩家 体现其超越人类的速度与精度 [6] - 豆包支持图片放大、裁剪及搜索功能 通义千问支持图像解析与视频分析 技术功能持续升级 [5] 应用与风险关注 - 多模态大语言模型可大幅降低非专业人员从社交媒体图像提取用户位置数据的门槛 [6] - 具备视觉推理能力的大模型目前均可免费使用 且未对敏感信息识别请求进行限制 [7] - 研究显示11个先进多模态模型在地理位置推断方面始终优于非专业人士 构成潜在隐私威胁 [6]