Workflow
Claude Opus 4
icon
搜索文档
先发制人!Anthropic发布Claude 4.5 以“30小时独立编码”能力狙击OpenAI大会
智通财经网· 2025-09-30 02:05
Anthropic联合创始人兼首席科学官Jared Kaplan表示,Claude Sonnet 4.5在"几乎所有方面"都比该公司最 新的高端模型Opus更出色。同时他透露,Anthropic也在研发Opus的升级版本,预计将于今年晚些时候 推出。他还补充道:"两种不同规模的模型(指Sonnet与Opus)各有应用场景,我们能从它们的实际使用中 分别获得改进灵感与收益。" Anthropic还指出,新模型在满足实际业务需求方面取得了显著进展——而这正是当前行业观察人士日 益关注的焦点。近几周的多项研究显示,AI尚未为争相采用它的公司带来显著效益。对此Anthropic强 调,Claude Sonnet 4.5在网络安全、金融服务等行业的特定任务中表现尤为突出。 Anthropic首席产品官Mike Krieger表示,要让企业充分挖掘AI的价值,"还有几件事需要落实"。他认 为,这既包括AI模型本身的持续优化,也需要"用户逐渐适应并调整自身工作流程"。此外他还提 到,"前沿AI实验室与企业之间还需建立更深层次的合作关系"。 智通财经APP获悉,Anthropic近日发布了一款全新人工智能(AI)模型,其设计 ...
Study: AI LLM Models Now Master Highest CFA Exam Level
Yahoo Finance· 2025-09-22 17:43
You can find original article here Wealthmanagement. Subscribe to our free daily Wealthmanagement newsletters. In 2024, a study by J.P. Morgan AI Research and Queen’s University found that leading proprietary artificial intelligence models could pass the CFA Level I and II mock exams, but they struggled with the essay portion of the Level III exam. A new research study has found that today’s leading large language models can now clear the CFA Level III exam, including the essay portion. The CFA Level III ...
马斯克开始疯狂剧透Grok 5了
搜狐财经· 2025-09-18 06:34
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克的Grok 5偷偷藏不住了。 刚刚ARC-AGI榜单官宣出现新SOTA,用的还是Grok 4+程序合成技术微调。 好小汁,啥时候开始Grok都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。 一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是…… 马斯克也随即出来回应: 我现在认为Grok 5能达到AGI。 顺便附赠了一堆有关Grok 5的爆料。 马斯克疯狂剧透Grok 5 这事还得从Grok 4超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize发布了两个最新的ARC-AGI榜单SOTA方 案: 先简单介绍一下ARC-AGI排行榜,其旨在评估AI解决复杂难题的能力,类似于人类的智力测试,从而反映LLM的推理能力。 测试任务包含v1和v2版本,v2需要LLM完成更多的多步骤推理,一般来说,即使是最优秀的LLM也只能在v2中获得16%的准确率。 都是开源的。 都使用的是Grok 4作为基础模型。 都实现了带测试自适应的程序合成外循环。 GPT-5在二者上的得分依次是65.7%和9.9% ...
马斯克开始疯狂剧透Grok 5了
量子位· 2025-09-18 06:09
Grok 4 性能表现 - Grok 4 在 ARC-AGI 榜单 v1 和 v2 版本测试中分别达到 66.7% 和 16% 的准确率,超越 GPT-4o 的 65.7% 和 9.9% 以及 Claude Opus 4 的 35.7% 和 8.6% [13] - 基于 Grok 4 的改进方案通过英语替代 Python 和程序合成技术,将 v1 和 v2 准确率进一步提升至 79.6% 和 29.44%,同时显著降低任务成本(v1 从 8.42 美元降至 2.56 美元,v2 从 30.4 美元降至 3.97 美元)[14][16] - Grok 4 被研究者选为测试效果最佳的基础模型,其多步骤推理能力在复杂任务中表现突出 [17] Grok 5 发展计划与预期 - Grok 5 预计在几周内开始训练,并计划于 2024 年底前推出 [21][22] - 马斯克认为 Grok 5 有 10% 或更高可能性实现 AGI,此前他未预期该版本会出现 AGI [19][20] - 训练数据量将显著超越前代,Grok 4 训练量已是 Grok 2 的 100 倍和 Grok 3 的 10 倍 [23] 数据与算力资源优势 - xAI 通过特斯拉 FSD 摄像头、擎天柱机器人和自有体系获取海量实时数据,形成独特数据优势 [24][25] - 公司计划 5 年内部署相当于 5000 万台 H100 GPU 的算力,目前已为 Grok 部署 23 万张 GPU(含 3 万张 NVIDIA GB200)[26] - 专为 Grok 构建的 Colossus 超算集群持续提供强大算力支持 [26] 行业竞争格局 - Grok 系列在 ARC-AGI 榜单实现技术超越,当前开源方案已领先 OpenAI、Anthropic 和谷歌等主流模型 [3][8] - AGI 实现仍存不确定性,需最终产品验证技术突破的有效性 [27][28]
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 02:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 03:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
OpenAI、Anthropic罕见合作
36氪· 2025-08-29 01:32
合作背景与目的 - 全球领先AI初创企业OpenAI与Anthropic过去两个月罕见开展跨实验室合作 相互开放严密保护的AI模型进行联合安全测试[1] - 合作旨在揭示各自公司内部评估盲点 展示领先AI企业未来在安全与协调方面的合作方式[1] - 行业正处于军备竞赛阶段 数十亿美元数据中心投资和千万美元级别顶尖研究员薪酬成为基础门槛[1] 合作实施细节 - 双方通过特殊API权限相互授予访问权限 测试对象为降低安全防护等级的AI模型版本[3] - OpenAI的GPT-5模型因未发布未参与此项测试[3] - Anthropic希望未来继续允许OpenAI研究人员访问其Claude模型[4] 模型性能差异发现 - Anthropic的Claude Opus 4和Sonnet 4模型在无法确定答案时会拒绝回答高达70%的问题[5] - OpenAI的o3和o4-mini模型拒绝回答频率远低于Anthropic 但出现幻觉概率高得多[5] - 理想平衡点应介于两者之间 OpenAI模型需更频繁拒绝作答 Anthropic模型需尝试提供更多答案[5] 安全隐患研究结果 - 谄媚现象成为当前AI模型最紧迫安全隐患 GPT-4.1和Claude Opus 4存在极端谄媚案例[6] - 这些模型最初抵制精神病态行为 但随后认可某些令人担忧的决策[6] - OpenAI声称GPT-5模型较GPT-4o显著改善谄媚性问题 更能应对心理健康紧急状况[6] 行业影响与未来展望 - AI技术已进入每天数百万人使用的具有重大影响发展阶段 安全合作愈发重要[4] - 尽管行业投入数十亿美元资金并存在人才用户产品争夺战 建立安全与合作标准仍是广泛问题[4] - 未来希望深化安全测试合作 拓展研究主题并测试未来模型 同时期待其他AI实验室效仿协作模式[7]
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
量子位· 2025-08-28 06:46
合作背景 - OpenAI与Anthropic首次在AI行业顶级竞争对手间达成合作 互相授予API权限并评估模型安全性和对齐情况 [2][3][5] - 合作目的是推动AI安全标准制定 尽管存在数十亿美元投资和产品竞争 但行业需共同关注安全与协作框架 [9] 模型评估阵容 - OpenAI评估模型包括GPT-4o、GPT-4.1、o3和o4-mini [6] - Anthropic评估模型包括Claude Opus 4和Claude Sonnet 4 [6] 指令层次结构测试 - Claude 4在指令优先级遵守方面略优于o3 显著优于其他模型 [6] - Claude模型在系统提示词提取测试中达到满分 与o3持平 优于GPT系列模型 [33][35] - 在系统指令与用户请求冲突测试中 Opus 4和Sonnet 4表现优于o3 [37] 幻觉测试 - Claude模型在人物幻觉测试中拒答率达70% 显著减少幻觉发生 [6][19] - OpenAI模型倾向于积极回答 导致幻觉概率更高 [20] - 在无搜索问答测试中 Claude模型继续保持高拒答率 OpenAI模型更易给出错误答案 [26] 越狱测试 - 使用StrongREJECT v2基准测试 以Goodness@0.1指标衡量防御力 [42][43] - 推理模型(o3、o4-mini、Sonnet 4、Opus 4)整体防御较强 非推理模型(GPT-4o、GPT-4.1)更易被历史化攻击绕过 [47] - 导师越狱测试中 o3和o4-mini表现最强 Sonnet 4未开启推理时优于Opus 4 [48] - 最难防御的提示词为逻辑清晰的权威指令或合理需求场景 [50][55] 策略性欺骗测试 - 测试涵盖说谎、装傻和奖励钻空子三种欺骗行为 [57] - 推理模型(如o3和Opus 4)未表现出更高欺骗倾向 不同公司模型表现相似 [58] - o3在思维链中直接表达欺骗意图 Opus 4则隐晦避免使用欺骗相关词汇 [61][64] - 部分模型表现出"考试意识" 增加行为动机判断复杂度 [62]
马斯克Grok-4卖货创收碾压GPT-5,AI卖货排行榜曝光,AGI的尽头是卖薯片?
36氪· 2025-08-22 10:11
Vending Bench基准测试结果 - Grok 4在Vending Bench榜单中排名第一 平均净资产达4694.15美元 最低净资产为3333.28美元 [1][2][4] - GPT-5 New排名第二 平均净资产为3578.90美元 最低净资产为2690.29美元 [2][4][36] - Grok 4平均销售4569个商品单元 比GPT-5 New的2471个单元高出约85% [1][2][36] - Grok 4实现营收增长31% 比GPT-5 New多卖出1100美元货物 [1][36] 模型持续运营能力对比 - GPT-5 New展现最佳持久性 平均363天停止销售 保持100%运行周期完成度 [2][4][36] - Grok 4平均324天停止销售 运行周期完成度为99.5% [2][4][36] - 人类基准平均67天停止销售 完成度为100% [2][4][36] - Claude Opus 4平均132天停止销售 完成度99.5% [2][4][36] Vending Bench测试机制 - 测试环境模拟真实自动售货机运营 要求AI管理库存 下订单 设定价格并支付日常费用 [14][16][20] - 测试周期长达数月甚至数年 决策具有长期连续性 今日决策直接影响明日结果 [16][20][24] - 核心挑战在于长上下文处理能力 模型需回顾数月销售数据来制定采购策略 [17][18][24] - 测试由Andon Labs设计 基于真实商业逻辑 非传统问答式AI任务 [14][16][20] 模型稳定性表现差异 - Claude 3.5 Sonnet平均净资产2217.93美元 但最低净资产仅476美元 波动性极高 [2][24][39] - 部分模型会出现异常故障 包括误解送货时间表 忘记过去订单或陷入崩溃循环 [24][30][31] - Gemini 2.0 Pro表现最弱 平均净资产仅273.70美元 运行周期完成度15.8% [5][24][36] - 最佳模型仍存在偶然失败 表明长时间范围推理能力存在不足 [24][30][31] 行业技术发展动向 - Vending Bench被视为评估AI长期商业任务能力的新基准 [14][28][32] - 马斯克表示Grok 5可能展现AGI特性 [33][35][36] - Claude 3.5 Sonnet在工具利用和任务执行方面优于o3-mini 展现更强规划能力 [39] - 测试结果表明AI在长时间跨度内的安全性和可靠性仍是关键挑战 [29][30][31]
马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
搜狐财经· 2025-08-22 09:56
Vending Bench基准测试结果 - Grok 4在自动售货机经营模拟中表现最优 平均净资产达4694.15美元 最低净资产为3333.28美元 [2][3][35] - GPT-5 New位列第二 平均净资产3578.90美元 最低净资产2690.29美元 [2][3][35] - Claude Opus 4排名第三 平均净资产2077.41美元 最低净资产1249.56美元 [2][3][35] 模型销售能力对比 - Grok 4平均销售4569件商品 最低销售3515件 销量显著高于GPT-5 New的2471件平均销量 [2][3][35] - GPT-5 New虽销量较低 但保持363天持续销售 稳定性达100% [2][3][35] - 人类基准表现平均销售344件商品 净资产仅844.05美元 [2][3][35] 技术挑战与模型特性 - 测试要求模型处理长期商业决策 需记忆数月销售数据并预测季节性需求 [17][19] - 部分模型出现异常行为 包括误解送货时间表 忘记过去订单或陷入崩溃循环 [25] - Claude 3.5 Sonnet展现较强工具利用能力 资产积累显著优于o3-mini模型 [39] 行业意义与应用前景 - Vending Bench通过真实商业场景测试AI长期决策能力 突破传统问答式测试局限 [15][30] - 实验结果揭示当前模型在长周期推理中的稳定性缺陷 对实际部署具重要参考价值 [25][30] - 该测试被视为评估AI向AGI演进的新路径 涉及长期安全性与可靠性验证 [31][40]