Claude Opus 4.1

搜索文档
微软宣布接入Claude模型
环球网· 2025-09-28 08:55
另外,Microsoft 365 Copilot 将继续由 OpenAI 的最新模型 GPT-5 提供支持,现在用户也可以灵活地使 用 Anthropic 的 Claude Sonnet 4 和 Claude Opus 4.1 模型。(青云) 【环球网科技综合报道】9月28日消息,微软官方宣布,Microsoft 365 Copilot 将接入 Anthropic 的 Claude 模型。 来源:环球网 ...
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
机器之心· 2025-09-27 06:13
GDPval评估方法 - OpenAI推出名为GDPval的新评估方法 用于跟踪模型在具有经济价值的现实世界任务上的表现[1] - 该方法以国内生产总值(GDP)作为关键经济指标 从对GDP贡献最大的行业中的关键职业中提取任务[3] - GDPval是首个版本 涵盖从对美国GDP贡献最大的9个行业中甄选出的44个职业 如软件开发人员 律师 注册护士和机械工程师等[16] 评估结果与模型表现 - 在GDPval黄金数据集的220项任务中 前沿模型已接近行业专家的工作质量[3][4] - Claude Opus 4.1是该数据集中表现最佳的模型 在49%的任务中被评为优于或与行业专家相当[9] - GPT-5在准确性方面更为出色 从2024年春季的GPT-4o到2025年夏季的GPT-5 性能提高了一倍多[9][10] - 前沿模型完成GDPval任务的速度比行业专家快约100倍 成本也低100倍[13] - AI在政府部门 零售和批发上的能力已经达到或超越人类水平[7] 评估体系设计 - GDPval全套评估包含1320项专业任务 黄金开源评估包含220项任务[18] - 每项任务均由平均拥有超过14年相关领域从业经验的专业人士设计并审核[18] - 每项任务基于真实工作成果 如法律摘要 工程蓝图 客户支持对话或护理计划 经过至少5轮审查[18] - 任务附带参考文件和上下文 预期交付成果涵盖文档 幻灯片 图表 电子表格和多媒体[19] 评估方法 - 通过专家评分员在盲评下比较AI和人类的交付成果 给出"更好" "相当"或"更差"的排名[21] - 任务编写者制定详细评分标准确保一致性和透明度[21] - OpenAI开发了"自动评分员"作为辅助工具 但目前可靠性不如专家评分员[21] 未来发展与影响 - OpenAI计划继续扩展GDPval 涵盖更多职业 行业和任务类型 提高交互性[22] - 模型能够比专家更快 更低成本地完成重复性 明确规定的任务[21] - 人工智能可以处理日常任务 让人们将更多时间投入到创造性和判断性较强的工作中[21] - 人工智能补充工人可以转化为显著的经济增长[21]
Copilot 用户狂欢!微软宣布引入 Claude 模型,OpenAI 不再被“独宠”
AI前线· 2025-09-26 12:07
整理 | 华卫 如今,微软正深化与 OpenAI 主要竞争对手 Anthropic 公司的新合作关系。从本周三起,这家软件巨 头将把 Anthropic 的 AI 模型整合到其 AI 助手 Copilot 中,而此前 Copilot 的核心技术支持主要来自 OpenAI。9 月 25 日,微软 CEO Satya Nadella 在 X 平台亲自宣布了这一消息。 这一合作协议标志着微软与昔日独家合作伙伴(指 OpenAI)之间"逐步解绑"的又一重要举措。此前 几周,微软刚签署另一项协议,宣布将 Anthropic 的 AI 技术应用于 Office 365 系列应用(如 Word、Excel 和 Outlook)。 此次整合后,Copilot 的商业用户在处理特定任务(如复杂调研、定制化 AI 工具开发、企业级智能体 构建等)时,可在两种技术方案间自主选择:一是 OpenAI 的深度推理模型,二是 Anthropic 的 Claude Opus 4.1 与 Claude Sonnet 4 模型。 其中,Claude Opus 4.1 主打复杂推理、代码编写及深度架构规划能力;而 Claude Sonnet 4 ...
OpenAI 3万亿美元测试,AI首战44个行业人类专家
36氪· 2025-09-26 09:47
AI下半场,AGI已成过去式,ASI正引领新智能革命!OpenAI推出的GDPval评估体系,通过真实工作任务审视大模型潜力,揭示AI如何从实验 室走向3万亿经济战场,助力人类从日常琐事中解放,拥抱创造性未来。 AI下半场真来了! AGI都过时了,现在AI业内讨论的是超级人工智能ASI: AGI能把人类从80%的日常工作中解放出来; 而ASI则全面超越人类智能的系统。 刚刚,在a16z访谈中,OpenAI首席科学家Jakub Pachocki,透露OpenAI的研究路线图的下一步是推理,下一个5年的重点目标是打造自动化研究人员: AI自动发现新想法,自动化研究人员的工作,自动化机器学习研究。 但理解AI潜力最清晰的方式,并不是预测未来,而是看看模型现在已经能做什么。 历史经验告诉我们,从互联网到智能手机,每一项重大技术从诞生到普及都需要十年以上。 OpenAI希望以更透明的方式,展示大模型如何真正服务于现实世界。 因此,他们推出了一项全新的评估体系GDPval,在有据可依的基础上审视AI进步轨迹,而不是凭空臆测。 论文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a ...
2025人工智能产业十大关键词
机器人圈· 2025-09-26 09:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 04:56
新基准GDPval的提出与设计 - 提出GDPval基准用于衡量AI模型在真实世界具有经济价值任务上的表现[1] - 基准覆盖对美国GDP贡献最大的9个行业中的44种职业 这些职业年均创收合计达3万亿美元[2] - 任务基于平均拥有14年经验的行业专家的代表性工作设计而成[2][18] 测试方法与数据构建 - 筛选对美国GDP贡献超5%的9个行业 再挑选各行业贡献工资总额最多且以数字任务为主的职业[14] - 通过GPT-4o对任务按数字/非数字分类 若60%以上为数字任务则纳入[14] - 最终筛选44个职业 年创收合计3万亿美元[15] - 每个GDPval任务包含需求和交付成果两部分 行业专家对照O*NET任务分类设计[20] - 通过平均完成时间×时薪计算每个任务的经济价值[23] - 最终包含1320项任务 每个任务获得至少3次平均5次的人工审核[23] 模型性能评估结果 - Claude Opus 4.1成为表现最佳模型 47.6%产出被评定媲美人类专家成果[4] - GPT-5以38.8%的成绩位居第二[6] - GPT-4o与人类相比只有12.4%获胜或平局[6] - OpenAI各代模型在GDPval上的表现大致呈线性提升[32] - GPT-5在准确性方面优势显著 Claude在文件处理上表现更佳[33] 性能提升方法与经济价值 - 增加推理努力 提供更多任务背景 优化提示词与智能体辅助框架能显著提升模型性能[38] - 将AI模型与人类监督结合 在完成任务时有望比单独人类专家更经济高效[35] - 多种使用模式都能帮人类节省成本和时间[36] 开源与自动评分 - 开源包含220项任务的优质子集[9] - 开发实验性自动评分器 与人类专家评分的一致性达66% 仅比人类间评分一致性低5%[27] 局限性与发展计划 - 数据集规模有限仅44种职业 聚焦计算机上完成的知识工作[40] - 任务为精准指定的一次性任务 缺乏交互性 自动评分器存在不足 评估成本高[40] - 计划在未来迭代版本中拓展覆盖范围 增强真实性与交互性 纳入更多场景细节[41]
AI大模型可媲美人类专家,AI人工智能ETF(512930)今日回调蓄势
新浪财经· 2025-09-26 02:24
9月25日,OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司 的Claude Opus 4.1"已经接近行业专家的工作质量"。 截至2025年9月26日 09:58,中证人工智能主题指数(930713)下跌1.58%。成分股方面涨跌互现,晶晨股份(688099)领涨3.75%,豪威集团(603501)上涨2.97%, 复旦微电(688385)上涨2.07%;三七互娱(002555)领跌4.72%,芯原股份(688521)下跌4.61%,昆仑万维(300418)下跌4.51%。AI人工智能ETF(512930)下跌 1.65%,最新报价2.2元。 数据显示,截至2025年8月29日,中证人工智能主题指数(930713)前十大权重股分别为新易盛(300502)、中际旭创(300308)、寒武纪(688256)、澜起科技 (688008)、中科曙光(603019)、科大讯飞(002230)、豪威集团(603501)、海康威视(002415)、金山办公(688111)、浪潮信息(000977),前十大权重股合计占 ...
OpenAI测试称GPT-5媲美专家
36氪· 2025-09-26 01:27
OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1"已经接近行业专 家的工作质量"。 当地时间周四(9月25日),人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI 模型与各行业专业人士的工作表现。 这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多 近。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。 OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1"已经接近行业专家的工 作质量"。 例如,某项任务要求投行人员为"最后一公里配送行业"制作竞争格局分析,并与AI生成的报 告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的"胜率"进行平均计 算。 结果显示,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。 而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的 模型。 OpenAI对此 ...
美防长下令数百将领紧急集结 OpenAI测试称GPT-5媲美专家|环球市场
搜狐财经· 2025-09-26 00:09
隔夜股市 | 标的 | 周四涨跌 | | --- | --- | | 上海军学 | -0.01% | | 深证成指 | 0.67% | | 恒生指数 | -0.13% | | 目经225指数 | 0.27% | | EFEKOSPI | -0.03% | | 德国DAX30 | -0.56% | | 法国CAC40 | -0.41% | | 英国官时100 | -0.39% | | BAND FRE 50 | -0.36% | | 纳斯达克指数 | -0.50% | | 标普500指数 | -0.50% | | 道琼斯指数 | -0.38% | 全球主要指数周四普遍下跌,美股主要股指连续第三个交易日集体收跌。 商品市场 | 标的 | 周四涨跌 | | --- | --- | | NYMEX WTI原油 | 0.02% | | ICE布伦特原油 | 0.16% | | COMEX黄金 | 0.33% | | COMEX自银 | 2.89% | | NYMEX把金 | 3.05% | | NYMEX天然气 | 3.13% | | LME铜 | -0.59% | | LME铝 | 0.47% | | LME锌 | ...
美股三大指数连跌三日,科技股承压甲骨文跌超5%,中概股多数上涨
凤凰网· 2025-09-25 22:20
美东时间周四,三大股指连续第三个交易日集体下跌,此前公布的一系列政府数据和企业消息对经济前景释放出喜忧参半的信号。 (三大指数日内走势图,来源:TradingView) 截至收盘,道琼斯指数跌0.38%,报45,947.32点;标普500指数跌0.50%,报6,604.72点;纳斯达克指数跌0.50%,报22,384.70点。 盘前公布的数据显示,美国二季度GDP增速的最终值为3.8%,高于此前3.3%的预估。 根据最新的初请失业金数据,美国新增申领失业救济人数下降。而8月耐用品订单在飞机订单激增的带动下也出现反弹。 这三项数据共同支撑了这样一种观点:美国经济依然稳健,并有望再次升温——这一看法推动美股在过去几周屡创新高。 但交易员指出,市场对经济强劲的预期已基本消化,而周四市场也出现了一些与牛市叙事相背的信号。 与此同时,美债收益率走高进一步打压了科技股,促使投资者减仓规避风险。10年期美债收益率触及4.2%。 甲骨文成为拖累标普500指数的主要因素,该股下跌超5%,连续第三个交易日走低。市场对人工智能(AI)交易热潮的持续性仍心存疑虑。截至周四收盘, 甲骨文较近期高点已下跌近16%。 热门股表现 大型科技 ...