Workflow
Gemini 2.5 Pro
icon
搜索文档
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
AI科技大本营· 2025-09-30 10:24
整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人"小卷"一波。这不,继昨晚 DeepSeek 发布 DeepSeek V3.2-Exp 之后, Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本,号称"世界上最好的编码模型"。 最强的编码模型 Claude Sonnet 4.5 来了:可自主持续运行 30 小时 根据官方测试结果显示,Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。 同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远 超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。 实际测试中, Claude Sonnet 4.5 能在复杂的多步骤任务上坚持专注 超过 30 个小时。 相比此前 Opus 4 运行 7 小时左右的时间, Cla ...
深夜炸场,Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
36氪· 2025-09-30 08:43
双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人"小卷"一波。这不,继昨晚 DeepSeek 发布 DeepSeek V3.2-Exp之后,Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本,号称"世界上最好的编码模型"。 最强的编码模型 Claude Sonnet 4.5 来了:可自主持续运行 30 小时 根据官方测试结果显示,Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。 同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵 的 GPT-5、Gemini 2.5 Pro 等竞品模型。 | | Claude | Claude | Claude | GPT-5 | Gemini | | --- | --- | --- | --- | --- | --- | | | Sonnet 4.5 | Opus 4.1 | ...
Claude Sonnet 4.5来了!能连续编程30多小时、1.1万行代码
机器之心· 2025-09-30 00:27
| | | | Claude Sonnet 4.5 | | | | --- | --- | --- | --- | --- | --- | | | Claude | Claude | Claude | GPT-5 | Gemini | | | Sonnet 4.5 | Opus 4.1 | Sonnet 4 | | 2.5 Pro | | | 77.2% | 74.5% | 72.7% | 72.8% | | | Agentic coding SWE-bench Verified | 82.0% | 79.4% | 80.2% | GPT-5 | 67.2% | | | with parallel test-time | with parallel test-time | with parallel test-time | 74.5% | | | | compute | compute | compute | GPT-5-Codex | | | Agentic terminal coding Terminal-Bench | 50.0% | 46.5% | 36.4% | 43.8% | 25.3% | | ...
HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
36氪· 2025-09-28 12:05
在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能 体系统实现了历史性突破—— 下面详细展开—— 技术创新:三大支柱撑起60分突破 当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演。 当大模型在MMLU、GPQA等传统基准上纷纷"卷到90分"时,这些测试逐渐失去了区分力。为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与 Scale AI联合推出了"人类最后的考试"(Humanity's Last Exam,HLE)—— 最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建。 涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼。 而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到4 ...
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
量子位· 2025-09-28 11:54
Eigen-1团队 投稿 量子位 | 公众号 QbitAI 在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的 Eigen-1多智能体系统 实现了历史性突破—— 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关。这一成绩远超谷歌 Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。 相比原始HLE数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估AI科学推理能力最可信 的基准。 最令人振奋的是,这一成就并非依赖闭源超大模型,而是 完全基于开源的DeepSeek V3.1搭建 。 在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创 新机制,实现了质的飞跃。 下面详细展开—— ...
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
机器之心· 2025-09-27 06:13
GDPval评估方法 - OpenAI推出名为GDPval的新评估方法 用于跟踪模型在具有经济价值的现实世界任务上的表现[1] - 该方法以国内生产总值(GDP)作为关键经济指标 从对GDP贡献最大的行业中的关键职业中提取任务[3] - GDPval是首个版本 涵盖从对美国GDP贡献最大的9个行业中甄选出的44个职业 如软件开发人员 律师 注册护士和机械工程师等[16] 评估结果与模型表现 - 在GDPval黄金数据集的220项任务中 前沿模型已接近行业专家的工作质量[3][4] - Claude Opus 4.1是该数据集中表现最佳的模型 在49%的任务中被评为优于或与行业专家相当[9] - GPT-5在准确性方面更为出色 从2024年春季的GPT-4o到2025年夏季的GPT-5 性能提高了一倍多[9][10] - 前沿模型完成GDPval任务的速度比行业专家快约100倍 成本也低100倍[13] - AI在政府部门 零售和批发上的能力已经达到或超越人类水平[7] 评估体系设计 - GDPval全套评估包含1320项专业任务 黄金开源评估包含220项任务[18] - 每项任务均由平均拥有超过14年相关领域从业经验的专业人士设计并审核[18] - 每项任务基于真实工作成果 如法律摘要 工程蓝图 客户支持对话或护理计划 经过至少5轮审查[18] - 任务附带参考文件和上下文 预期交付成果涵盖文档 幻灯片 图表 电子表格和多媒体[19] 评估方法 - 通过专家评分员在盲评下比较AI和人类的交付成果 给出"更好" "相当"或"更差"的排名[21] - 任务编写者制定详细评分标准确保一致性和透明度[21] - OpenAI开发了"自动评分员"作为辅助工具 但目前可靠性不如专家评分员[21] 未来发展与影响 - OpenAI计划继续扩展GDPval 涵盖更多职业 行业和任务类型 提高交互性[22] - 模型能够比专家更快 更低成本地完成重复性 明确规定的任务[21] - 人工智能可以处理日常任务 让人们将更多时间投入到创造性和判断性较强的工作中[21] - 人工智能补充工人可以转化为显著的经济增长[21]
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 04:56
新基准GDPval的提出与设计 - 提出GDPval基准用于衡量AI模型在真实世界具有经济价值任务上的表现[1] - 基准覆盖对美国GDP贡献最大的9个行业中的44种职业 这些职业年均创收合计达3万亿美元[2] - 任务基于平均拥有14年经验的行业专家的代表性工作设计而成[2][18] 测试方法与数据构建 - 筛选对美国GDP贡献超5%的9个行业 再挑选各行业贡献工资总额最多且以数字任务为主的职业[14] - 通过GPT-4o对任务按数字/非数字分类 若60%以上为数字任务则纳入[14] - 最终筛选44个职业 年创收合计3万亿美元[15] - 每个GDPval任务包含需求和交付成果两部分 行业专家对照O*NET任务分类设计[20] - 通过平均完成时间×时薪计算每个任务的经济价值[23] - 最终包含1320项任务 每个任务获得至少3次平均5次的人工审核[23] 模型性能评估结果 - Claude Opus 4.1成为表现最佳模型 47.6%产出被评定媲美人类专家成果[4] - GPT-5以38.8%的成绩位居第二[6] - GPT-4o与人类相比只有12.4%获胜或平局[6] - OpenAI各代模型在GDPval上的表现大致呈线性提升[32] - GPT-5在准确性方面优势显著 Claude在文件处理上表现更佳[33] 性能提升方法与经济价值 - 增加推理努力 提供更多任务背景 优化提示词与智能体辅助框架能显著提升模型性能[38] - 将AI模型与人类监督结合 在完成任务时有望比单独人类专家更经济高效[35] - 多种使用模式都能帮人类节省成本和时间[36] 开源与自动评分 - 开源包含220项任务的优质子集[9] - 开发实验性自动评分器 与人类专家评分的一致性达66% 仅比人类间评分一致性低5%[27] 局限性与发展计划 - 数据集规模有限仅44种职业 聚焦计算机上完成的知识工作[40] - 任务为精准指定的一次性任务 缺乏交互性 自动评分器存在不足 评估成本高[40] - 计划在未来迭代版本中拓展覆盖范围 增强真实性与交互性 纳入更多场景细节[41]
从应用层到数据层,谷歌三线出击,发动了一场立体AI战争
36氪· 2025-09-25 10:00
OpenAI 的 ChatGPT Go 在印度实现付费用户翻倍,无疑刺痛了 Google 的神经。但 Google 的反击更为老辣:在 40 余国推出月费约 5 美元的 AI Plus 套 餐,这不是简单的价格战,而是一场针对"20 美元敏感区间"的精准下沉。 定价心理学:在埃及、越南等地,5 美元仅相当于当地日均工资的 1/10。这种定价策略本质是对支付能力的极限试探,旨在用最低门槛完成用户习惯 的"原始积累"。 9 月 24 日,Google 发动了一场协同精准的 AI 闪电战。这并非零散的产品更新,而是一次覆盖 C 端市场、垂直场景与 B 端基建的立体化突击,其战略纵 深远超外界想象。 5 美元不是降价,是"算力殖民" 技术价值锚点:套餐的真正杀手锏是 Gemini 2.5 Pro 的百万级 token 上下文窗口。能处理 45 分钟视频或 8 小时音频的能力,将其与仅提升使用额度的 ChatGPT Go 区隔开来,包装成一个"多模态生产力套件"。 战略迂回:刻意避开 OpenAI 重兵布防的印度,转而深耕印尼(移动互联网渗透率 73%)、尼日利亚等市场,是一次典型的错位竞争,意在收割被对手教 育过但尚 ...
阿里开源Qwen3-VL系列旗舰模型 包含两个版本
第一财经· 2025-09-25 06:08
据通义千问Qwen公众号消息,阿里推出全新升级的Qwen3-VL系列,这是迄今为止Qwen系列中最强大 的视觉理解模型。此次率先开源的是该系列的旗舰模型——Qwen3-VL-235B-A22B,同时包含Instruct与 Thinking两个版本。据介绍,Instruct版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro;而Thinking版本则在众多多模态推理的评测基准下取得了SOTA的表现。 (文章来源:第一财经) ...
短短几分钟,AI轻松通过了CFA三级考试
华尔街见闻· 2025-09-25 04:09
最新研究显示, 多个AI模型已能在几分钟内通过享有盛誉的CFA三级考试,而人类通常需要数年时间和约1000小时学习才能完成。 AI模型全面突破CFA三级考试壁垒 两年前的研究曾发现,AI模型能够通过CFA一级和二级考试,但在三级考试的论述题环节遭遇重大障碍。 最新研究证实,AI技术的快速发展已经克服了这一关键瓶颈。 纽约大学斯特恩商学院和AI财富管理平台GoodFin的研究人员测试了23个大型语言模型,发现包括 o4-mini、Gemini 2.5 Pro和Claude Opus在内的前沿推理 模型能够成功通过CFA三级模拟考试。 | PROVIDER | Model 1↓ | Overall ↓ | MCQ | ESSAY (1) | Reasoning | Context 11 | | --- | --- | --- | --- | --- | --- | --- | | G | Gemini 2.5 Pro | 2.10 | 77% | 3.19 | V | 1048576 | | G | 04-mini | 2.10 | 68% | 3.28 | V | 200000 | | Al | Claude ...