GDPval

搜索文档
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
机器之心· 2025-09-27 06:13
GDPval评估方法 - OpenAI推出名为GDPval的新评估方法 用于跟踪模型在具有经济价值的现实世界任务上的表现[1] - 该方法以国内生产总值(GDP)作为关键经济指标 从对GDP贡献最大的行业中的关键职业中提取任务[3] - GDPval是首个版本 涵盖从对美国GDP贡献最大的9个行业中甄选出的44个职业 如软件开发人员 律师 注册护士和机械工程师等[16] 评估结果与模型表现 - 在GDPval黄金数据集的220项任务中 前沿模型已接近行业专家的工作质量[3][4] - Claude Opus 4.1是该数据集中表现最佳的模型 在49%的任务中被评为优于或与行业专家相当[9] - GPT-5在准确性方面更为出色 从2024年春季的GPT-4o到2025年夏季的GPT-5 性能提高了一倍多[9][10] - 前沿模型完成GDPval任务的速度比行业专家快约100倍 成本也低100倍[13] - AI在政府部门 零售和批发上的能力已经达到或超越人类水平[7] 评估体系设计 - GDPval全套评估包含1320项专业任务 黄金开源评估包含220项任务[18] - 每项任务均由平均拥有超过14年相关领域从业经验的专业人士设计并审核[18] - 每项任务基于真实工作成果 如法律摘要 工程蓝图 客户支持对话或护理计划 经过至少5轮审查[18] - 任务附带参考文件和上下文 预期交付成果涵盖文档 幻灯片 图表 电子表格和多媒体[19] 评估方法 - 通过专家评分员在盲评下比较AI和人类的交付成果 给出"更好" "相当"或"更差"的排名[21] - 任务编写者制定详细评分标准确保一致性和透明度[21] - OpenAI开发了"自动评分员"作为辅助工具 但目前可靠性不如专家评分员[21] 未来发展与影响 - OpenAI计划继续扩展GDPval 涵盖更多职业 行业和任务类型 提高交互性[22] - 模型能够比专家更快 更低成本地完成重复性 明确规定的任务[21] - 人工智能可以处理日常任务 让人们将更多时间投入到创造性和判断性较强的工作中[21] - 人工智能补充工人可以转化为显著的经济增长[21]
AI Isn't Taking Your Job Yet—But It Might Soon, OpenAI Data Suggests
Yahoo Finance· 2025-09-26 15:20
OpenAI unveiled GDPval on Thursday—a benchmark that tries to assess qualitatively whether AI can do your actual job. These are not hypothetical exam questions, but real deliverables: legal briefs, engineering blueprints, nursing care plans, financial reports—the kind of work, that is, that pays mortgages. The researchers deliberately focused on occupations where at least 60% of tasks are computer-based—roles they describe as “predominantly digital.” That scope covers professional services such as softwar ...