IMO金牌模型
搜索文档
OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
创业邦· 2025-08-12 03:33
OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克(IOI)中取得金牌级别成绩,在AI参赛者中排名第一 [2] - 公司模型得分533.29,在所有参赛选手中排名第6,仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则,包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型,未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI,未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术,仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现,公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳,不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩,显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断,期待公司推出采用相同技术的公开版本 [18]
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
36氪· 2025-08-01 12:06
模型能力突破 - 新一代大模型在遇到知识盲区时能够承认不确定或无法回答,显著减少了隐藏错误 [1][3] - 模型从生成看似完美但实则错误的幻觉式答案,转向具备自我意识、更加可靠的回答 [3][5] - 尽管在国际数学奥林匹克竞赛第6题上得分为零,但模型避免产生幻觉的行为被视为积极进展 [1][10] 团队与研发背景 - 攻克国际数学奥林匹克竞赛难题的核心团队仅由三名研究人员组成 [12] - 该团队仅用两个月时间就实现了获得国际数学奥林匹克竞赛金牌的目标 [11] - 研究人员在公司内部拥有很大的自主权去从事他们认为有影响力的研究 [11] - 团队优先考虑开发通用技术,而非专门用于数学竞赛的系统 [11] 具体技术挑战 - 国际数学奥林匹克竞赛第6题是一个涉及2025x2025网格的复杂数学问题,要求计算最少需要的矩形图块数量 [9] - 该问题导致大模型全军覆没,公司投入了海量算力但最终模型回应无法回答 [7][10]
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
量子位· 2025-08-01 09:05
大模型能力突破 - 模型在IMO第6题上得零分,但展现了“高智商的诚实”,能在缺乏有效证据时表示不确定[2][3] - 与过去产生“看起来完美,实则错误”的幻觉式答案不同,新一代大模型开始学会承认自己不会[6] - 模型从胡编乱造的幻觉式回答转向更可靠且具有“自我意识”的新阶段,能帮助其面对困难问题时承认无能为力而非生成错误方案[7][17] 团队成就与研发细节 - 三人团队仅用两个月时间就完成了获得IMO金牌的目标,远超最初认为2025年不太可能实现的预期[5][18][19][20] - 团队真正优先考虑通用技术,而非专门开发用于数学竞赛的系统[22] - 公司研究人员拥有很大自主权去做他们认为有影响力的研究[21] 核心团队成员背景 - Alex Wei本硕就读于哈佛大学,在加州大学伯克利分校获计算机科学博士学位,曾任职于谷歌、微软和Meta,并于2024年1月加入公司,曾是FAIR团队成员并参与开发人类级人工智能CICERO[23][25] - Sheryl Hsu毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入公司[23][27] - Noam Brown本科就读于罗格斯新泽西州立大学,在卡内基·梅隆大学获硕士和博士学位,曾任职于DeepMind和Meta,于2023年6月加入公司[23][29]