苹果AI论文太坑了！用GPT写的GT，导致北京程序员通宵加班

事件概述 - 苹果公司在arXiv上发布的一篇AI论文因存在严重质量问题，最终被撤稿[1][6] - 该论文提出的视觉推理任务诊断基准声称其数据经过人工精心把控，且小模型表现全面超越GPT-5[3] - 阶跃星辰的研究员在适配该基准时，发现其存在官方代码bug和高达约30%的标注真值错误率[3][21] - 研究员通过公开评论促使论文作者撤稿并删除GitHub仓库[31] 基准质量问题 - 官方代码存在严重bug，在请求视觉语言模型时仅使用图片路径字符串而未包含图片本身[16] - 修复该bug后，模型在基准上的表现点数进一步下降，结果更为离谱[17] - 对前20道错题的抽查显示，其中6道题明确属于标注真值错误，错误率估算高达30%[19][21] - 标注真值错误风格显示，问题可能源于模型自动生成标注真值后质检严重不足，导致包含大量幻觉[19] 学术评审与反馈过程 - 论文提交至ICLR 2026，但其5条评审意见中均未发现标注真值的质量问题或论文示例中的幻觉错误[25] - 研究员最初通过GitHub私下反馈问题，但作者在简单回复后直接关闭了issue[22][23] - 在私下反馈未果后，研究员撰写详尽公开评论，列举标注真值问题实例以警示学术社区[26][27] - 公开评论发表后第二天，论文作者宣布撤稿并删除相关代码仓库[31] 作者回应与行业影响 - 论文作者承认数据审核不周，未认真审核关键部分，导致GPT自动转换解题思路时出现幻觉[37][38] - 作者解释论文中的推理示例代码仅为虚拟示例，并非正式演示代码[41] - 作者对直接关闭issue的行为表示抱歉，并承诺未来会保持issue开放直至问题全部解决[44][45] - 该事件引发社区讨论，有观点认为大模型时代的学术研究质量面临挑战[7]