ICLR 2026审稿中AI使用情况 - 卡内基梅隆大学教授使用EditLens对ICLR 2026的75800条审稿意见进行分析,发现21%被判定为完全由AI生成,35%为不同程度由AI修改,仅43%为纯人类撰写[1] - 完全由AI生成的审稿意见平均评分为4.43分,平均长度为3687个字符,而纯人类撰写的审稿意见平均评分为4.13分,平均长度为2917个字符[2] - 分析指出,许多作者可能面对的是“特别健谈、格外慷慨打分”的AI审稿人[3] 学术会议背景与AI检测工具 - ICLR是机器学习领域三大顶会之一,ICLR 2026投稿量接近两万篇,审稿人压力巨大[4] - 用于检测的EditLens工具是ICLR 2026的一篇投稿论文,其模型宣称能高准确率区分人类和AI文本,开发公司Pangram Labs声称其假阳性率极低[4][5] - 此次分析由一家AI检测器公司使用自家模型完成,结论是AI已大举进入学术评审核心环节[5] 会议政策与实际执行的反差 - ICLR 2026在2025年8月颁布了严格的大型语言模型使用政策,要求必须披露AI使用情况并明确人为责任,违规者可能被直接拒稿[6] - 然而,在政策颁布后,第三方检测仍发现21%的审稿完全由AI生成,显示出政策与实际执行之间存在巨大反差[8] - 会议官方在舆情爆发后仅作出简短回应[8] AI审稿对学术生态的影响 - ICLR 2026投稿量增至1.9万多篇,但平均得分从去年的5.12降至4.20,并出现极端0分情况,有审稿意见甚至使用了“精神病”等攻击性词汇[8] - DeepMind研究员指出同行评审像“随机数生成器”,同一论文换组审稿有半数概率被拒,结合21%的AI审稿占比,使得评审结果的随机性和不可预测性进一步增加[10] - 审稿人与作者之间出现相互猜疑,形成“狼人杀”般的局面,双方都怀疑对方使用了AI[18] 其他学术机构对AI审稿的应对 - 计算机视觉顶会CVPR 2025采取零容忍政策,明确规定大模型不得用于撰写评审[11] - NeurIPS 2025采取谨慎开放态度,允许在论文写作中使用LLM但要求进行说明,并强调不得直接使用未经核查的模型生成引用[12] - 《自然》报道显示,美国癌症研究协会在引入检测工具后,疑似AI撰写的评审比例下降了一半,但论文中未声明使用AI的比例仍高[14] AI在学术评审中的替代角色探索 - ICLR 2025曾试验“评审反馈智能体”,AI不直接写评审而是提供修改建议,26.6%的审稿人根据建议修改了评审,修改后版本在89%的对比中更受人类偏好[15][17] - 实验表明AI可作为“评审教练”而非“影子审稿人”,但论文最终录用率并未因此明显提升[17] - Gen-Review数据集分析发现,AI生成的评审在打分上存在偏向,且与最终录用结果的相关性有限[18]
AI写论文,AI评阅,AI顶会ICLR完成「AI闭环」,1/5审稿意见纯AI给出
36氪·2025-11-17 06:10