EditLens
搜索文档
离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了
具身智能之心· 2025-11-18 00:46
ICLR 2026审稿中AI使用情况统计分析 - 对ICLR 2026的75,800篇论文审稿意见的系统性统计显示,AI参与程度极高,完全由AI生成的审稿意见占21%,重度AI编辑占4%,中度AI编辑占9%,轻度AI编辑占22%,完全由人类撰写的仅占43% [2] - AI生成的审稿意见呈现出明显特征,其篇幅比完全由人类撰写的评审长了26%,并且更可能给出高分,平均得分高出0.3分 [3][11] - 用于检测的EditLens模型在验证准确性时假阳性率极低,轻度AI编辑假阳性率为千分之一,中度AI编辑为五千分之一,重度AI编辑为万分之一,完全由AI生成的未出现假阳性 [21] 投稿论文中AI使用与评分相关性 - 对投稿论文的分析发现,39%的论文以某种方式使用了AI作为写作助手 [8] - 论文中的AI使用程度与较低的评分呈负相关,AI内容占比90-100%的199篇投稿平均得分仅为2.9分,而AI内容占比0-10%的11,864篇投稿平均得分高达4.36分 [8] - 随着论文中AI内容占比的增加,平均评分呈现下降趋势,从0-10%的4.36分逐步降至90-100%的2.90分 [8] SafeFlowMatcher机器人路径规划框架 - 该框架创新性地结合了流匹配和控制屏障函数,通过预测-校正两阶段积分器实现实时高效且具备安全认证的路径规划 [12] - 核心优势在于将初始路径生成与安全约束执行解耦,有效避免了分布漂移和局部陷阱问题,在迷宫导航和高维运动任务中表现优于基于扩散和EM的基线方法 [12][13] - 框架具备严格的数学证明,确保了鲁棒安全集的前向不变性及有限时间收敛性,其效率高,仅需少量函数评估即可实现高性能 [14][15] 行业及社区动态 - ICLR 2026程序委员会已发布官方回应,承认存在低质量和LLM生成的评审,并建议作者将此类问题反馈给领域主席 [24][25] - 社区内出现了针对AI审稿人的处理建议,例如移除不良评审并自动认定相关审稿人未履行职责,进而自动拒绝其提交的论文 [26] - 存在专注于具身智能领域的开发者社区和知识星球,提供学习路线、开源项目、数据集等资源,并建有近60个技术交流群 [29][31][34]
AI写论文,AI评阅,AI顶会ICLR完成「AI闭环」,1/5审稿意见纯AI给出
36氪· 2025-11-17 06:10
ICLR 2026审稿中AI使用情况 - 卡内基梅隆大学教授使用EditLens对ICLR 2026的75800条审稿意见进行分析,发现21%被判定为完全由AI生成,35%为不同程度由AI修改,仅43%为纯人类撰写[1] - 完全由AI生成的审稿意见平均评分为4.43分,平均长度为3687个字符,而纯人类撰写的审稿意见平均评分为4.13分,平均长度为2917个字符[2] - 分析指出,许多作者可能面对的是“特别健谈、格外慷慨打分”的AI审稿人[3] 学术会议背景与AI检测工具 - ICLR是机器学习领域三大顶会之一,ICLR 2026投稿量接近两万篇,审稿人压力巨大[4] - 用于检测的EditLens工具是ICLR 2026的一篇投稿论文,其模型宣称能高准确率区分人类和AI文本,开发公司Pangram Labs声称其假阳性率极低[4][5] - 此次分析由一家AI检测器公司使用自家模型完成,结论是AI已大举进入学术评审核心环节[5] 会议政策与实际执行的反差 - ICLR 2026在2025年8月颁布了严格的大型语言模型使用政策,要求必须披露AI使用情况并明确人为责任,违规者可能被直接拒稿[6] - 然而,在政策颁布后,第三方检测仍发现21%的审稿完全由AI生成,显示出政策与实际执行之间存在巨大反差[8] - 会议官方在舆情爆发后仅作出简短回应[8] AI审稿对学术生态的影响 - ICLR 2026投稿量增至1.9万多篇,但平均得分从去年的5.12降至4.20,并出现极端0分情况,有审稿意见甚至使用了“精神病”等攻击性词汇[8] - DeepMind研究员指出同行评审像“随机数生成器”,同一论文换组审稿有半数概率被拒,结合21%的AI审稿占比,使得评审结果的随机性和不可预测性进一步增加[10] - 审稿人与作者之间出现相互猜疑,形成“狼人杀”般的局面,双方都怀疑对方使用了AI[18] 其他学术机构对AI审稿的应对 - 计算机视觉顶会CVPR 2025采取零容忍政策,明确规定大模型不得用于撰写评审[11] - NeurIPS 2025采取谨慎开放态度,允许在论文写作中使用LLM但要求进行说明,并强调不得直接使用未经核查的模型生成引用[12] - 《自然》报道显示,美国癌症研究协会在引入检测工具后,疑似AI撰写的评审比例下降了一半,但论文中未声明使用AI的比例仍高[14] AI在学术评审中的替代角色探索 - ICLR 2025曾试验“评审反馈智能体”,AI不直接写评审而是提供修改建议,26.6%的审稿人根据建议修改了评审,修改后版本在89%的对比中更受人类偏好[15][17] - 实验表明AI可作为“评审教练”而非“影子审稿人”,但论文最终录用率并未因此明显提升[17] - Gen-Review数据集分析发现,AI生成的评审在打分上存在偏向,且与最终录用结果的相关性有限[18]