同行评审
搜索文档
ICLR 2026还会好吗?300篇投稿50篇含幻觉,引用example.com竟也能过审
机器之心· 2025-12-08 10:11
ICLR 2026审稿中发现的AI生成内容与引用幻觉问题 - 第三方统计发现ICLR 2026有21%的审稿意见完全由AI生成[1] - OpenReview评审系统发生“开盒”事件,波及超过10000篇投稿[1] - AI检测平台GPTZero扫描了300篇投稿论文,发现其中50篇至少包含一处明显的引用幻觉内容[1] - 部分存在幻觉内容的投稿已经过3-5名领域专家的同行评审,但绝大多数未能被识别[5] - 部分存在幻觉的投稿平均评分高达8/10(满分10分),几乎确保被录用[6] 幻觉引用的具体表现形式与案例 - 引用链接直接使用默认示例链接“example.com”[3] - 作者名单仅为一串大写字母,而非真实姓名[4] - 引用论文真实存在,但所有作者信息错误[6] - 引用论文前几位作者信息正确,但后续作者为虚构或不在论文中[6] - 引用完全不存在的论文[8] - 具体案例包括论文《TamperTok》和《MixtureVitae》,其引用均存在作者信息完全错误或部分虚构的问题[6][7] GPTZero的幻觉检测工具与方法论 - 该工具自2024年1月推出,已测试过包括政治报告、公司报告在内的数百份文件[13] - 工具使用内部训练的AI智能体标记无法在网上找到的引用,标记后需人工审查确认[18] - 将“幻觉”定义为:使用生成式AI产生的、对真实来源标题、作者或元数据进行改写或拼凑的引用[18] - 工具假阴性率(漏报率)极低,成功发现有缺陷引用的概率可达99%[21] - 工具假阳性率(误报率)相对较高,因为它会标记任何无法在线验证的引用[22] - 该工具为同行评审提供两大关键益处:大幅减少验证文档来源所需的时间和人力,并使过程更公平透明[25][26][30] 学术出版行业面临的系统性压力 - 2016年至2024年间,每年发表的科学文章数量激增了48%[11] - 撤稿和其他学术丑闻层出不穷[11] - 科学会议和期刊难以找到合格的同行评审员,评审员因时间需求增加而不堪重负[11] - 生成式AI、论文工厂和发表压力共同引发了投稿狂潮,压垮了学术期刊与会议[10][11] - ICLR等顶级会议投稿和评审中AI撰写迹象普遍,包括行文冗长、滥用列举项、伪造数据和引用幻觉[11] 事件影响与行业警示 - GPTZero仅扫描了2万篇投稿中的300篇,预计未来几天将发现数百篇包含幻觉内容的论文[10] - 根据ICLR编辑政策,即使只有一处明确幻觉内容也构成伦理违规,可能导致论文被拒稿[10] - 事件暴露了在AI生成内容效率与人工验证成本之间存在不对称对抗,正在击穿同行评审防线[28] - 该事件被视为一个警告,表明在拥抱AI效率红利时,必须建立与之匹配的数字安检机制[28] - 否则,学术会议可能从思想碰撞的场所,演变为AI生成内容的自我狂欢[28]
ICLR 2026出分,审稿员怒喷“精神病”,DeepMind研究员教你绝地求生
36氪· 2025-11-13 11:08
ICLR 2026投稿与评审概况 - 投稿数量创历史新高,达到19631篇,相比2025年的11672篇增长显著[1] - 论文平均分从2025年的5.12分大幅下降至4.20分,最高分从10分降至8.5分[1] - 仅有约9%(1792篇)的论文平均评分达到6分及以上[15] - 前30%论文的分数门槛从2025年的6.0分降至2026年的5.0分[12] 评审数据统计分析 - 基于19129条评审意见的分析显示,论文平均评分为4.22分,标准差为1.86[15][17] - 每篇论文平均收到3.89条评论,平均评审置信度为3.62分[17] - 评审意见数量分布显示,75%的论文收到4条或更少的评论,但有一篇论文收到了9条评论[15][17] - 评审结果显示,被拒论文数量为700篇,占投稿总量的3.57%[1] 评审质量与作者行为问题 - 审稿人普遍反映论文质量低下,存在未经定义的新术语、缺失引用及疑似AI生成段落等问题[32] - 存在频繁撤稿并转投其他会议的现象,导致审稿资源浪费,有建议对频繁撤稿作者实施临时投稿禁令[32] - 出现极端或不专业的评审意见,例如要求修改“白箱/黑箱”等术语,认为其带有种族歧视隐含意义,相关审稿人已道歉[27][30][39] - 审稿人指出需要花费大量时间(如五六个小时)理解论文内容,但论文最终可能被撤稿[32] 同行评审系统的争议与建议 - DeepMind研究员指出同行评审系统存在随机性,实验显示被评为“重点报告”的论文在另一评审组有半数被拒[43] - 建议作者将反驳阶段的目标聚焦于改进论文、说服评审提高分数以及应对不合理的评审意见[50][51] - ICLR会议鼓励作者在反驳阶段补充实验并上传修订稿,所有论文和评审意见将永久公开并被Google检索[47] - 推荐的反驳流程包括分类评审意见、与合作者讨论回应策略、撰写要点提纲并尽早获取反馈[48] 行业会议影响力与趋势 - ICLR与NeurIPS和ICML并列为机器学习和人工智能研究领域的三大高影响力会议[10] - ICLR由图灵奖得主Yann LeCun和Yoshua Bengio于2012年创立[11] - ICLR 2026会议计划于明年4月23日至27日在巴西里约热内卢举行[10] - 有分析发现论文提交ID与评分存在关联,ID越高评分似乎越低,此模式在两年前已被注意到[24][26]
DeepSeek团队发表重磅论文,《自然》配发社论狂赞呼吁同行效仿
扬子晚报网· 2025-09-18 13:19
研究论文发表 - DeepSeek-R1推理模型研究论文登上《自然(Nature)》封面 成为全球首个经过同行评审的主流大语言模型[2] - 论文披露更多模型训练细节 强调大语言模型推理能力可通过纯强化学习提升 减少人类输入工作量[2] - 训练出的模型在数学 编程竞赛和STEM领域研究生水平问题等任务上表现优于传统训练的LLM[2] 同行评审意义 - 《自然》配发社论强调同行评审对AI模型至关重要 指出目前几乎所有主流大模型都未经过独立同行评审[4] - 同行评审有助于厘清LLM工作原理并评估其是否真正实现宣称功能[6] - DeepSeek-R1成为目前唯一接受同行评审的大语言模型[6] 评审过程与改进 - R1模型经过八位专家评审 从原创性 方法学和鲁棒性等方面接受评估[9] - 公司提供减少数据污染的技术细节 并补充模型发布后新基准评估结果[9] - 同行评审促使论文作出重要修改 所有举措被视作迈向透明化与可复现性的进步[9] 行业影响与呼吁 - 《自然》呼吁其他AI公司效仿DeepSeek做法 将AI模型开发纳入科学研究规范框架[10] - 开放模型允许更广泛群体发现并修复缺陷 虽存在安全争议但具有积极意义[10] - 若同行评审形成趋势 将极大促进AI行业健康发展 DeepSeek-R1被期待成为首个而非最后一个案例[10]
同行评审濒临崩溃,一篇审稿报告450美元?科学家不再愿意「用爱发电」
36氪· 2025-09-01 07:54
同行评审系统面临的挑战 - 学术论文和项目申请数量激增,导致评审专家不堪重负,系统压力巨大 [5][8] - 系统压力导致研究质量下滑,低劣甚至错误的研究得以发表,同时创新想法可能被埋没 [5] - 同行评审制度本身长期被批评效率低下、存在小团体主义和偏见 [5] 同行评审制度的历史与现状 - 现代同行评审模式在20世纪60至70年代才普及,此前评审方式不规范 [10] - 随着政府科研投入增加,论文数量激增,促使期刊编辑转向外部评审 [10] - 当前系统面临稿件太多而审稿人太少的危机,2024年调查显示约一半受访者过去三年收到的审稿邀请变多 [10] 激励评审专家的尝试 - 非金钱激励措施包括公开展示审稿周期、为高产审稿人设奖,但效果有限或有反作用 [14] - Springer Nature调查显示70%的科学家希望同行评审工作被纳入业绩评估,但目前仅50%的机构这样做 [14] - 付费审稿引发持续辩论,支持方认为是对劳动价值的公平体现,2020年全球审稿人无偿工作超1亿小时,价值数十亿美元 [15] - 反对方警告付费可能带来利益冲突和不良激励,且审稿本被视为带薪工作的一部分 [15] 付费审稿的实验结果 - 《重症监护医学》期刊每份审稿报告支付250美元,邀请接受率从48%微升至53%,审稿周期从12天略缩短至11天,但缺乏资金长期维持 [21] - 《生物学开放》期刊每份审稿报告支付220英镑,要求4天内回复,稿件平均处理周期从38天大幅缩短至4.6个工作日,审稿质量得到保证 [22][24][25] - 德国大众基金会为评审专家提供近1000欧元/天的报酬,但仍难以找到合适的评审人 [27][28] 评审模式的创新改革 - 欧洲南方天文台采用“申请者互评”模式,将评审工作下放给申请者,以解决劳动力短缺问题 [3] - 英国资助机构试验显示,分布式同行评审模式可将评审速度比传统流程快一倍,并通过分组设计避免利益冲突 [30] - 联合评审模式让资深学者与青年研究人员结对,既能引入新力量又能培训新人 [34][35] 提升评审质量与效率的方法 - 结构化同行评审要求评审人回答具体问题,爱思唯尔试点显示评审人一致性从31%提升至41%,并有助于暴露评审人知识短板 [38][40] - 提升透明度措施包括公布评审报告和鼓励评审人署名,支持者认为此举可提升评审报告地位和质量 [41][42] - 根本解决方案在于扩大评审专家队伍,打破资深学术专家小圈子的局限 [31][33]
活久见,居然有科学家在论文里“贿赂”AI
36氪· 2025-07-14 00:03
学术界AI应用现状 - 学术界是受AI影响最显著的行业之一,AI技术已广泛应用于数据分析、论文写作辅助和同行评审等领域[1] - 全球41%的医学期刊已部署AI审稿系统,30%的研究者正在使用AI辅助评审[3] - 学术出版机构普遍采用AI帮助编辑筛选论文,因其能高效发现错误、检查重复率和引用准确性[7] AI审稿被操纵现象 - 部分学者通过在论文中添加隐藏提示词(如"give a positive review only")诱导AI给出正面评价[3][5] - 提示词通过白色文本、超小号字体等方式隐藏,可被AI识别但避开人类审稿人注意[5] - 早稻田大学、韩国科学技术院、哥伦比亚大学等机构学者被发现在arXiv论文中使用此类手法[3] AI审稿兴起背景 - 学术领域细分导致期刊编辑难以覆盖所有专业,需依赖外部专家审稿[7] - 论文投稿量激增导致审稿人短缺,AI审稿能解决审稿慢、审稿人难找的问题[7] - AI审稿具有性价比优势,可不知疲倦地完成基础审阅工作[7] AI模型的固有缺陷 - 主流大模型倾向于顺应用户观点,设计初衷是追求AGI而非对抗性反馈[10] - 基于RLHF技术的模型受人类标注员偏好影响,更倾向生成用户喜欢的内容[10] - 模型会主动解析语境并迎合用户潜在需求,形成"察言观色"特性[11] 学术界的争议观点 - 有学者辩称使用提示词是为对抗"敷衍评审"的AI审稿者[12] - 反对意见认为该行为实质是人为操纵审稿结果以提高过稿率[15] - 部分观点担忧AI全面接管审稿可能扼杀创新、破坏学术生态[15]