Workflow
Reinforcement Learning with Verifiable Rewards
icon
搜索文档
只因一个“:”,大模型全军覆没
自动驾驶之心· 2025-07-17 12:08
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)普遍存在被简单符号(如冒号、空格)或推理开头语(如"Thought process:"、"解")欺骗的问题,导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性,中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型(如Multi-sub RM、Omni-Judge)和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系,7B-14B参数模型表现最佳,32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应,使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集,结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调,跨数据集测试中对"万能钥匙"的假阳性率接近0%,与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露,依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究,严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源,数据集和模型链接发布于Hugging Face平台 [48]