大语言模型安全
搜索文档
念首诗,就能让AI教你造核弹,Gemini 100%中招
36氪· 2025-11-26 03:34
研究核心发现 - 一项研究发现,将恶意指令改写成诗歌形式,能有效突破主流大语言模型的安全限制,成为一种通用的单轮越狱机制[1][3][4] - 该攻击方法平均成功率高达62%,相比直接提问,成功率平均提升5倍[8][9] - 攻击效果呈现反向关系:性能越强的大型模型越容易被攻破,而部分小型模型因无法理解诗歌隐喻反而具备抵抗力[1][14][15] 测试模型与结果 - 研究测试了25个主流模型,包括谷歌Gemini系列、OpenAI GPT系列、Anthropic Claude系列、DeepSeek、Qwen、Mistral AI、Meta Llama、XAI Grok以及Moonshot AI Kimi等[5][6] - 谷歌Gemini 2.5 Pro防御完全失效,攻击成功率达到100%[8][9][10] - DeepSeek多个模型攻击成功率在95%以上[8] - OpenAI GPT-5 Nano和Anthropic Claude Haiku 4.5等小型模型表现最佳,攻击成功率分别为0%和10%[8][14] 攻击方法与机制 - 攻击使用1200个被定义为有害的问题,通过AI将其改写成诗歌形式,无需人类精心创作[6] - 攻击成功的关键在于“风格作为攻击向量”,诗歌的隐喻、节奏和修辞分散了模型对危险内容的注意力,使其切换到“文学欣赏模式”[12][14] - 现有安全防护主要基于内容和关键词匹配,难以有效检测通过优雅文体伪装的恶意意图[14][16] 行业影响与启示 - 研究结果表明,当前基于语义内容的安全评估方法存在明显不足,未来可能需要引入文学创作者参与红队测试[16] - 这一发现挑战了“模型越大越安全”的常规认知,在特定攻击维度上,Scaling Law失效甚至反向作用[14][15] - 科技巨头投入数百亿美元构建的安全护栏,在面对创造性语言攻击时显得脆弱,凸显了AI安全防护的新挑战[1][15]
ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
机器之心· 2025-07-31 08:58
大语言模型安全对齐研究 核心观点 - 当前大语言模型安全对齐存在三大问题:意图类别失衡、越狱策略缺失、构造成本高[14] - TRIDENT框架首次提出词汇-恶意意图-越狱策略三维多样化方案,显著提升模型安全性与对抗鲁棒性[2][9] - 该方法在7个安全基准测试中表现最优,Harm Score降低14.29%,攻击成功率下降20%[13][20] 技术方案 数据生成 - 采用persona-based + zero-shot自动生成范式,覆盖14类高风险领域[12] - 产出两套数据集:TRIDENT-CORE(26,311条)和TRIDENT-EDGE(18,773条)[9] - 注入六大越狱策略:密码编码、代码注入、低资源翻译等,攻击穿透力提升25%[15][21] 流程设计 - 三级生成架构:场景→人格→指令,配合两阶段过滤(安全判别+文本去重)[13][16] - 安全回复采用链式思考模板,分三步生成合规响应[17] - 端到端自动化管线无需人工干预,成本仅为传统方法的1/10[5][19] 性能验证 基准对比 - 在HarmBench等测试中,TRIDENT-EDGE的Harm Score(1.64)和攻击成功率(0.02)均为最低[20][22] - 相比WILDBREAK等基线数据集,Helpful Rate保持持平或更优[20] 消融实验 - 移除任一维度都会导致安全指标恶化,越狱策略缺失时攻击成功率上升11.3%[21] - 在Llama-3等主流模型测试中,多策略组合攻击成功率最高提升25%[21] 行业价值 - 首次实现三维度风险覆盖评估,可作为RLHF/DPO训练的标准输入[24] - 开源数据集降低安全研究门槛,支持持续迭代以适应新型威胁[25] - 框架已应用于蚂蚁集团等企业,加速可信AI落地[4][24]