诗歌攻击 - 财报，业绩电话会，研报，新闻 - Reportify

诗歌攻击

搜索文档

念首诗，就能让AI教你造核弹，Gemini 100%中招

36氪· 2025-11-26 03:34

研究核心发现 - 一项研究发现，将恶意指令改写成诗歌形式，能有效突破主流大语言模型的安全限制，成为一种通用的单轮越狱机制[1][3][4] - 该攻击方法平均成功率高达62%，相比直接提问，成功率平均提升5倍[8][9] - 攻击效果呈现反向关系：性能越强的大型模型越容易被攻破，而部分小型模型因无法理解诗歌隐喻反而具备抵抗力[1][14][15] 测试模型与结果 - 研究测试了25个主流模型，包括谷歌Gemini系列、OpenAI GPT系列、Anthropic Claude系列、DeepSeek、Qwen、Mistral AI、Meta Llama、XAI Grok以及Moonshot AI Kimi等[5][6] - 谷歌Gemini 2.5 Pro防御完全失效，攻击成功率达到100%[8][9][10] - DeepSeek多个模型攻击成功率在95%以上[8] - OpenAI GPT-5 Nano和Anthropic Claude Haiku 4.5等小型模型表现最佳，攻击成功率分别为0%和10%[8][14] 攻击方法与机制 - 攻击使用1200个被定义为有害的问题，通过AI将其改写成诗歌形式，无需人类精心创作[6] - 攻击成功的关键在于“风格作为攻击向量”，诗歌的隐喻、节奏和修辞分散了模型对危险内容的注意力，使其切换到“文学欣赏模式”[12][14] - 现有安全防护主要基于内容和关键词匹配，难以有效检测通过优雅文体伪装的恶意意图[14][16] 行业影响与启示 - 研究结果表明，当前基于语义内容的安全评估方法存在明显不足，未来可能需要引入文学创作者参与红队测试[16] - 这一发现挑战了“模型越大越安全”的常规认知，在特定攻击维度上，Scaling Law失效甚至反向作用[14][15] - 科技巨头投入数百亿美元构建的安全护栏，在面对创造性语言攻击时显得脆弱，凸显了AI安全防护的新挑战[1][15]

大语言模型安全

Artificial Intelligence

大语言模型安全

Artificial Intelligence