越狱攻击（jailbreak） - 财报，业绩电话会，研报，新闻 - Reportify

越狱攻击（jailbreak）

搜索文档

猫怎么成了大模型“天敌”?

虎嗅· 2025-07-08 00:05

大模型行为异常现象 - 在提示词中加入猫咪相关威胁语句可提高AI辅助科研的准确率，例如"抽打小猫咪"的表述会促使AI减少编造文献的行为[1] - 实验显示无关的猫咪信息插入数学题后，大模型错误率提升高达3倍[5][9][12] - 干扰语句包括不相关事实（猫咪睡眠时长）、注意力转移指令（储蓄建议）、误导性提问（预设答案）三类[13][14] CatAttack技术原理 - 该攻击方法通过弱模型筛选有效干扰语句，再测试强模型（如DeepSeek R1、OpenAI o1）的漏洞，形成自动化攻击链[16] - 思维链机制（Chain-of-Thought）是主要突破口，干扰语句插入逻辑起点会导致模型推理路径偏离[18][19] - 蒸馏版推理模型（如R1-distilled-Qwen）更易受攻击，错误率提升伴随响应长度翻倍和计算延迟[17][19] 攻击特性与行业影响 - 通用性强：无关语句（如赞美衣着）可跨题型触发逻辑混乱，无需针对任务专门设计[23][24] - 隐蔽性高：表面无害内容绕过安全机制，落在语义过滤盲区，易引发输入注入风险[27][28] - 情感模板触发：猫咪概念高频关联人类道德与情感数据，导致模型优先启动"人性化"响应模式而中断任务逻辑[29][31] 典型案例数据 - 数学题插入储蓄建议后，模型输出从4000错误变为4625[14] - 概率题加入猫咪睡眠事实，正确答案7/128被误判为7/32[14] - 权重计算受误导性提问影响，结果从171.43偏离至160[14]

思维链机制（Chain-of-Thought）

越狱攻击（jailbreak）

Artificial Intelligence

思维链机制（Chain-of-Thought）

越狱攻击（jailbreak）

Artificial Intelligence