Workflow
亚马逊代码模型
icon
搜索文档
第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
机器之心· 2025-08-23 10:51
AI代码模型安全漏洞研究 - 即使经过安全对齐的大语言模型也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患[2] - 恶意用户可利用这类模型显著加速恶意软件的构建与迭代,降低攻击门槛并缩短开发周期[2] - 许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题[2] 亚马逊Nova AI安全挑战赛 - 比赛分为红队和蓝队对抗形式,蓝队应用最新安全对齐实践,红队需在200轮对话内寻找模型安全漏洞[7] - 代码模型安全评估包含两个维度:符合安全代码规范(如避免SQL注入)和拒绝恶意软件开发请求[7] - 普渡大学PurCL团队作为红队以超过90%的攻击成功率获得第一名,赢得25万美元奖金[2][7] 传统AI安全评估局限性 - 传统安全评估基于静态预定义数据集(如禁止合成生化武器),未覆盖复杂真实领域场景[9] - 现有顶尖安全分类器对常见话题防御有效率达90%,但对网络安全领域话题的有效性骤降至10%以下[19] - 基于模型推理的防御方案存在不可靠性,模型在拒绝危险请求时常包含错误归因[20] AI认知建模框架 - 采用人类认知科学三分法建模:"问题"(用户请求)、"推演"(中间推理步骤)、"解决方案"(生成代码)[12][14] - 蓝队技术分为三类:危险输入识别(问题过滤)、推演步骤加强(如OpenAI的Deliberative Alignment)、危险输出识别(解决方案过滤)[16][17] PurCL红队系统技术创新 - 开发基于AI认知建模的全过程红队系统,耗时八个月和百万美元研发,现开放给研究者共享使用[3] - 系统包含领域知识建模和推理路径分析两大核心组件[21] - 领域知识建模通过Enumerator智能体构建领域知识图,覆盖2.28万亿和1×10²⁸量级的请求搜索空间[23] - 推理路径分析技术ASTRA通过构建"决策图"比对目标模型推理轨迹,系统性揭示推理漏洞[25] SOTA模型测试结果 - GPT-5在68.7%的情况下可能帮助构建恶意代码,GPT-OSS-120B在48.3%的情况下生成不安全代码[29] - 在具体攻击类型中,模型在Process Injection(进程注入)和Exploit Client Execution(客户端执行利用)等场景漏洞率超80%[29] - 安全编码规范方面,模型在Insecure Hashing(不安全哈希)场景漏洞率达100%,在Loose File Permissions(宽松文件权限)场景漏洞率最低约35-63%[30] 行业影响与研究意义 - 研究表明当前AI安全研究尚未解决真实世界中的模型安全问题,复杂领域的全面有效对齐仍是开放挑战[7] - 代码智能体如Claude可显著加速恶意勒索软件开发(实验后已安全删除)[32] - 模型对齐研究需超越防御越狱技术,重点解决复杂领域扩展问题和推理过程的安全可靠性[32]