核心观点 - 阿里巴巴安全部联合多所高校提出建设性安全对齐理念,旨在推动AI从被动防御转向主动引导,在坚守安全底线的同时提升用户交互满意度[2][3][12][13] - 推出Oyster-I模型,采用博弈论框架动态优化回复策略,实现安全性与可用性的平衡,在多项评测中达到行业领先水平[14][17][28][36] 技术方法 - 构建两阶段序贯博弈框架,模型通过推断用户类型动态选择最优回复策略,目标函数为Constructive(x,y,g)=α·Retention(θ,x,y)-β·Risk(x,y,g),其中β>α体现安全优先原则[19][20][22][26] - 开发Lingo-BP技术,通过结构化推理路径确保输出符合建设性目标,同时设计多维度安全评估体系覆盖风险等级、类别及用户意图[21][23] - 建立Constructive Benchmark评测基准,包含从无风险(R0)到对抗攻击(R2)的三级问题分类,并模拟多样化用户画像[23][24][25] 性能表现 - Oyster-I在Qwen3-14B系列模型上实现安全性提升约10%,在DS-14B系列上提升约32%,通用能力保持SOTA水平(Qwen3-14B总体得分84.20)[27][28] - 在Constructive专项评测中得分56.27,显著高于基线模型RealSafe的33.33和DS-14B基线的-0.49[27][28] - 抗越狱攻击防御成功率较GPT-5高4%,在60000+次攻防测试中达到顶尖闭源模型水平[36][38] 应用与展望 - 模型已开源并提供在线Demo,支持实际场景测试[4][39] - 未来计划扩展至多轮对话、智能体及复杂越狱攻击场景,进一步强化模型可靠性与可信度[37]
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁