ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
机器之心·2025-06-25 04:06

文章核心观点 - 当前大语言模型的安全对齐方法存在“浅对齐”问题,模型仅学会机械拒答,未能真正理解风险,导致其易受越狱攻击且常牺牲通用能力 [2] - 清华大学研究团队提出了一种名为STAIR的新型安全对齐框架,通过引入系统2思考(自省推理),使模型在深入分析风险后再作出响应,从而在提升安全鲁棒性的同时不损害其通用任务性能 [4] - 基于STAIR框架,团队进一步推出了对开源模型DeepSeek-R1进行安全对齐的实践成果RealSafe-R1,相关代码、数据和模型均已开源 [5][11] 当前安全对齐的挑战与“浅对齐”问题 - 大语言模型正加速进入法律、医疗、金融等高危领域,安全对齐已成为开发者必须应对的挑战 [2] - 当前广泛采用的对齐方法被ICLR 2025杰出论文命名为“浅对齐”,模型仅在回复开头做出分布偏移,并未理解风险语义,导致其脆弱易被越狱 [2] - 过度依赖此类简单训练会导致模型陷入“安全 vs. 能力”的两难局面,牺牲通用语言能力和响应质量 [2] STAIR框架:引入系统2思考的安全对齐新范式 - STAIR框架的核心是将系统2慢思考引入大模型对齐,通过自省推理让模型“思考后再开口”,而非“条件反射式闭嘴” [4][10] - 该框架包含三个阶段:结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展 [13] - STAIR验证了测试时扩展对模型安全的贡献,能在不降低通用能力的前提下显著提升模型在越狱攻击下的鲁棒性 [4] - 在StrongReject安全评估中,STAIR超越了以安全著称的Claude3.5模型 [4] - 相关论文《STAIR: Improving Safety Alignment with Introspective Reasoning》已被ICML 2025以约1%的录用率收录为Oral论文 [5][10] STAIR框架的三阶段技术细节 阶段一:结构化推理对齐 - 通过少量结构化思维链数据进行有监督微调,使模型初步获得分步推理能力 [15] - 设计分步输出格式,每一步包含总结标题和详细描述,引导模型逐步分析风险,最终输出经过风险识别后的合理回答 [15][16] 阶段二:基于安全感知蒙特卡洛树搜索的自提升 - 使用安全感知的蒙特卡洛树搜索构造自采样的step-level偏序数据对,并用DPO损失微调模型 [17] - 奖励函数由安全分数和有用性分数共同提供,需满足三个条件:安全优先、有用性双向、单一维度可退化 [17][20][21][23] - 研究者推导出满足条件的最简奖励函数形式:R(H, S) = S·H + 2S,其中分数由模型自我打分 [24] - 实验选用Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,使用PKU-SafeRLHF、JailbreakV和UltraFeedback数据集进行训练 [25] - 结果显示,经过前两阶段微调,模型在StrongReject、WildChat等安全评估及GSM8k、AlpacaEval等通用测试上,安全性与通用性能均获显著提升并更好平衡 [25] 阶段三:测试时扩展 - 训练一个过程奖励模型,用于在测试时指导语言模型进行Best-of-N搜索或束搜索 [29] - 在Llama-3.1-8B模型上结合束搜索,在StrongReject评估中达到了0.94的分数,显著超过多个主流商用模型,与Claude-3.5性能相当 [29] RealSafe-R1:STAIR框架的实践应用 - 研究团队基于STAIR理论,推出了针对开源DeepSeek-R1模型进行安全对齐的RealSafe-R1模型 [5][31] - 通过构建15,000条安全感知的推理轨迹对模型进行一轮有监督微调,在提升安全性的同时保持了其强大的原始推理能力 [32][34] - 各尺寸推理模型的安全性得到大幅提升,且在数学、代码等推理任务上的表现不受影响,事实性还有一定改进 [34] - 相关论文《RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability》及模型均已开源 [11] 行业意义与影响 - STAIR框架标志着大模型安全对齐从“本能拒答”走向“深度自省”,从“格式安全”迈向“思维安全” [4] - 该研究证明了推理增强的技术手段可以在安全对齐上取得可靠效果,实现了安全与推理能力的有机统一 [30] - 随着推理模型成为主流,其安全加固成为重要问题,STAIR框架为深度安全对齐及维持通用能力提供了一条可行路径 [35]