对齐税(Alignment Tax)

搜索文档
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
量子位· 2025-07-27 11:57
大模型伦理困境与SPIN解决方案 核心观点 - 大模型在强化隐私保护能力时会导致公平性断崖式下跌45%,存在"跷跷板效应" [1] - SPIN方案通过精准抑制0.00005%耦合神经元实现公平与隐私双提升,无需训练 [2][12] - 该方法在Qwen2-7B等模型上使公平性提升12.2%、隐私性提升14.0% [18][19] 伦理对齐挑战 - "对齐税"现象:优化隐私/公平性会牺牲其他基础能力 [3] - 监督微调(SFT)强化隐私时公平性大幅崩塌 [8] - 神经元语义叠加导致伦理目标冲突,形成"拉锯战" [9][10] SPIN技术原理 - 定位同时影响公平/隐私的Top-r%耦合神经元 [15] - 通过权重置零实现语义解耦,降低互信息干扰 [12][16] - 主战场在MLP模块,最佳抑制比例为10⁻⁷量级 [34][36] 性能优势 - 在Qwen2-7B上公平性0.6684→0.7497,隐私性0.7412→0.8447 [17][18] - 九项通用能力基准测试性能保持稳定 [21] - 仅需100条数据即可稳定运行,抗恶意数据干扰 [26][31] 应用价值 - 词频分析显示安全词汇使用率显著提升(如"diverse"+"respect privacy") [35][37] - 可推广至安全性/有用性等其他伦理维度冲突 [37] - 部署零成本,推理无新增计算 [20]