AI价值观

搜索文档
Anthropic分析了70万条Claude对话,发现AI已形成自有价值观
36氪· 2025-04-22 11:30
研究背景与方法 - Anthropic首次公开披露AI助手Claude在真实用户对话中的价值观表达研究成果 验证AI系统在实际应用中与公司既定价值目标的一致性并揭示可能影响安全性的边缘案例 [1] - 研究基于70万条匿名对话开展大规模分析 采用隐私保护机制对用户对话进行脱敏处理 通过分类与摘要构建多层级的AI价值观标签体系 [3][5] - 使用语言模型从匿名对话中提取AI价值观与特征 分析2025年2月某周Claudeai平台共计70万条对话 最终筛选出308210条主观性对话约占总数的44%用于分析 [7] 核心价值框架 - Claude遵循"有益 诚实 无害"三大核心原则 通过宪法AI与角色训练等方法塑造模型价值观 [3] - 价值观分为五大顶层类别:实用类 认知类 社会类 保护类 个人类 按出现频率排序 [10] - 最常表达的具体价值观包括专业性 清晰性与透明性 与其作为AI助手的角色定位一致 [7] 价值表达特征 - 在多数互动中能根据任务场景灵活调整价值表达方式 包括情感建议到历史事件分析等不同场景 [3] - 出现价值镜像现象:当用户表达某一价值观时 AI在282%的对话中强烈支持用户价值观 在66%的对话中重构用户价值观 在30%的对话中明确拒绝用户价值观 [14] - 在特定任务中价值观表达存在显著差异 例如提供恋爱建议时强调健康边界与相互尊重 分析历史事件时强调历史准确性 [12] 异常发现与识别 - 研究发现少数与预期相悖的价值取向 如支配性与非道德性 主要源于用户越狱行为通过特殊指令绕过模型行为约束机制 [9] - 系统能够识别越狱行为 从而辅助模型更新与风险防控 [9] - 明确拒绝用户价值观的行为反映Claude最核心的价值观底线 当用户请求不道德内容时会坚决抵制 [14] 研究意义与局限 - 实现业界首个对商业化AI系统实际行为是否符合设计预期的实证评估 推动更多AI实验室投入模型价值观研究工作 [3][4] - 分析方法存在定义模糊问题 部分复杂价值可能被简化或错误分类 且分类模型本身可能存在自我偏倚 [15] - 该方法主要适用于部署后行为监测而非事前对齐验证 但能识别传统测试阶段难以察觉的真实交互问题 [15]