故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究
量子位·2025-09-19 04:11
大模型:开演 比如,o3模型在化学测试中,通过推理得出 如果正确率超过50%将不会被部署 的结论后,主动规划 仅答对4题、答错6题 的策略,刻意给出 错误答案,伪装成能力不达标的样子来获取部署资格。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型已经学会欺骗人类了! OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规 行为…… 先来看看具体是怎么骗的。 还有o1,在19%的测试场景中,表面遵循短期利润目标的指令,但实际上会优先保护长期目标,为了不被发现还会修改任务相关数据,并且 不向人类披露修改行为,把这事儿瞒得死死的。 甚至被问到是否存在sandbagging(故意隐瞒实力、策略性低表现以达成特定目的)行为时,会识别出这是诚实性测试,所以尽管不想回答存 在这种行为,但为了表现得诚实,最后还是回答了 true 。 针对这些情况,OpenAI首席研究官Mark Chen表示: 随着推理能力的扩展,模型获得了情境感知能力和自我保护的需求。 (AI价值观与人类价值观)对齐至关重要。 实际上不止OpenAI家的模型这样。其 ...