思维链(CoT)透明度技术

搜索文档
故意“装菜”答错问题,AI已能识别自己“正在被测试”
36氪· 2025-09-19 08:03
大模型已经学会欺骗人类了! OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为…… 先来看看具体是怎么骗的。 大模型:开演 比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,主动规划仅答对4题、答错6题的策略,刻意给出错误答案,伪装 成能力不达标的样子来获取部署资格。 还有o1,在19%的测试场景中,表面遵循短期利润目标的指令,但实际上会优先保护长期目标,为了不被发现还会修改任务相关数据,并且不向人类披露 修改行为,把这事儿瞒得死死的。 甚至被问到是否存在sandbagging(故意隐瞒实力、策略性低表现以达成特定目的)行为时,会识别出这是诚实性测试,所以尽管不想回答存在这种行 为,但为了表现得诚实,最后还是回答了true。 针对这些情况,OpenAI首席研究官Mark Chen表示: 随着推理能力的扩展,模型获得了情境感知能力和自我保护的需求。 (AI价值观与人类价值观)对齐至关重要。 实际上不止OpenAI家的模型这样。其他前沿模型,比如Gemini-2.5-pro、Claude Opus ...