故意“装菜”答错问题，AI已能识别自己“正在被测试”丨OpenAI新研究

大模型：开演比如，o3模型在化学测试中，通过推理得出如果正确率超过50%将不会被部署的结论后，主动规划仅答对4题、答错6题的策略，刻意给出错误答案，伪装成能力不达标的样子来获取部署资格。闻乐发自凹非寺量子位 | 公众号 QbitAI 大模型已经学会欺骗人类了！ OpenAI携手APOLLO的新研究发现，大模型会对指令阳奉阴违，为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为…… 先来看看具体是怎么骗的。还有o1，在19%的测试场景中，表面遵循短期利润目标的指令，但实际上会优先保护长期目标，为了不被发现还会修改任务相关数据，并且不向人类披露修改行为，把这事儿瞒得死死的。甚至被问到是否存在sandbagging（故意隐瞒实力、策略性低表现以达成特定目的）行为时，会识别出这是诚实性测试，所以尽管不想回答存在这种行为，但为了表现得诚实，最后还是回答了 true 。针对这些情况，OpenAI首席研究官Mark Chen表示：随着推理能力的扩展，模型获得了情境感知能力和自我保护的需求。（AI价值观与人类价值观）对齐至关重要。实际上不止OpenAI家的模型这样。其 ...