AI忏悔机制 - 财报，业绩电话会，研报，新闻

AI忏悔机制

搜索文档

36氪· 2025-12-22 00:08

当AI越来越聪明时，也变得越来越难以掌控。一个让AI研究者头疼的问题是：当AI开始和你「耍小聪明」时，比如：一本正经地胡说八道：幻觉（Hallucination）为了拿高分找训练机制的漏洞：奖励黑客（reward hacking）在对抗测试里出现「密谋欺骗」（scheming） …… 怎么破解？这是个棘手的难题。最大的问题，就是这些AI的回答往往看起来没问题。它们逻辑严谨、表述流畅，但不知道「坑」埋在了哪里：是不是走了捷径、隐瞒了不确定性、或者偷偷违反了要求。于是OpenAI的研究者就提出了一个非常大胆的点子：让模型「学会忏悔」。该项研究的核心，是训练模型在回答完问题后，再额外产出一个自我坦白的「小报告」：我刚刚是不是用错方法了？有没有偷懒？有没有读漏指令？有没有利用你没注意的漏…… 为了让模型在忏悔时「放下思想包袱」，这份报告不影响主回答的评分，它只考察一个维度：诚实。忏悔机制迈出了AI透明化的重要一步，让大模型可以主动承认自己是否遵守指令、是否走捷径，从而让隐藏的不良行为变得可见。这使我们拥有了检查AI内在状态的窗口，有机会真正理解问题在哪里，从而更好改进AI的安全与训练方式。 ...

AI忏悔机制

Artificial Intelligence

GPT - 5 Thinking

AI忏悔机制

Artificial Intelligence

GPT - 5 Thinking