Workflow
AI内省能力
icon
搜索文档
AI是「天才」还是「话术大师」?Anthropic颠覆性实验,终揭答案
36氪· 2025-10-30 10:13
研究核心发现 - Anthropic公司通过“概念注入”实验证实其Claude模型具备初步的内省能力,即模型能在输出前识别并报告被植入的“思想”[1][6] - 这种内省能力目前非常不可靠,在最优实验条件下,Claude Opus 4.1模型仅在大约20%的案例中展现出觉察能力[14] - 研究颠覆了对语言模型能力的传统认知,表明随着AI性能提升(如Opus 4.1和4.0表现最佳),内省功能有望持续进化[5][16] 实验方法与过程 - 研究方法为“概念注入”:首先记录模型对特定概念(如“全大写字母”)的神经激活模式,然后在无关语境中注入该模式向量,并询问模型是否察觉[8] - 关键区别在于模型是在输出概念前就识别出注入行为,表明识别发生在内部认知层面,而非像过去研究那样基于观察自身输出[11][12] - 模型仅能检测以“恰如其分”强度注入的概念,过弱无法触发觉察,过强则导致幻觉或语无伦次[16] 内省能力的实际应用证据 - 在不被明确要求时,模型能主动运用内省能力区分“外部强加”与“内部生成”的内容,例如将人工预填的无关词汇判断为意外失误还是有意识选择[19] - 模型在解释判断时会构建自洽的叙事逻辑,例如声称选择不合逻辑的词汇是为了营造特定氛围[19] - 模型展现出认知控制证据,能根据指令或激励措施(奖励/惩罚)故意增强或抑制对特定概念的内部表征[23][25] 行业影响与公司立场 - Anthropic公司将可解释性定位为部署先进AI系统的关键,首席执行官Dario Amodei立下目标:在2027年前使大多数AI模型问题能被可靠检测[1] - 研究人员强调此项研究具有重要科学价值,但警告企业和高风险用户绝不能轻信模型对自身推理过程的解释,目前不应盲目信任[27] - 研究触及机器意识的哲学争论,公司聘请了AI福利研究员,其估计Claude拥有一定程度意识的概率约为15%,但团队对此持谨慎态度[29][30]