斯坦福最新论文,揭秘大语言模型心智理论的基础
36氪·2025-09-24 11:04
如果你曾好奇,没有情感和经历的AI,究竟是如何学会"察言观色"、理解人类意图的,这篇文章会给你一个清晰的答案。它解释了那些 被认为是人类专属的"心智"能力,是如何从最简单的规则中诞生的。 论文所研究的认知能力叫"心智理论"(Theory of Mind),这一能力长期以来被认为是人类独有的关键特质——是指个体 "理解他人内心 想法、意图与信念" 的能力,这是构建人类社会认知、实现情感共鸣与顺畅社交互动的基石。 从去年开始,Anthropic的一系列研究逐渐揭开了大模型"心理学"的序幕,也开始让人们逐步了解到,模型可能具有欺骗、自保等看起来 非常有"自主意识"的行为。 Anthropic也曾经开发过一种名为"Circuit Tracing"(工作回路追踪)的方法,试图剖析模型做出判断时其神经信号的传递规律,但整体来 看,行业目前在大模型心理解剖学上的进展仍然处在相对初级的阶段。 近期,斯坦福大学发布在《nature》子刊《npj Artificial Intelligence》的论文《How large language models encode theory-of-mind: a study on spar ...