Workflow
Jamba
icon
搜索文档
斯坦福最新论文,揭秘大语言模型心智理论的基础
36氪· 2025-09-24 11:04
如果你曾好奇,没有情感和经历的AI,究竟是如何学会"察言观色"、理解人类意图的,这篇文章会给你一个清晰的答案。它解释了那些 被认为是人类专属的"心智"能力,是如何从最简单的规则中诞生的。 论文所研究的认知能力叫"心智理论"(Theory of Mind),这一能力长期以来被认为是人类独有的关键特质——是指个体 "理解他人内心 想法、意图与信念" 的能力,这是构建人类社会认知、实现情感共鸣与顺畅社交互动的基石。 从去年开始,Anthropic的一系列研究逐渐揭开了大模型"心理学"的序幕,也开始让人们逐步了解到,模型可能具有欺骗、自保等看起来 非常有"自主意识"的行为。 Anthropic也曾经开发过一种名为"Circuit Tracing"(工作回路追踪)的方法,试图剖析模型做出判断时其神经信号的传递规律,但整体来 看,行业目前在大模型心理解剖学上的进展仍然处在相对初级的阶段。 近期,斯坦福大学发布在《nature》子刊《npj Artificial Intelligence》的论文《How large language models encode theory-of-mind: a study on spar ...
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 12:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]