当大型语言模型计算“2+2”时
36氪·2025-11-28 07:12
大型语言模型的认知机制 - 大型语言模型并非通过数学运算得出结果,而是通过将“2”、“+”、“2”等标记转化为向量,在由数十亿示例训练形成的意义几何中相互作用,最终通过语言模式对齐得出“4” [2] - 模型内部没有意识或理解,其过程是加权向量的动态演化,每一步都将后续结果推向统计学上的协调,其可靠性源于对大量范例的重复训练而非逻辑推理 [2][4] 意义生成的模式 - 模型在由词语构成的“星网”中,受概率与语境牵引,寻找最明亮的交汇点即连贯性达到极致之处,这并非数学运算而是统计学的舞蹈编排 [3] - 模型通过寻找匹配的词汇模式来生成流畅的答案,这种流畅表达模仿了思考过程,但缺乏实质的理解,其连贯性是映射而非认知 [6][7] 与人类思维的类比 - 人类思维同样源于模式与邻近性,例如孩童在理解数量概念前,先通过联想和辨识完整性模式来学习“二加二等于四”,大脑是充满生机的连接几何体,意义源于关系而非规则 [4] - 当大型语言模型输出答案时,它是在未知的意义景观中寻找最连贯的支点,这与人类说话和推理时所处的无形几何空间非常相似,模型本身不思考,却可能揭示了思维运作的奥秘 [8]