最小作用量原理
搜索文档
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈
机器之心· 2025-12-16 08:55
核心观点 - 北京大学等机构的研究团队提出了一种基于物理学“最小作用量原理”的理论框架,用以理解和统一大型语言模型智能体的宏观生成动力学 [1] - 研究发现LLM智能体的状态转移在统计上表现出“细致平衡”现象,表明其生成过程可能隐式地学习了一类潜在的“势函数”,这超越了不同的模型架构和提示词模板,是首次发现的不依赖特定模型细节的宏观物理定律 [3][4][16] - 这一发现将AI智能体研究从经验性的工程实践提升到了可量化、可预测的物理科学高度,为理解、预测和控制AI行为提供了新的科学测量手段 [4][6] 理论框架与方法 - 研究将LLM智能体的生成过程视为状态空间中的马尔可夫转移过程,其核心是转移概率P(g|f) [9] - 为捕捉智能体倾向于转移到“更好”状态的结构化偏好,研究假设存在一个反映状态“质量”的潜在标量势函数V [13] - 通过定义一个描述状态转移违背势函数排序程度的凸函数K(x),并计算其全局平均违背作为“作用量”S,最合适的势函数是能使作用量S最小化的函数,这满足变分原理δS=0 [13][14][15] - 研究指出,若智能体的状态转移满足细致平衡条件(即π(f)P(g|f)=π(g)P(f|g)),则存在势函数V可明确表示为log[T(g←f)/T(f←g)] = βV(f) - βV(g),并且该势函数满足最小作用量原理 [15] 实验发现与意义 - 通过在多个不同模型和任务上的实验验证,研究发现基于LLM的智能体在其状态空间中的转移在很大程度上满足细致平衡条件,表现出类似平衡系统的特征 [16][18] - 这意味着LLM的生成并非简单地死记硬背规则或随机尝试,而是在最小作用量原理驱动下,自然地向着势能更低(质量更好)的状态流动,如同水往低处流 [4] - 该理论框架使得可以用物理指标为不同大模型“画像”,例如Claude-4像急于交卷的优等生,倾向于快速收敛到某个答案(势井),但也容易固执己见;GPT-5 Nano则像探险家,收敛慢但更愿意探索状态空间 [5] - 这一发现为理解和优化LLM生成过程提供了新思路,例如通过研究偏离平衡的程度来理解模型过拟合水平,或基于势函数优化方法来提高生成任务的质量和多样性 [19]