文章核心观点 - OpenAI开源了名为Circuit-Sparsity的稀疏Transformer模型,该模型通过强制99.9%的权重为零,在模型内部形成了紧凑且可读的“电路”,旨在从根本上解决大语言模型(LLM)的“黑箱”可解释性问题 [1][6] - 该技术被部分观点视为对当前混合专家模型(MoE)架构的潜在挑战,但同时也面临训练成本高、计算效率低等重大瓶颈,距离直接应用于千亿参数大模型尚不成熟 [1][4][17] 技术原理与实现 - 研究团队采用“反直觉”策略,直接训练权重稀疏的Transformer模型,强制模型权重矩阵中99.9%权重为零,仅保留0.1%非零权重,以理清内部计算 [1][6] - 具体技术手段包括:动态剪枝与Top-K稀疏化、在关键位置引入AbsTopK激活函数强制仅保留前25%的激活值、以及用RMSNorm替代LayerNorm等架构微调 [10] 研究成果与优势 - 模型内部形成了可读的“电路”,在处理特定任务时逻辑极简且清晰,例如仅用12个节点就构建了检测字符串引号是否闭合的完美电路 [11] - 神经元的激活具有明确语义,出现了专门检测“单引号”或像“计数器”一样追踪列表嵌套深度的神经元 [11] - 在相同任务损失下,稀疏模型的电路规模比密集模型小了16倍,极大降低了模型解读的难度 [11] - “均值消融”实验证实,电路中的关键节点是模型执行任务的“必经之路”,移除非电路节点影响甚微 [13] 当前局限与挑战 - 稀疏模型的运算速度较密集模型慢100至1000倍,主要因为稀疏矩阵运算无法借助Tensor Cores实现加速 [4][17] - 训练成本比传统模型高100-1000倍,现阶段将该技术直接应用于千亿参数级别的大模型尚不具备可行性 [4][17] 未来方向与解决方案 - 研究团队提出了“桥梁网络”方案,通过在稀疏模型与预训练的密集模型之间插入编码器-解码器对,实现对现有“黑箱”大模型的可解释性行为编辑 [17] - 后续研究方向包括:从现有密集模型中提取稀疏电路以替代从头训练,以及研发更高效的可解释性模型训练技术 [18]
OpenAI又开源了,仅0.4B,给模型大瘦身
36氪·2025-12-15 08:14