Router Lens(路由透镜)
搜索文档
EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!
机器之心· 2025-11-15 06:23
研究背景与核心问题 - 研究聚焦于将混合专家模型与机制可解释性深度结合,旨在从底层机制理解复杂推理过程,该领域探索者稀少[4] - 研究针对稀疏模型提出了机制可解释性方法「Router Lens & CEFT」,核心是解决语言模型的上下文忠实性问题[7] - 上下文忠实性指模型在生成回复时严格以给定上下文为依据,不产生无关的幻觉信息,对检索增强生成等任务至关重要[10] 核心发现:上下文忠实专家的存在与特性 - 研究证实MoE模型中存在上下文忠实专家,这些专家擅长利用上下文信息[18] - 通过提出的RouterLens方法可有效识别上下文忠实专家,屏蔽这些专家会导致模型性能显著下降,甚至低于未微调的基础模型[20] - 不同任务下的上下文忠实专家各不相同,模型能根据任务需求自适应激活不同的专家,但调优后的路由网络具备跨任务泛化能力[23][25][26] 上下文忠实专家的工作机制 - 上下文忠实专家能够增强模型对上下文信息的注意力,表现为在中层扩大注意力范围以扫描信息,在深层收缩焦点于关键片段[31][32][33] - 这些专家通过逐步校正模型的内在决策路径,显著提升对正确答案的预测概率,强化对关键信息的整合与判断能力[35][36] 技术应用:上下文忠实专家微调 - 基于机制洞察开发了CEFT方法,仅对识别出的关键专家进行轻量化微调,实现了将机制理解转化为实际收益[7][38][39] - CEFT在多个基准测试中能以更高效率达到甚至超越全参数微调的效果,例如在OLMoE-1B-7B模型上,CEFT的EM和F1分数在全参数微调基础上均有提升[41][43] - CEFT显著减少了训练参数量,在OLMoE-1B-7B模型上实现了13.8倍的参数缩减,同时显著缓解了模型训练中的灾难性遗忘问题[44][46][47] 未来应用展望 - RouterLens技术可扩展用于识别与分析更多类型的专家,如推理、证明或编程专家[50] - 该技术能定位表现不佳或易误导的专家,实现MoE的"Debugging",并与SAE等机制可解释性技术结合以提升模型的可解释性与可控性[51]