模型可解释性
搜索文档
OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队
量子位· 2025-11-15 02:08
研究核心观点 - OpenAI公开了一项内部研究,旨在通过训练稀疏模型来提升大型语言模型的可解释性,使模型的内部工作机制更易于人类理解[5][7][9] - 该方法的核心思路是训练神经元连接少但神经元数量多的模型,通过强制将大部分权重设为0来简化网络结构,从而更容易识别完成特定任务的最小计算单元(即“回路”)[7][11][13] - 研究表明,通过训练更大、更稀疏的模型,可以生成功能更强大但回路更简单的模型,这为理解更复杂模型的行为提供了潜在路径[26][27] 研究方法与发现 - 研究人员训练了一个基于类似GPT-2架构的小模型,关键改动是强制将模型的大部分权重设为0,从而创建一个稀疏网络[11] - 为评估可解释性,研究设计了一系列简单算法任务,并为每个任务提取出能精准完成该任务的“最小回路”[18] - 回路被定义为由节点和边组成的图,其规模通过边数的几何平均值进行量化[16][17] - 在一个具体任务示例中(预测字符串结尾引号类型),得到的回路仅使用了5个残差通道、第0层的两个MLP神经元以及第10层的特定注意力通道,流程清晰可解释[20][22] - 对于更复杂的行为(如变量绑定),虽然难以完全解释,但仍可得出相对简单的部分解释以预测模型行为[23] 研究局限与未来方向 - 该研究仍处于早期阶段,所使用的稀疏模型比前沿模型小得多,且即使稀疏模型也存在部分“黑盒”计算[30] - 当前稀疏模型的训练效率较低,未来可能通过从现有密集模型中提取稀疏回路,或开发更高效的训练技术来解决[31][32] 研究团队背景 - 论文通讯作者为Leo Gao,其研究方向是AGI对齐,曾参与GPT-Neo和GPT-4的研究,论文被引数超过3.5万次,h-index为19[34] - 研究团队由6位成员组成,包括来自MIT、斯坦福等院校的实习生以及OpenAI内部资深研究科学家,具备跨学科背景[36][37][38][39][40]
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park· 2025-05-28 13:13
强化学习在大语言模型中的应用 - 2025年最大的变化是强化学习在语言模型训练上真正奏效 通过可验证奖励的强化学习 模型在竞技编程和数学领域达到专家级人类表现 [1][4][6] - 强化学习主要作用是激活模型已有知识并将其组织成解决方案 而非从零学习 [4][27] - Gemini 2 5 Pro和Claude Opus 4的发布验证了这一趋势 模型在长期任务和多步动作管理上表现突出 [2][31][32] 模型训练与能力提升 - 当前行业普遍采用"算力优先 数据其次"的预算分配策略 但未来可能转向更平衡的方式 [4][21] - 模型规模越大学习效率越高 所需示范越少 大模型能将不同语言表示整合在统一共享子空间中提升泛化能力 [25][26] - Opus 4最大突破是时间跨度扩展 能处理数小时工作量任务而无需频繁用户介入 [31][32] 模型可解释性与安全研究 - 机制可解释性是对神经网络进行逆向工程 找出其计算基本单元 模型是"生长"而非"建造"出来的 [47][48] - 目前已识别出3000万个特征 包括抽象概念如"代码漏洞" 并能追踪模型内部推理回路 [49][50][51] - 模型安全研究需要多管齐下 包括宏观探针和微观机制分析 [52][53] AI Agent发展趋势 - 未来用户可能同时管理多个模型执行任务 交互方式类似"模型舰队管理" [34][37] - 用AI操作电脑执行复杂任务并不难 核心限制在于上下文和记忆系统管理 [4][5] - 预计2025年底出现能完成初级工程师一天工作量的高效软件Agent系统 [9][36] 行业竞争与技术突破 - DeepSeek在模型研发上展现出优秀"品味" 其设计体现"硬件-算法共舞"思维 [63][64] - DeepSeek从落后位置快速跃升为有力竞争者 成功吸收行业效率提升红利 [61][62] - 模型发布节奏预计将远超去年 2025年进展速度明显加快 [38] 模型自我意识与沟通 - 当前模型没有哲学意义上的自我意识 但能模拟特定身份和记忆 [40][42] - Agent之间可能发展出人类无法理解的Neuralese沟通方式 文本渲染可隐藏信息 [75][83] - 模型已具备一定元认知能力 能表达不确定性 但缺乏持续身份感 [39][44] 算力与推理瓶颈 - 推理计算可能成为AGI发展瓶颈 当前全球约1000万张H100等效算力 2028年或达1亿张 [84][88] - 人类思维速度约每秒10个token 一张H100每秒可处理约100个"人类思维" [86][87] - 模型规模与推理效率需平衡 存在帕累托前沿最优解 [90] 模型优化方向 - 现阶段重点应是提高模型底线质量 而非追求极致表现 [93][95] - 通过排除明显低质量输出来提升整体表现 类似人类写作训练过程 [94] - 大语言模型被视为"雏形AGI" 因其具备对真实世界的概念性理解 而AlphaZero缺乏这一基础 [97]