分层推理模型(HRM)架构分析 - 提出受大脑启发的HRM架构 仅用1000个训练任务和2700万参数模型就在ARC-AGI-1基准取得41%得分[3] - 模型通过迭代优化脉冲工作 每次脉冲产生预测输出网格和"停止或继续"得分[19] - 架构包含H(慢速规划器)和L(快速执行器)两个耦合循环模块 共同更新共享隐藏状态[20] 性能验证结果 - 在ARC-AGI-1半私有集获得32%得分 运行时间9小时16分钟 总成本148.5美元[29] - 在ARC-AGI-2上仅获得2%得分 运行时间12小时35分钟 总成本201美元[30] - 从公开评估集41%下降到半私有集32% 9个百分点下降幅度处于正常波动偏高范围[29] 架构有效性分析 - 分层架构对性能影响微乎其微 与同等规模Transformer相比性能差异仅约5个百分点[36] - 增加或减少H-level和L-level迭代次数都会导致性能下降[40] - 外循环优化过程带来显著性能提升 从无优化到1次优化性能跃升13个百分点[46] 训练方法关键发现 - 跨任务迁移学习益处有限 绝大部分性能来自对评估时特定任务解决方案的记忆[52] - 预训练任务增强至关重要 仅使用300次增强就已接近最大性能[57] - 用更多优化步骤训练可将单次优化循环预测性能提高超过15个百分点[50] 技术实现特点 - 使用puzzle_id嵌入层处理任务 模型只能应用于训练时见过的puzzle_id[59] - 采用转导性预测方法 在嵌入空间中进行深度学习的直接输出[21] - 推理数据必须是训练数据集的一部分 独立改变增强数量不直接[60] 计算资源使用 - HRM使用比同等规模Transformer更多计算资源 可能部分解释性能差异[39] - 运行成本较高是因为训练和推理耦合在单次运行中[29] - 自适应计算时间能减少每个任务的实际优化步数 但与固定循环相比差异仅几个百分点[46]
400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
机器之心·2025-08-17 04:28