400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？

分层推理模型(HRM)架构分析 - 提出受大脑启发的HRM架构仅用1000个训练任务和2700万参数模型就在ARC-AGI-1基准取得41%得分[3] - 模型通过迭代优化脉冲工作每次脉冲产生预测输出网格和"停止或继续"得分[19] - 架构包含H(慢速规划器)和L(快速执行器)两个耦合循环模块共同更新共享隐藏状态[20] 性能验证结果 - 在ARC-AGI-1半私有集获得32%得分运行时间9小时16分钟总成本148.5美元[29] - 在ARC-AGI-2上仅获得2%得分运行时间12小时35分钟总成本201美元[30] - 从公开评估集41%下降到半私有集32% 9个百分点下降幅度处于正常波动偏高范围[29] 架构有效性分析 - 分层架构对性能影响微乎其微与同等规模Transformer相比性能差异仅约5个百分点[36] - 增加或减少H-level和L-level迭代次数都会导致性能下降[40] - 外循环优化过程带来显著性能提升从无优化到1次优化性能跃升13个百分点[46] 训练方法关键发现 - 跨任务迁移学习益处有限绝大部分性能来自对评估时特定任务解决方案的记忆[52] - 预训练任务增强至关重要仅使用300次增强就已接近最大性能[57] - 用更多优化步骤训练可将单次优化循环预测性能提高超过15个百分点[50] 技术实现特点 - 使用puzzle_id嵌入层处理任务模型只能应用于训练时见过的puzzle_id[59] - 采用转导性预测方法在嵌入空间中进行深度学习的直接输出[21] - 推理数据必须是训练数据集的一部分独立改变增强数量不直接[60] 计算资源使用 - HRM使用比同等规模Transformer更多计算资源可能部分解释性能差异[39] - 运行成本较高是因为训练和推理耦合在单次运行中[29] - 自适应计算时间能减少每个任务的实际优化步数但与固定循环相比差异仅几个百分点[46]