无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

文章核心观点 - 研究提出了一种名为“最小描述长度”的新智能配方，挑战了智能必须源于大规模预训练和数据的假设[1][48] - 该方法通过一个仅76K参数、未经预训练的模型，在推理阶段最小化目标谜题的描述长度，成功在ARC-AGI-1基准上解决了20%的问题[3][7] - 这项研究被视为一条通往通用人工智能的可能的、互补的替代路径[48] 研究方法与原理 - 核心思想源自最小描述长度理论，旨在为特定谜题寻找能用最少比特信息表述的最短计算机程序，该程序即揭示了谜题的本质规律和解法[7][8][10] - 该方法不依赖训练集或预训练，仅使用谜题本身（两个示例输入/输出对和测试输入）进行推理[12] - 通过设计一个固定的“程序模板”，并将寻找最短程序的问题转化为寻找最短的种子和神经网络权重的问题[25][29] - 借鉴变分自编码器原理，将程序长度最小化转化为可微分的优化问题，使用KL散度和交叉熵损失来近似种子的预期长度，从而可用梯度下降求解[30][33][34] 模型架构与设计 - 模型参数极少，仅有76K参数[3][43] - 架构内置了强大的归纳偏置，包括对旋转、翻转、颜色置换等常见变换的等变性处理[38][39] - 使用“多张量”数据结构来存储不同粒度的信息，以支持更有效的抽象推理[40][41] - 核心骨干是类Transformer结构，但核心操作是一系列针对谜题规则高度定制的、无参数的自定义操作，而非传统注意力机制[42][44][46] 性能表现与对比 - 在ARC-AGI-1基准的公开评估集上，准确率达到20%，在训练集上达到34.75%[3][7][48] - 是目前唯一一个只在单个样本上运行的深度学习方法[4] - 相比其他方法：未使用训练集的暴力规则搜索准确率为40%，使用测试谜题训练的HRM变体为31%，使用训练和测试谜题训练的HRM为40.3%，基于互联网数据预训练的OpenAI o3模型则达到87.5%[4][19][20][21] - 该研究获得了ARC Prize 2025的第三名，且仅使用一张GPU完成[5] 实验与意义 - 为评估每个谜题提供2000个推理时训练步骤，每个谜题约花费20分钟[47] - 研究作为一个概念证明，展示了现代深度学习框架与最小描述长度理论结合的可能性[48] - 所针对的ARC-AGI-1基准由François Chollet提出，旨在评估AI处理新颖问题、习得技能的能力，是衡量通用人工智能能力的核心标尺之一[51][52]