Workflow
递归推理架构
icon
搜索文档
三星 TRM 论文:少即是多,用递归替代深度,挑战 Transformer 范式
36氪· 2025-11-03 12:51
模型架构创新 - 提出Tiny Recursive Model(TRM),仅使用700万参数和两层神经网络,在多项高难度推理任务中超越了DeepSeek R1、Gemini 2.5 Pro等大型模型[4] - 模型放弃了自注意力层(TRM-MLP变体),对于小规模固定输入任务,使用多层感知机(MLP)能减少过拟合[4][11] - 通过递归更新“答案y”和“潜在思考变量z”实现多轮自我修正推理,核心逻辑是“递归即深度”,用深度递归替代增加网络层数[6][14] 性能表现 - 在Sudoku-Extreme任务上准确率达到87.4%,刷新纪录[6][13] - 在Maze-Hard数据集上测试准确率为85.3%,比其前身HRM模型高出10个百分点[8][14] - 在ARC-AGI推理基准上获得45%(ARC-AGI-1)与8%(ARC-AGI-2)的准确率,高于多数大型模型[6] 效率提升 - 与HRM模型相比,TRM参数量减少约74%,单步前向次数减半,同时提升准确率[8] - 取消了传统的“继续计算”机制(Adaptive Computational Time, ACT)中第二次前向传播,改用简单二元判断决定停止推理,训练速度显著提升且准确率几乎不变[9][10] - 研究发现两层网络的泛化能力优于更深模型,当层数增加到四层或以上时性能因过拟合而下降[14] 技术启示 - 挑战了“模型越大越强”的经验法则,提出“以递归取代规模,以思考取代堆叠”的新路径[14] - 通过循环式自我修正将推理划分为多个小步,显著降低大模型在生成式推理中的错误放大效应[14] - 为边缘AI与低资源应用提供了新方向,表明智能深度可能来自重复思考而非规模[14]