Workflow
又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限
机器之心·2025-10-03 03:39

机器之心报道 机器之心编辑部 推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性,但也增加了 上下文长度、token / 计算成本和答案延迟。 因此,问题来了:当前的模型能否利用其元认知能力,在这一帕累托前沿上提供其他组合策略,例如在降低上下文长度和 / 或延迟的情况下提高准确性? 带着这一问题,Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作 符,实现一系列可能的策略。 研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR) ,该方法包含以下步骤:(i) 并行生成多样化草稿;(ii) 将其蒸馏成一个有 限的文本工作区;(iii) 在此工作区的基础上进行精炼,生成的输出将作为下一轮的种子。重要的是,通过调整并行度,PDR 能够控制上下文长度(从而控制计算 成本),并且上下文长度不再与生成 token 的总数混淆。 根据当前模型在 PDR 实例中的应用,它 ...