Workflow
LLM Agent训练
icon
搜索文档
字节跳动这篇论文对理想有帮助的
理想TOP2· 2025-09-15 15:32
文章核心观点 - 字节跳动一篇论文揭示了当前LLM Agent训练中的核心困境:在最终结果“非成即败”的长任务中,学习信号的强度与模型决策时的不确定性存在有害的耦合关系,导致训练效率低下且不稳定 [2][3] - 论文提出了一种名为“熵调制策略梯度”的新方法,通过自校准梯度缩放和未来清晰度奖励两个组件,强行解耦上述有害关系,旨在从根本上引导模型找到更优策略并提升训练稳定性 [4][5][6] 传统强化学习方法的缺陷 - 传统方法在长任务完成后,无论个体步骤贡献如何,成功则所有步骤均获奖励,失败则所有步骤均受惩罚,这种稀疏奖励机制效率极低 [3] - 现有解决方案要么需要高昂代价的人工标注中间奖励,要么存在理论缺陷,例如利用模型自身不确定性作为信号易导致模型陷入“自信地犯错”的恶性循环 [3] 有害耦合关系的具体表现与影响 - 耦合关系表现为:模型非常自信时调整力度天然很小,非常迷茫时调整力度天然很大 [4] - 这种关系导致三大有害影响:自信正确的步骤仅得微调、自信错误的步骤仅受微调、不确定的探索步骤却承受最剧烈奖惩,造成训练非常不稳定 [2][4] - 其后果是模型在训练到一定程度后易陷入性能平台期,学习停滞,甚至在后期出现策略崩溃和性能雪崩 [6] EMPG方法的构成与原理 - 自校准梯度缩放组件通过放大自信步骤的梯度更新幅度和衰减不确定步骤的梯度更新幅度来修正梯度大小,解决熵-梯度耦合问题 [4][5] - 未来清晰度奖励组件提供额外内在激励,奖励那些能引导智能体进入更确定、更清晰未来状态的动作,激励模型主动寻找可预测的解决方案路径 [5][6] - 两个组件角色互补,梯度缩放提升模型在域外任务的泛化能力,未来清晰度奖励帮助模型掌握域内任务的分布规律 [7][8] EMPG方法的优势与效果 - 该方法能帮助智能体突破性能瓶颈,达到原本无法企及的更高性能水平,其效果不只是加速学习,更是引导模型找到更优策略 [6] - 实验数据显示,加入EMPG后,基线方法的KL损失全程保持平稳,证明了其有效的正则化效果和训练稳定性 [6] - 该研究创新地在步骤级别而非词元级别分析熵,指出步骤级别的熵动态变化必须在相应层面进行调整 [8]