大语言模型解码
搜索文档
NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程
机器之心· 2025-11-30 03:19
核心观点 - 提出一种全新的大语言模型解码视角,将其类比为推荐系统的排序阶段,并据此开发了名为Language Ranker的轻量级重排序框架,旨在以极低计算成本显著提升模型输出质量[2][6][33] 重新理解LLM:从“生成”到“推荐” - 大语言模型可被视为特殊推荐系统,将输入视为“用户信息”,在庞大候选响应空间中挑选最合适响应[3] - 模型关键组件与推荐系统一一对应:模型骨架对应特征工程,语言头对应召回层,解码方法对应排序层[4][6][11] - 现有主流解码方法如贪婪解码、束搜索等依赖固定规则缺乏学习能力,而基于奖励模型的重排序方法存在特征提取冗余和计算成本高昂的问题[6] Language Ranker框架 - 核心思想是直接复用主模型已提取的隐藏层特征,通过极小学习模块完成候选响应重排序,避免重复特征工程[8][14] - 框架包含三步:候选召回、特征提取(从模型底部约60%层提取最后一个token的隐藏状态)、候选排序(通过轻量Transformer或MLP计算相关性)[10] - 该模块参数极少,仅包含不到0.5M参数,比GPT-2小200多倍[9] - 具备极低训练与推理开销、即插即用、模块可分性等优势,支持CPU级别训练与部署,主模型可与Ranker在不同设备上独立运行[16][22] 实验结果 - 在多项任务中,仅需不到0.5M参数的Language Ranker达到或超越大规模奖励模型性能,例如在Qwen2.5-7B-Instruct模型上,ListRanker在MATH任务准确率达74.8%,优于GPT-2奖励模型的71.9%[19] - 训练效率极高,在MBPP任务上使用CPU仅需67秒即可完成训练,而GPT-2级别奖励模型需超过1小时[21][23] - 展现出优秀的跨任务与跨模型迁移泛化能力,在MATH内部七类子任务间迁移时性能下降均小于2%[24][26] - 遵循Ranker Scaling Law,随着候选响应数量从1增加至100,模型性能持续提升,例如在MATH任务中准确率从25%稳步上升至56%[31][34] 总结与展望 - 该框架通过共享主模型隐藏层特征,以极小参数实现与数千倍规模奖励模型相当性能,无需额外训练主模型且显著降低推理与部署门槛[33] - 天然支持个性化扩展,同一主模型可搭配不同Ranker以满足多样化场景需求,是迈向个性化智能体的重要一步[15][33]