Workflow
HiPO框架
icon
搜索文档
让LLM不再话痨,快手HiPO框架来了
机器之心· 2025-11-03 06:40
核心观点 - 快手与南京大学团队推出的HiPO框架解决了大语言模型普遍存在的“过度思考”问题,通过让模型自主决策何时启动深度推理,在显著提升效率的同时同步提高了准确率[4][5][25] 问题背景:LLM的“过度思考”困境 - 大语言模型在处理简单问题时习惯性启动冗长的链式思考,导致计算资源浪费、响应延迟增加和部署成本高昂[4][8] - 现有解决方案如基于训练的奖励机制或外部提示控制存在信号粗糙、依赖人工设计或属于事后补救等局限性[9][12] HiPO框架的核心组件 - **混合数据冷启动**:通过自动化流程为每个问题生成“思考”与“直接回答”两种模式的高质量响应,并引入模式选择的解释信号,使模型初步具备智能决策能力[11][14][15] - **混合强化学习奖励系统**:包含基础答案正确性奖励、防止“思考”惯性的动态偏差调整机制,以及分别指导模式选择合理性和答案质量的双重优势函数,实现精细化优化[16][17][18] 实验成果与性能表现 - 在AIME2024/2025、HumanEval等多个基准测试中,HiPO-8B模型平均准确率提升6.3%,同时平均令牌长度减少30%,思考率降低37%[22][23][25] - 模型展现出良好的任务自适应性,在AIME2024等复杂任务上“思考”模式激活率保持在70%以上,而在HumanEval等简单任务上该比率随训练显著下降[26] - 该方法在1.7B、8B和32B等不同参数规模的模型上均表现出一致的性能提升,证明了其强泛化能力[29][30] 行业影响与未来展望 - HiPO框架通过平衡推理的质与效,为LLM的大规模实用化部署提供了降低成本和延迟的直接解决方案[35] - 该研究为模型轻量化和增强元认知能力提供了新路径,代表LLM发展从“暴力计算”向“智能效率”的重要思路转变[32][33][35]