大型语言模型推理优化

搜索文档
Z Tech|对话Meta FAIR研究科学家:利用Confidence动态过滤,告别低效推理
Z Potentials· 2025-09-05 02:27
DeepConf方法核心创新 - 利用大型语言模型内部置信度信号动态过滤低质量推理轨迹 实现推理效率与性能双重提升 [1] - 无需额外模型训练或超参数调优 可无缝集成现有服务框架 [8] - 分为离线和在线两种操作模式 适应不同推理场景需求 [8] 技术实现机制 - 采用组置信度、底部10%组置信度及尾部置信度作为核心评估指标 [8] - 在推理过程中或生成后实施动态过滤机制 [1] - 在线模式下相比全并行推理最多减少84.7%生成Token [10] 性能表现数据 - 离线模式DeepConf@512在GPT-OSS-120B模型上达到99.9%准确率 显著超越传统多数投票97.0%的基准 [10] - 在AIME2025等多个推理基准测试中均表现优异 [10] - 在线模式下在减少生成Token的同时实现准确率提升 [10] 研究人员背景 - Jiawei Zhao为Meta FAIR研究科学家 拥有加州理工学院博士学位 专注大型语言模型优化方法 [5] - Yichao Fu为加州大学圣地亚哥分校博士生 聚焦LLM推理优化与系统优化 [8] - 团队在NeurIPS 2024、ICML 2024等顶级会议发表多项相关研究成果 [8][12] 相关技术研究 - GaLore方法利用梯度低秩结构显著节省内存和计算资源 发表于ICML 2024 [12] - Mini-Sequence Transformers针对长序列训练进行中间内存优化 发表于NeurIPS 2024 [12] - HeadInfer通过head-wise offloading实现内存高效推理 S²FT为模型微调策略 均发表于NeurIPS 2024 [12]