Workflow
神经切线核(NTK)增强的缩放律模型
icon
搜索文档
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
量子位· 2025-06-18 04:58
大模型选型框架LensLLM - 核心创新:提出理论驱动的选型框架LensLLM,通过数学建模预测微调性能,选型成本降低近90%[1][3][26] - 理论基础:基于PAC-Bayes泛化界限推导,首次揭示LLM微调中的非线性"相变"现象(预幂律相→幂律相)[9][13][14] - 技术实现:采用神经切线核(NTK)增强的缩放律模型,仅需极少量数据即可预测完整微调曲线[18][19][20] 性能验证 - 数据集表现:在FLAN/Wikitext/Gigaword数据集上,RMSE误差最低达基线方法的1/5,Pearson相关系数全面领先[22][23][24] - 模型覆盖:测试含OPT-1.3B、GPT-2、T5-base等13种模型,预测测试损失误差范围0.17-0.36(vs基线0.87-1.50)[21][24] - 效率突破:渐进式采样机制使计算成本比FullTuning降低88.5%,选型准确率保持91.1%[26][27] 应用场景 - 工业部署:适用于边缘设备选型、A/B测试加速,显著缩短模型迭代周期[28] - 扩展方向:计划支持多任务环境及MoE模型结构,构建通用选型系统[28] - 学术认可:研究成果被ICML 2025收录,已开源代码[4][28]