Workflow
VC理论
icon
搜索文档
他们在1993年就提出了Scaling Law
量子位· 2025-09-02 06:17
Scaling Law历史溯源 - Scaling Law概念最早于1993年由贝尔实验室团队提出,而非普遍认为的2020年OpenAI或2017年百度[1] - 核心理论发表于《Learning Curves: Asymptotic Values and Rate of Convergence》论文,揭示训练误差与测试误差随训练规模增加按幂律形式收敛[4] - 该理论与现代Scaling Law高度一致:通过增加模型参数量(N)、训练数据量(D)和计算量(FLOPS)可预测性提升模型性能[6] 理论框架与实验验证 - 研究初衷为节省分类器训练的计算资源,通过中等规模数据集训练结果外推预测大规模数据表现[8][9] - 提出误差收敛公式:测试误差$\mathcal{E}_{\text{test}}=a+\frac{b}{l^{a}}$,训练误差$\mathcal{E}_{\text{train}}=a-\frac{c}{l^{a}}$,渐近误差a值范围0.5-1[10] - 在线性分类器的布尔分类任务中预测准确率达极高精度[15] - 在多层神经网络(如LeNet)中,仅用12000样本训练即可预测60000样本规模下的CNN性能表现[19] - 任务难度与渐近误差呈正相关,困难任务收敛速率更小(学习更慢)[22] 核心研究人员背景 - Vladimir Vapnik为支持向量机(SVM)主要发明者,1964年与Chervonenkis提出原始SVM算法,1992年在贝尔实验室开发核技巧处理非线性分类[27][28] - Corinna Cortes现任Google Research纽约分部副总裁,2022年当选ACM Fellow表彰其对机器学习贡献[30][33] - John S Denker与Yann LeCun合作完成手写识别经典论文,涉及机器学习、系统安全、好莱坞特效等多领域[35][36][37] 贝尔实验室的技术遗产 - 卷积神经网络与支持向量机均诞生于贝尔实验室,曾存在技术路线竞争[38] - 1995年Vapnik与Larry Jackel以豪华晚餐打赌神经网络可解释性,2000年Vapnik胜出但2005年局势逆转[38] - LeCun作为赌局见证人,亲历了神经网络从质疑到主流的技术演进过程[39]