Workflow
支持向量机
icon
搜索文档
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
机器之心· 2025-09-02 06:32
扩展定律的历史溯源 - 人工智能扩展定律的起源可追溯至1993年贝尔实验室发表的NeurIPS论文,该研究通过在不同规模数据集和模型上训练分类器并拟合幂律,首次系统揭示了模型性能与资源投入的关联 [1][3][7] - 论文提出通过预测方法避免高成本训练过程,证明单层及多层网络中错误率与训练数据量在对数曲线上呈现规律性变化,为后续扩展定律奠定理论基础 [10][14] - 研究显示经过12000种模式训练后新网络性能超越旧网络,证明模型规模扩大可提升智能水平,该定律从早期机器学习延伸至现代万亿参数模型(如GPT-4)仍持续有效 [14] 关键研究者与贡献 - 论文一作Corinna Cortes学术引用量超10.4万次,与Vladimir Vapnik合作提出支持向量机(引用7.7万次),并参与构建MNIST数据集 [17][19][20] - Vladimir Vapnik总引用量达33.5万次,提出统计学习理论核心的Vapnik-Chervonenkis理论,其1995年著作《统计学习理论的本质》成为领域里程碑 [25][26] - Lawrence D Jackel(引用4.8万次)与Yann LeCun合作完成高引用的反向传播研究,Sara A Solla(引用1.6万次)提出《Optimal Brain Damage》论文推动神经网络规模优化 [21][23][24] - John S Denker为跨领域天才研究者,涉足量子物理、神经网络及航空安全,拥有多项专利及50余篇论文 [27][28][31] 学术脉络的早期探索 - 扩展定律概念可能早于1993年:心理学领域最早探索学习曲线,Vladimir Vapnik于1960年代已研究样本规模定律,Frank Rosenblatt 1958年感知器论文已描述学习曲线 [34][35][36] - 日本学者甘利俊一1992年论文证明普适学习曲线渐近行为,提出预测熵收敛规律〈e*(t)〉~d/t(d为参数数量),较贝尔实验室研究更早 [38][39] - 扩展定律的发展是跨学科长期积累的结果,从心理学、感知器理论到统计学习与神经网络,经OpenAI等机构大规模验证后形成系统化定律 [41]
他们在1993年就提出了Scaling Law
量子位· 2025-09-02 06:17
Scaling Law历史溯源 - Scaling Law概念最早于1993年由贝尔实验室团队提出,而非普遍认为的2020年OpenAI或2017年百度[1] - 核心理论发表于《Learning Curves: Asymptotic Values and Rate of Convergence》论文,揭示训练误差与测试误差随训练规模增加按幂律形式收敛[4] - 该理论与现代Scaling Law高度一致:通过增加模型参数量(N)、训练数据量(D)和计算量(FLOPS)可预测性提升模型性能[6] 理论框架与实验验证 - 研究初衷为节省分类器训练的计算资源,通过中等规模数据集训练结果外推预测大规模数据表现[8][9] - 提出误差收敛公式:测试误差$\mathcal{E}_{\text{test}}=a+\frac{b}{l^{a}}$,训练误差$\mathcal{E}_{\text{train}}=a-\frac{c}{l^{a}}$,渐近误差a值范围0.5-1[10] - 在线性分类器的布尔分类任务中预测准确率达极高精度[15] - 在多层神经网络(如LeNet)中,仅用12000样本训练即可预测60000样本规模下的CNN性能表现[19] - 任务难度与渐近误差呈正相关,困难任务收敛速率更小(学习更慢)[22] 核心研究人员背景 - Vladimir Vapnik为支持向量机(SVM)主要发明者,1964年与Chervonenkis提出原始SVM算法,1992年在贝尔实验室开发核技巧处理非线性分类[27][28] - Corinna Cortes现任Google Research纽约分部副总裁,2022年当选ACM Fellow表彰其对机器学习贡献[30][33] - John S Denker与Yann LeCun合作完成手写识别经典论文,涉及机器学习、系统安全、好莱坞特效等多领域[35][36][37] 贝尔实验室的技术遗产 - 卷积神经网络与支持向量机均诞生于贝尔实验室,曾存在技术路线竞争[38] - 1995年Vapnik与Larry Jackel以豪华晚餐打赌神经网络可解释性,2000年Vapnik胜出但2005年局势逆转[38] - LeCun作为赌局见证人,亲历了神经网络从质疑到主流的技术演进过程[39]