MNIST数据集

搜索文档
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
具身智能之心· 2025-09-03 00:03
扩展定律的历史溯源 - 扩展定律(Scaling Laws)的核心观点是将模型性能与算力等资源投入相关联 成为构建先进大模型的重要参考标尺[2] - 康奈尔大学博士生Jack Morris指出扩展定律的真正探索者是贝尔实验室 其研究可追溯至1993年[3] - OpenAI联合创始人Greg Brockman认为贝尔实验室的研究结果跨越多个数量级和数十年时间 揭示了深度学习的根本[7] 贝尔实验室的扩展定律研究 - 1993年NeurIPS论文提出通过预测分类器性能来优化算力分配 避免高成本训练过程[12] - 研究证明模型错误率与训练数据量在对数曲线上呈现规律性 并适用于单层和多层网络[12] - 实验显示经过12000种模式训练后 新网络性能优于旧网络 证明模型规模扩大可提升智能水平[16] 论文作者贡献 - 一作Corinna Cortes论文引用量达104,248次 与Vladimir Vapnik共同提出支持向量机(引用77,000+次)并参与构建MNIST数据集[19][21] - 二作Lawrence D Jackel曾与Yann LeCun合作完成高引用研究 包括反向传播论文[23] - 三作Sara A Solla最高引用论文《Optimal brain damage》运用信息论优化神经网络规模[25] - 四作Vladimir Vapnik引用量335,349次 提出统计学习理论VC理论[27] - 五作John S Denker涉足多个领域 包括量子物理 计算机安全及神经网络 并拥有多项专利[29][30] 扩展定律的早期探索 - 心理学领域最早研究学习曲线概念[36] - Vladimir Vapnik在1960年代已研究样本大小的扩展定律[37] - Frank Rosenblatt在1958年感知器论文中清晰描述学习曲线[38] - 日本学者甘利俊一1992年论文证明学习曲线渐进行为 显示预测熵收敛规律与参数数量相关[40][41] 研究脉络总结 - 扩展定律的发展是跨学科跨时代的累积过程 从心理学 感知器到系统化研究 最终通过大规模实验验证[43] - 该定律并非突发顿悟 而是数十年理论与实践反复印证的结果 体现科学探索的长期积累[43]
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
机器之心· 2025-09-02 06:32
扩展定律的历史溯源 - 人工智能扩展定律的起源可追溯至1993年贝尔实验室发表的NeurIPS论文,该研究通过在不同规模数据集和模型上训练分类器并拟合幂律,首次系统揭示了模型性能与资源投入的关联 [1][3][7] - 论文提出通过预测方法避免高成本训练过程,证明单层及多层网络中错误率与训练数据量在对数曲线上呈现规律性变化,为后续扩展定律奠定理论基础 [10][14] - 研究显示经过12000种模式训练后新网络性能超越旧网络,证明模型规模扩大可提升智能水平,该定律从早期机器学习延伸至现代万亿参数模型(如GPT-4)仍持续有效 [14] 关键研究者与贡献 - 论文一作Corinna Cortes学术引用量超10.4万次,与Vladimir Vapnik合作提出支持向量机(引用7.7万次),并参与构建MNIST数据集 [17][19][20] - Vladimir Vapnik总引用量达33.5万次,提出统计学习理论核心的Vapnik-Chervonenkis理论,其1995年著作《统计学习理论的本质》成为领域里程碑 [25][26] - Lawrence D Jackel(引用4.8万次)与Yann LeCun合作完成高引用的反向传播研究,Sara A Solla(引用1.6万次)提出《Optimal Brain Damage》论文推动神经网络规模优化 [21][23][24] - John S Denker为跨领域天才研究者,涉足量子物理、神经网络及航空安全,拥有多项专利及50余篇论文 [27][28][31] 学术脉络的早期探索 - 扩展定律概念可能早于1993年:心理学领域最早探索学习曲线,Vladimir Vapnik于1960年代已研究样本规模定律,Frank Rosenblatt 1958年感知器论文已描述学习曲线 [34][35][36] - 日本学者甘利俊一1992年论文证明普适学习曲线渐近行为,提出预测熵收敛规律〈e*(t)〉~d/t(d为参数数量),较贝尔实验室研究更早 [38][39] - 扩展定律的发展是跨学科长期积累的结果,从心理学、感知器理论到统计学习与神经网络,经OpenAI等机构大规模验证后形成系统化定律 [41]