Workflow
模块化流形(Modular Manifolds)研究成果
icon
搜索文档
翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文
量子位· 2025-09-27 04:46
公司研究论文 - Thinking Machines发布第二篇研究论文"Modular Manifolds" 由OpenAI前CTO Mira Murati站台支持 翁荔等业界人士转发[1] - 论文唯一作者Jeremy Bernstein提出模块化流形优化方法 通过约束整个网络层/模块在统一流形框架提升训练稳定性和效率[2][10] - 研究针对神经网络训练中权重/激活/梯度数值过大过小引发的梯度爆炸/消失及效率低下问题[2][8] 技术方法创新 - 采用Stiefel流形约束权重矩阵 使矩阵列向量正交且条件数为1 显著提升数值稳定性和抗干扰能力[10][18][20] - 设计流形Muon优化算法 包含梯度投影至切空间、参数更新、Retraction投影回流形三步流程[14][23][24] - 将单矩阵约束推广至模块化流形概念 通过笛卡尔积拼接各层流形 以最大范数统一分配学习率实现全局协调[26][28][29] 实验验证结果 - 在CIFAR-10数据集训练小规模MLP 流形Muon算法训练/测试准确率略优于AdamW 权重奇异值更集中稳定[23] - 算法每步运行时间稍慢于AdamW 主要因dual ascent计算和投影环节额外开销 后续可通过优化步数和引入动量改进[23][26] 作者背景与影响 - 作者Jeremy Bernstein拥有剑桥大学物理学位 加州理工计算与神经系统博士 现任Thinking Machines研究员及MIT博士后[33][34] - 其谷歌学术h-index为13 代表作signSGD论文被引1368次 研究方向聚焦非凸优化、贝叶斯推断及神经网络[35][36] - 论文虽单人署名 但实际融合数学、计算机科学及工程学多学科合作 作者本人从物理转向机器学习体现跨界研究能力[37][40] 公司发展动态 - Thinking Machines首篇论文于2024年9月10日发布 主题为克服LLM推理中的非确定性 由Horace He主导[42][43][44] - 清华姚班校友陈丹琦已加入公司 其团队最新提出可验证奖励强化学习(RLVR)方法 相关论文同步发布[47][49] - 公司当前估值达120亿美元(约840亿元人民币) 研究成果持续输出预示产品即将面世[52]