物质结构学习
搜索文档
自回归科学基座模型 BigBang-Proton,提出实现 AGI 的新路线
AI科技大本营· 2025-11-07 05:59
核心观点 - 超对称公司发布的BigBang-Proton基座模型挑战了以OpenAI为代表的主流AGI技术路线,提出并验证了通过“物质结构学习”实现AGI的第三条路径 [1][2][4] - 该模型通过三项根本性创新,实现了跨微观粒子到宏观地球系统的多学科科学问题在单一自回归LLM上的统一预训练和推理,展示了语言引导科学计算的能力 [2][26][80] - 实验结果表明,主流LLM(如GPT-5、DeepSeek-R1)在理解真实物质结构和执行专业科学任务上遭遇失败,而BigBang-Proton在多个科学任务上达到或接近专用SOTA模型水平 [2][36][44][54][59][66][71][72][74] 技术创新 - **二进制块编码**:彻底抛弃传统的BPE等分词器,将所有输入数据(文本、代码、科学数值)统一视为原始二进制序列进行处理,解决了数值保真和跨模态统一表征的难题 [9][11][14][37] - **理论-实验学习范式**:建立数值型实验数据与文本理论描述的混合表示和直接对齐,使模型能整合符号推理与数据驱动学习,覆盖90%以上的实验科研任务 [13][18][19][48] - **蒙特卡罗注意力机制**:替代传统Transformer注意力,通过分块代表交流机制,使模型有效上下文长度随层数指数级增长,20层即可实现10³⁰字节的上下文容量,为模拟复杂物质结构奠定基础 [19][22][23] 模型性能表现 - **算术运算**:在50位数加法、减法和12位数乘法任务中,准确率分别达到100%、98%和90%,显著高于DeepSeek-R1(19.23%、11.63%、9.68%)和ChatGPT-o1(3.85%、6.98%、3.23%)[36][37] - **粒子喷注分类**:在11类分类任务中达到51.29%的准确率,与专用SOTA模型(ParT的56.69%)差距仅4-5个百分点,而主流LLM准确率接近随机猜测水平(10%)[44][46][47] - **材料形成能预测**:实现0.043 eV/atom的平均绝对误差,在Matbench榜单排名第11位,优于部分专用机器学习方法,而主流LLM的预测误差与之相差四到五个数量级 [54][56] - **湖泊水质预测**:在叶绿素-a浓度预测中实现0.58 μg/L的MAE和0.098的MAPE,达到与行业领先机器学习时序预测模型竞争的水平 [59] - **基因组建模**:以1.5B参数和Evo模型三分之一的训练数据量,在评估困惑度(2.8 vs 3.1)及预测突变对蛋白质功能影响(斯皮尔曼相关系数0.78546 vs 0.67)等多项任务上超越SOTA生物基座模型Evo [66][71][72][74] 行业影响与未来规划 - **挑战主流AGI路线**:指出仅依赖长程思维链和互联网自然语言数据无法实现AGI,提出LLM预训练应进入物质世界,其边界将扩展到全宇宙 [2][4][5][80] - **提出宇宙尺度压缩构想**:目标是在一个二进制序列中重建物理世界,将全宇宙的信息转为超长序列压缩到单一基座上,为所有AI分支任务提供基座 [5][81][82] - **广泛产业合作与应用**:模型正与中国高能物理所、强磁场中心、南京大学、上海交大等机构合作,应用于粒子对撞、核聚变、高温超导、虚拟细胞、地球系统建模及飞行器设计等前沿领域 [82][83]