Workflow
SimpleFold
icon
搜索文档
字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段
量子位· 2025-10-01 03:03
核心观点 - 字节跳动Seed团队Protenix项目组提出新一代蛋白设计方法PXDesign,在生成效率与湿实验成功率方面达到领域领先水平[1][3] - PXDesign采用“生成+过滤”组合技术路线,其中基于Diffusion的PXDesign-d方案在生成质量、通量和结构多样性方面表现最佳[13][16] - 团队推出公开免费的在线设计服务PXDesign Server及标准化评估工具箱PXDesignBench,显著降低蛋白设计门槛并推动领域标准化发展[4][27][32] 技术突破与性能表现 - PXDesign在24小时内可生成数百个高质量候选蛋白,生成效率较业界主流方法提升约10倍[3] - 在多个靶点上实现20%-73%的湿实验成功率,相同靶点相较DeepMind的AlphaProteo提升2-6倍[3][10] - 针对VEGF-A、H1、TNF-α等高难度靶点,PXDesign-d效率较以往方法提升数倍甚至数百倍[16] 方法架构优势 - PXDesign-d采用复杂度为O(N²)的DiT网络结构,相比RFdiffusion的O(N³)模块可实现更大规模数据训练和更高生成效率[17] - 对比Hallucination路线(需多轮迭代调用结构预测模型),PXDesign-d无需反向传播优化,速度显著提升[18] - 过滤环节结合自研Protenix模型与AlphaFold 2,构建更稳定精准的筛选标准,Protenix-Mini模型将200步扩散过程简化为2步,效率提升数倍[22][24][25] 工具与服务创新 - PXDesign Server提供Preview模式(20-30分钟返回5-25个候选)和Extended模式(生成更多高质量候选),支持一站式binder设计[28][30][31] - PXDesignBench整合主流评估指标与流程,开源评估框架助力领域公平比较与方法迭代[32] - 免费网页服务突破计算开销限制,使高水平binder设计成为常规科研工具[4][20][29] 行业背景与意义 - 2024年诺贝尔化学奖授予蛋白结构预测与计算设计领域,凸显“反向设计”新蛋白的学术与产业价值[6][7] - AI蛋白设计有望替代传统高通量实验筛选(需数万候选分子),为癌症、感染等疾病带来全新疗法[8][9][12] - 科技巨头加速布局生物计算领域(如微软BioEmu、苹果SimpleFold),预示AI驱动生物制药行业成为新竞争高地[33][34]
苹果掀桌,扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
36氪· 2025-09-27 23:59
蛋白质折叠模型技术突破 - 研究人员构建了一个名为SimpleFold的全新蛋白质折叠模型架构,其核心是基于标准Transformer模块与自适应层,旨在直接通过氨基酸序列预测蛋白质的三维原子结构 [1][4] - 该模型采用“流匹配”生成方法,将结构生成过程视为一个随时间推进的旅程,通过常微分方程进行轨迹积分,最终从噪声中生成清晰结构 [6] - SimpleFold的设计理念与AlphaFold2等经典模型不同,它摒弃了三角更新、成对表示和多序列比对等复杂且高度专业化的组件,转而采用通用架构让模型从数据中自主学习 [3][4] 模型架构与设计创新 - SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干网络和轻量原子解码器,这种“细—粗—细”的层级设计在预测速度与精度之间取得了良好平衡 [8][10] - 模型完全基于非等变的Transformer构建,不依赖等变架构,为应对蛋白质结构的旋转对称性,在训练时引入了SO(3)数据增强 [10] - 与以往方法不同,SimpleFold既不使用对表示,也不依赖多序列比对或蛋白语言模型的注意力初始化,实现了架构上的简化 [10] 模型训练与扩展性 - 为研究框架的扩展能力,研究人员训练了参数规模从1亿到30亿不等的多个SimpleFold模型,包括100M、360M、700M、1.1B、1.6B和3B版本 [11] - 训练策略借鉴了AlphaFold2,在同一蛋白的每张GPU上复制多份,各自抽取不同时间步,再从多个蛋白累积梯度,实验表明此策略能带来更稳定的梯度和更优性能 [12][13] - 随着模型规模增大,研究人员对原子编码器、解码器和残基主干网络进行了全链路升级,模型做大不仅是增加参数 [11] - 研究证明SimpleFold具有良好的可扩展性,更大规模的模型在训练资源更充足的情况下表现更佳,为通用生成模型在生物领域大规模应用指明了路径 [35] 模型性能评估(基准测试) - 在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上评估了SimpleFold的性能 [14] - 在CAMEO22基准上,SimpleFold的表现与目前最先进的模型相当,如ESMFold、RoseTTAFold2和AlphaFold2 [19] - 尽管架构简洁,但SimpleFold在多数指标上能达到RoseTTAFold2和AlphaFold2性能的95%以上 [20] - 在更具挑战性的CASP14基准上,SimpleFold甚至超越了ESMFold [21] - 模型跨基准的性能下降更小,说明其不依赖多序列比对也能稳健泛化,能够应对更复杂的结构预测任务 [22] - 即便是最小的SimpleFold-100M模型,在CAMEO22上也能实现ESMFold性能的90%以上,验证了基于通用结构模块构建蛋白质折叠模型的可行性 [23] 结构集合生成能力 - 采用生成式目标使SimpleFold能够直接建模结构分布,而非仅输出单一结构,因此可以同一条氨基酸序列生成多个不同构象组成的结构集合 [28] - 在ATLAS数据集上的测试表明,SimpleFold在多个评估指标上持续优于同样依赖ESM表征的ESMFlow-MD模型 [31] - 在暴露残基与互信息矩阵等关键可观测性指标上,SimpleFold也胜过AlphaFlow-MD,这有助于挖掘药物发现中常见的“隐性口袋” [31] - 在Apo/holo数据集上,SimpleFold取得了当前最优表现,显著超越了AlphaFlow等强大的多序列比对方法 [32] - 在Fold-switch数据集上,SimpleFold的表现与ESMFlow相当甚至更优 [33] - 模型的结构集合生成性能随着模型规模的增加而提升,展示了该框架在此方面的巨大潜力 [33]
苹果发布轻量AI模型SimpleFold,大幅降低蛋白质预测计算成本
环球网资讯· 2025-09-25 02:49
文章核心观点 - 苹果公司发布轻量级蛋白质折叠预测人工智能模型SimpleFold 该模型采用流匹配方法替代传统复杂模块 在保障预测性能的同时显著降低计算成本 有望推动药物研发与新材料探索 [1] 技术方法创新 - SimpleFold创新性采用流匹配方法 替代传统模型中依赖的多序列比对等计算密集型特定架构 [1] - 流匹配方法能直接从随机噪声中一次性生成蛋白质目标结构 有效跳过多步去噪环节 从而大幅减少计算量并显著提升生成速度 [4] - 该技术已在文本生成图像和3D建模等领域成功应用 其高效性得到验证 [4] 模型性能表现 - 研究人员构建了参数规模从1亿到30亿不等的多个SimpleFold模型版本 并在CAMEO22和CASP14两大权威基准测试中进行评估 [4] - 模型在CAMEO22测试中性能达到AlphaFold2和RoseTTAFold2的约95% [5] - 参数规模更小的SimpleFold-100M版本 在保持高效计算特性的同时 性能超过ESMFold的90% [5] - 测试结果显示SimpleFold性能稳定优于同类流匹配模型ESMFold 整体表现可与顶尖蛋白质折叠预测模型媲美 [4] 行业影响与意义 - 该模型显著降低了蛋白质折叠预测的硬件门槛 为更多科研团队开展相关研究创造有利条件 [1] - 精准的蛋白质折叠预测结果能为疾病机理研究和药物设计提供关键支撑 [1] - 此项成果证明了通用架构模块在蛋白质预测领域的可行性与竞争力 [5]