Workflow
ProTrek
icon
搜索文档
Nature Biotechnology:西湖大学原发杰/常兴团队等开发ProTrek,以自然语言“导航”蛋白质宇宙
生物世界· 2025-10-03 01:00
编辑丨王多鱼 排版丨水成文 想象一下,在未来,我们寻找功能特定的蛋白质,能像使用搜索引擎一样便捷 —— 只需输入一段自然语言 描述,即可在浩瀚的蛋白质宇宙中进行精准定位。 如今,这一设想正变为现实。西湖大学 原发杰 、 常兴 教授团队联合香港科技大学(广州) 卢泓远 教授 团队,成功开发出了 新型三模态蛋白质语言模型 —— ProTrek ,为蛋白质科学研究带来了新的范式。 这项研究成果于 2025 年 10 月 日,发表在了国际顶尖学术期刊 Nature Biotechnology 上,论文题为 : A trimodal protein language model enables advanced protein searches 。 蛋白质研究的挑战与机遇 蛋白质 作为生命活动的主要执行者,其序列、结构与功能之间的复杂关系 ( SSF 关系) 是现代分子科学 和药理学研究的基石 。然而,破译这一关系充满挑战。传统的分析工具,如 BLAST 和 Foldseek ,虽然 功能强大,但它们本质上被限制在单一模态内部进行成对比较,无法发现序列、结构与功能之间的跨模态 联系 。 这种方法的局限性,加上许多工具为 ...
华山论剑!蛋白质AI模型哪家强?西湖大学/百图生科推出首个全面测试基准
生物世界· 2025-06-24 08:45
蛋白质基础模型基准测试工具PFMBench 核心观点 - 蛋白质科学在AI浪潮中迎来革命性进展,但缺乏统一评估标准导致模型性能难以横向比较 [2][3] - PFMBench是首个全面评估蛋白质基础模型(PFM)的基准测试工具,涵盖38项任务和17个模型,解决行业评估碎片化痛点 [10][12] - 多模态模型(如ProTrek)在11项代表任务中胜率达75%,显著优于纯序列模型(如ESM-2仅50%) [19][22] 任务库设计 - 模块化架构覆盖8大领域:注释、溶解度、定位、突变、互作、结构、生产和零样本任务 [12] - 精选28项核心任务偏差低于5%,如溶解度预测DeepSol的AUROC达0.85,突变任务PETA_TEM相关性仅0.14 [13] - 通过聚类分析将38项任务归纳为11组代表任务,实现90%效率提升 [18] 模型库组成 - 17个模型分为四类:纯序列(8个)、序列-结构(3个)、序列-功能(3个)、序列-结构-功能(3个) [16] - 筛选12个核心模型标准:酶分类任务(EC)性能需达ESM-2的85%以上 [14] - ProTrek以EC分数0.764领先,ProtGPT2垫底(0.697) [14][22] 关键发现 - 多模态模型通过对比学习对齐序列与功能语义,在定位任务中边界清晰度优于纯序列模型 [19] - 零样本评估(如ProteinGym)与监督任务结果无相关性,ESM-2零样本Spearman 0.439高于ProTrek的0.359 [20] - 参数扩增性价比低:ESM-2参数从1.5亿增至150亿仅6/8任务显著提升,DoRA微调在结合任务超越Adapter [21] 行业影响 - 首次建立标准化评测体系,终结模型开发者"自卖自夸"现象 [25] - 开源代码推动社区复现与扩展,加速抗体设计/酶优化等生物医药应用 [25] - 证明多模态融合(结构/功能数据)是未来发展方向 [19][25]