ProTrek - 财报，业绩电话会，研报，新闻

ProTrek

搜索文档

Nature Biotechnology：西湖大学原发杰/常兴团队等开发ProTrek，以自然语言“导航”蛋白质宇宙

生物世界· 2025-10-03 01:00

文章核心观点 - 西湖大学与香港科技大学（广州）联合团队开发出新型三模态蛋白质语言模型ProTrek，该模型通过融合蛋白质的氨基酸序列、三维结构和自然语言功能描述，实现了跨模态的精准蛋白质搜索，为蛋白质科学研究带来新范式 [3][9] 蛋白质研究的挑战与机遇 - 蛋白质序列、结构与功能之间的复杂关系是现代分子科学和药理学研究的基石，但传统分析工具如BLAST和Foldseek被限制在单一模态内进行成对比较，无法发现跨模态联系 [6] - 传统工具为追求计算效率而优先考虑局部相似性，常忽视蛋白质关键全局信息，导致UniProt数据库中约30%的蛋白质因与已知同源物系统发育距离遥远而无法被功能注释，成为"暗物质" [6] ProTrek模型的技术创新 - ProTrek采用创新的三模态统一框架，首次将蛋白质的氨基酸序列、三维结构和自然语言功能描述融合于一个统一语言模型中 [9][20] - 其核心是三模态对比学习策略，通过双向对齐框架在序列-结构、结构-功能、功能-序列三个维度上建立强关联 [9] - 模型架构融合了三个专用语言模型编码器：用于氨基酸序列的ESM编码器、用于自然语言功能描述的BERT编码器、以及用于三维结构编码的BERT式网络 [9] - 团队构建了包含四千万"蛋白质-文本"对的大规模数据集对ProTrek进行训练，该数据集规模超出已有文献的100倍 [9] ProTrek模型的性能表现 - 在标准蛋白质功能检索基准测试中，ProTrek表现比现有顶尖方法ProteinDT和ProtST提升了超过30-60倍 [11] - ProTrek具备"全局"表征学习能力，能克服传统工具的"局部"限制，成功识别序列和结构差异巨大但功能相似的"趋同进化"蛋白 [11] - ProTrek线上服务器收录超过50亿蛋白质数据信息，处理速度比传统工具快100倍以上，可在数秒内完成海量数据库检索 [15][22] 湿实验验证与应用潜力 - 通过湿实验验证，团队利用ProTrek从包含2亿蛋白质的数据库中寻找与人类尿嘧啶DNA糖基化酶功能相似的新蛋白 [15] - 搜索到的候选蛋白V1经过基因编辑实验验证，表现出比现有T碱基编辑器TSBE3 EK和gTBE更高的编辑效率和更低的脱靶效应 [15] - 该验证证明了ProTrek发现全新功能蛋白的能力，展示了从计算设计到实验验证的完整闭环能力 [15][23] 研究意义与行业影响 - ProTrek为解码蛋白质宇宙提供了全新工具，将蛋白质研究效率和深度提升到新高度 [18] - 该模型通过连接复杂分子数据与直观自然语言，促进了人类对蛋白质世界的理解 [18] - ProTrek为大规模注释未知蛋白质功能、加速新酶发现和药物设计提供了坚实技术支持 [18] - 该技术有望在蛋白质科学的多个领域催生新的科学发现，并为探索生命趋同进化的奥秘开辟新道路 [18]

Protein Research

Multimodal Language Model

Multimodal Language Model

华山论剑！蛋白质AI模型哪家强？西湖大学/百图生科推出首个全面测试基准

生物世界· 2025-06-24 08:45

蛋白质基础模型基准测试工具PFMBench 核心观点 - 蛋白质科学在AI浪潮中迎来革命性进展，但缺乏统一评估标准导致模型性能难以横向比较 [2][3] - PFMBench是首个全面评估蛋白质基础模型（PFM）的基准测试工具，涵盖38项任务和17个模型，解决行业评估碎片化痛点 [10][12] - 多模态模型（如ProTrek）在11项代表任务中胜率达75%，显著优于纯序列模型（如ESM-2仅50%） [19][22] 任务库设计 - 模块化架构覆盖8大领域：注释、溶解度、定位、突变、互作、结构、生产和零样本任务 [12] - 精选28项核心任务偏差低于5%，如溶解度预测DeepSol的AUROC达0.85，突变任务PETA_TEM相关性仅0.14 [13] - 通过聚类分析将38项任务归纳为11组代表任务，实现90%效率提升 [18] 模型库组成 - 17个模型分为四类：纯序列（8个）、序列-结构（3个）、序列-功能（3个）、序列-结构-功能（3个） [16] - 筛选12个核心模型标准：酶分类任务（EC）性能需达ESM-2的85%以上 [14] - ProTrek以EC分数0.764领先，ProtGPT2垫底（0.697） [14][22] 关键发现 - 多模态模型通过对比学习对齐序列与功能语义，在定位任务中边界清晰度优于纯序列模型 [19] - 零样本评估（如ProteinGym）与监督任务结果无相关性，ESM-2零样本Spearman 0.439高于ProTrek的0.359 [20] - 参数扩增性价比低：ESM-2参数从1.5亿增至150亿仅6/8任务显著提升，DoRA微调在结合任务超越Adapter [21] 行业影响 - 首次建立标准化评测体系，终结模型开发者"自卖自夸"现象 [25] - 开源代码推动社区复现与扩展，加速抗体设计/酶优化等生物医药应用 [25] - 证明多模态融合（结构/功能数据）是未来发展方向 [19][25]