文章核心观点 基于机器学习的人工智能工具正在彻底改变蛋白质结构研究和设计领域,以AlphaFold、RoseTTAFold等为代表的工具在预测精度和应用范围上取得了显著进展,但行业在预测蛋白质动态特性、复杂复合物、膜蛋白及功能设计方面仍面临挑战,未来需要整合多尺度数据、结合物理原理并开发更丰富的数据集以推动该领域向功能化、动态化设计迈进 [1][2][3] 蛋白质建模工具的进展与现状 - 机器学习工具正推动蛋白质建模取得重大进展,已超越单一结构预测,开始着手理解大分子动态和功能 [2] - AlphaFold引领了全球热潮,使结构信息成为更普遍的实验设计考量因素 [2] - AlphaFold3和RoseTTAFold All-Atom等最新模型显著提升了预测精度与范围,能够涵盖包含核酸、小分子配体和翻译后修饰的复合物体系,实现复杂生物系统模拟和功能元件的从头设计 [3] - 生成或设计工具变得更容易使用,能够更快地设计出新的蛋白质序列,且成功率更高 [2] 当前工具的局限性及挑战 - 蛋白质复合物:对于大型、复杂、动态或瞬时存在的复合物,尤其是涉及构象变化或较弱相互作用界面时,预测仍存在显著挑战 [4] - 膜蛋白:能够为许多跨膜蛋白生成高精度模型,但在应用于大型、动态或瞬时的膜蛋白复合物时面临局限性 [4] - 部分结构化或固有无序蛋白:大多数预测工具表现不佳,常将无序区域错误折叠成非天然构象 [4] - 根本障碍:主要在于这些体系的高分辨率实验数据稀缺,以及缺乏量化预测成功的明确标准 [4][5] - 动态与折叠路径:当前工具无法预测折叠路径,也未明确纳入pH值、温度等溶液条件变量,预测动力学存在根本性局限 [6][9] - 功能性质设计:在捕捉蛋白质功能的动态特性方面仍存在不足,准确预测和控制结合亲和力仍然困难,设计酶活性和小分子结合是极具挑战性的问题 [10][11][12] 未来发展的关键需求与方向 - 数据整合:需要将深度学习与分子动力学模拟、交联蛋白质组学数据、深度序列比对共进化信号相结合 [4] - 多尺度方法:发展多尺度方法与多模态学习技术对于推动蛋白质功能表征研究至关重要 [10] - 数据集扩展:需要纳入更多功能性、生物物理测量数据(如结合亲和力、催化速率)以及捕获动态和多态构象的数据,系统整理并分享失败的设计数据也至关重要 [15] - 模型结合:未来的方向在于将捕捉序列层面功能约束的蛋白质语言模型,与考虑几何结构、能量学和动力学的基于结构的物理模型相结合 [11] - 混合计算工具:开发整合机器学习与分子动力学、密度泛函理论等计算方法的混合工具是自然趋势,例如AI 2 BMD系统能以从头算精度对超过10000个原子的大型生物分子进行全原子模拟 [17][18] 生成式AI在蛋白质设计中的应用与挑战 - 生成式AI取得了惊人进展,RFdiffusion与ProteinMPNN等技术影响力显著,最新版RFdiffusion3能以原子分辨率生成受配体、核酸等约束的蛋白质结构 [13] - 挑战在于许多生成式设计仍会产生大量不可行方案,效率有待提高,且设计具有动态构象或多功能状态的蛋白质仍然十分困难 [13][14] - 小分子设计相关的问题仍然极具挑战性,基于机器学习的工具是否在药物设计领域取得变革性进展尚存争议 [13] 前沿领域与未来展望 - 动态膜蛋白设计:动态膜蛋白(如转运体和受体)的从头设计是一个令人兴奋的前沿,可能在合成生物学、生物传感和靶向治疗方面带来革命性进展 [22] - 蛋白质动力学:预测蛋白质动力学是下一个前沿领域,预测结构集合及其在不同条件下的变化将是一项里程碑成就 [22] - 治疗应用:预测生物制剂的“可开发性”及其免疫原性,以及从头设计可常规用作药物且避免免疫原性的蛋白质,将彻底改变疗法开发 [23]
专访西湖大学卢培龙:AI蛋白质设计目前还无需严格监管,否则可能减缓科学进步
生物世界·2025-12-24 08:00