AI驱动的蛋白质设计工具

搜索文档
Nature系列综述:乔治·丘奇绘制 AI 蛋白质设计路线图,逐步指导利用AI工具设计蛋白质
生物世界· 2025-09-14 04:05
AI驱动蛋白质设计的革命性进展 - AI彻底改变了蛋白质设计方式 以前所未有的精准度和速度设计具有定制功能的新型蛋白质 将蛋白质设计从反复试验过程转变为预测性学科 [2][7][9] - 蛋白质序列空间极其庞大 典型350个氨基酸组成的蛋白质有约10^455种可能序列 远超可观测宇宙总原子数量(约10^82个) 传统方法无法高效遍历 [6] - AI工具在定向进化中准确预测有益突变 从序列预测功能 在理性设计中以接近实验精度从序列预测结构 并从头生成新蛋白质 [7] 蛋白质设计策略与AI增强 - 传统蛋白质设计主要依赖定向进化和理性设计两种策略 定向进化通过随机突变和筛选模拟自然选择 理性设计基于结构和功能数据进行针对性修改 [6] - 定向进化费时费力 理性设计受限于结构信息可用性和准确性 两种方法都无法高效遍历巨大序列空间 [6] - AI增强这两种策略: 在定向进化中缩短实验周期 在理性设计中实现无模板结构预测和蛋白质生成 生物分子共折叠模型可预测多分子复合物 [7] AI工具包分类与应用 - AI工具分为七大工具包: T1蛋白质数据库搜索 T2结构预测 T3功能预测 T4序列生成 T5结构生成 T6虚拟筛选 T7DNA合成 [17][22] - T2结构预测包括单链折叠(AlphaFold2 ESMFold) 复合物预测(RoseTTAFold AF-Multimer) 生物分子共折叠(NeuralPLexer) 结构稳定性预测 [21] - T4序列生成包含进化引导(UniRep ESM系列) 功能到序列(ProGen POET) 结构到序列(ProteinMPNN ESM-IF)三种生成方式 [21] 蛋白质设计工作流程 - 蛋白质设计项目从明确目标开始 通过功能 结构和可开发性三个维度评估 指导设计策略制定 [16] - 工作流程分为三个阶段: 确定策略(定向进化或理性设计) 库设计(设计序列文库) 筛选与优化(实验验证) 形成迭代循环 [16] - AI工具支持每个工作流程阶段 从策略定义到蛋白质数据库搜索 结构功能预测 序列结构生成 虚拟筛选和DNA合成 [17] AI驱动案例研究 - AAV衣壳定向进化中 AI模型从10^10个序列的虚拟文库中筛选出20426个序列 其中110689个(58.1%)实验验证为存活 包含最多29个突变的设计 [27] - 抗体定向进化使用ESM模型生成突变体 两轮过程后四个抗体结合亲和力提高多达7倍 三个不成熟抗体提高多达160倍 [27] - 从头设计荧光素酶使用trRosetta生成新NTF2框架 ProteinMPNN优化序列 LuxSit变体表现出色 热稳定性>95°C且具有高度特异性 [28] 技术挑战与未来方向 - 训练数据偏差或缺失会扭曲预测结果 需要全面训练库 严格验证和偏差缓解策略 动态整合新实验数据 [29][30] - 可解释性是关键障碍 许多AI工具如黑箱运作 需要可解释AI方法阐明设计基础 稀疏自动编码器显示发现可解释特征的前景 [30] - AI有望开启精准治疗新时代 将"不可成药"靶点向蛋白质药物开放 微调结合特异性 增强稳定性 溶解性和可制造性 [31] - AI开始设计自然界不存在的全新蛋白质和生物系统 如family-wide hallucination RFDiffusion和AlphaProteo策略实现高精度从头生成结合蛋白 [32]