Workflow
AlphaMissense
icon
搜索文档
这才是 AI 近年来最有价值的成就,却被很多人忽视
36氪· 2025-12-01 00:15
行业背景与核心挑战 - 人体内最大的蛋白质肌联蛋白(titin)由超过3.4万个氨基酸组成,其化学全名长达189,819个字母,自1954年发现以来,其完整结构在70多年间一直未知,传统实验方法几乎无法解析[1] - 解析蛋白质三维结构的传统方法(如核磁共振、X射线晶体学、冷冻电镜)成本高昂,设备动辄上百万美元,耗时数月到数年,对于肌联蛋白这种拥有三百多个结构域的超级蛋白质更是难以应对[3] - 在浩瀚的蛋白质世界中,人类通过实验解析出的蛋白质结构不到20万个,在所有人体蛋白质中,也只有约35%的结构被实验解析,且很多残缺不全[6] 技术突破:AlphaFold的出现与能力 - 2020年11月30日,DeepMind推出的AlphaFold2在“全球蛋白质结构预测比赛”(CASP)中,凭借氨基酸序列预测蛋白质结构的准确率超过了90%,直逼实验方法[6] - AlphaFold数据库中的蛋白质预测结构已超过2亿个,涵盖了人类蛋白质组98.5%的结构,来自190多个国家的上百万科研人员正在使用这一开源工具[6] - 2024年,谷歌发布了AlphaFold3,能精准预测蛋白质与DNA、RNA等其他生命分子的相互作用,并推出了能主动设计定制蛋白质的AlphaProteo[23] - 2025年,谷歌推出了AlphaGenome,将预测能力延伸至DNA层面,可从DNA序列预测基因突变对生物学过程的影响[23] - 在蛋白质结构预测领域,除AlphaFold外,还有RoseTTAFold、ESMFold和I‑TASSER等AI模型也在不断突破[23] 应用领域:医药研发与疾病治疗 - 在2020年新冠疫情爆发初期,DeepMind利用开发中的AlphaFold2预测了新冠病毒部分蛋白质的结构,帮助研究者迅速了解病毒生理机制并筛选潜在治疗药物[8] - 生物技术公司Insilico Medicine将AlphaFold2整合进其AI药物发现平台Pharma.AI,通过该全流程AI方法,在几年内发现了治疗特发性肺纤维化的候选药物Rentosertib,该药物已进入II期临床试验,成为全球首个完全由AI发现靶点并设计化合物的试验药物[18][20] - 英国牛津大学的研究团队利用AlphaFold2找到了疟原虫蛋白质的关键结合位点,为开发能切断疟疾传播链的疫苗提供了新思路[10] - 马耳他大学的科学家使用AlphaFold研究基因突变对骨质疏松的影响,通过对比正常与突变蛋白质的结构模型来观察功能破坏的可能性[11] - 2023年,DeepMind基于AlphaFold推出了AlphaMissense模型,利用其对结构的“直觉”来判断错义突变是否可能致病,成功归类了人类所有错义突变中的89%,生成了“人类错义突变目录”,以帮助锁定罕见遗传病及糖尿病等复杂疾病的遗传因素[13] 应用领域:环境保护与工业设计 - AlphaFold2能帮助科学家重新设计蛋白质,以完成如高效降解一次性塑料等过去难以做到的任务[14] - 英国朴次茅斯大学的科学家利用AlphaFold,在短短几天内获得了上百种来自微生物的候选降解酶的三维结构,并基于这些结构设计反应更快、稳定性更高、成本更低的酶,以更有效地分解塑料垃圾[17] 具体案例:肌联蛋白研究的进展 - AlphaFold2将肌联蛋白的序列切分成166个“重叠群”(contig),每个长达上千个氨基酸,并分别给出了结构预测,科学家已将这些结构整合,得到了肌联蛋白中所有相互串联的双结构域的三维蓝图[21] - 科学家借助AlphaMissense等工具,评估了肌联蛋白不同突变的潜在致病性,使这个此前几乎无法触及的研究对象变得有迹可循[21] - 2024年,科学家发现了一种比肌联蛋白还要大25%的蛋白质PKZILLA-1,刷新了自然界已知最大蛋白质的纪录[23]
新AI模型可精准锁定人体致病突变
科技日报· 2025-11-26 00:25
文章核心观点 - 开发出名为popEVE的人工智能模型 能精准锁定人类蛋白质中最易导致疾病的突变并对危害程度排序 有望彻底改变遗传疾病诊断方式 [1] 技术原理与创新 - 模型研发基于数十万个不同物种的进化数据及全人类群体遗传变异信息 [1] - 创新性地将进化数据与英国生物库 基因组聚合数据库两大资源库相结合 [2] - 通过分析健康人群中存在的基因变异来校准对人类疾病的预测 [2] - 可解析约2万种人类蛋白质的关键区域与可变异区域 [1] 模型性能优势 - 在分析超过3 1万个患有严重发育障碍儿童家庭遗传数据时 在98%病例中将共同突变标记为最具破坏性变异 [2] - 其表现优于包括深度思维公司AlphaMissense在内的同类先进工具 [2] - 能识别致病突变并对突变给人体造成的危害程度进行排序 克服现有工具大多只能预测是否危险却难以评估危害程度的局限 [1] 应用潜力与发现 - 首次建立起能对全蛋白质组突变进行危害排序的模型 可帮助医生优先关注破坏性最强的变异 [2] - 在探寻新致病基因时 发现123个此前被认为与发育障碍无关的基因 其中104个仅在个别病例中出现 [2] - 尤其适用于缺乏病例参考的罕见突变 传统依赖患者群体数据的方法对此束手无策 [1]
获得诺奖后,DeepMind推出DNA模型——AlphaGenome,全面理解人类基因组,尤其是非编码基因
生物世界· 2025-06-26 08:06
核心观点 - DeepMind推出新型AI工具AlphaGenome,能够全面准确地预测人类DNA序列中的单碱基突变对基因调控的影响,处理长达100万碱基对的DNA序列并输出高分辨率预测结果[2] - AlphaGenome在多项基准测试中达到顶尖水平,在24项评估中有22项优于最佳外部模型,26项评估中有24项与最佳模型持平或更优[18] - 该模型特别适合研究罕见突变和疾病机制,例如预测白血病患者中的非编码基因突变如何激活附近致癌基因[27] AlphaGenome技术特点 - 长序列高分辨率:能分析100万碱基对的DNA序列,单碱基精度预测,训练时间仅需4小时且计算资源仅为Enformer模型的一半[12] - 多模态预测:可同时预测基因起始/终止位置、RNA水平、DNA可及性等数千种分子特性[9][13] - 高效突变评分:1秒内评估基因突变对所有特性的影响[14] - 新型剪接建模:首次直接从序列明确建模RNA剪接位点,有助于理解遗传疾病机制[15] 行业应用价值 - 疾病研究:更精确确定疾病成因和突变功能影响,发现新治疗靶点,特别适合研究罕见遗传病[23] - 合成生物学:指导设计具有特定调节功能的合成DNA[24] - 基础研究:加速基因组功能元件绘制和关键DNA指令识别[25] - 案例验证:成功预测T细胞白血病中非编码突变通过引入MYB结合基序激活致癌基因TAL1[26][27] 技术局限性 - 难以准确捕捉相隔超过10万碱基对的调控元件影响[32] - 未针对个人基因组预测进行验证,无法全面展现突变导致复杂性状的机制[32] - 目前仅开放非商业用途API接口,预测功能仅限于科研用途[32] 模型架构与性能 - 架构结合卷积层检测短模式、Transformer传递序列位置信息、多层网络转化预测[9] - 训练数据来自ENCODE、GTEx等公共联盟的数百种人类和小鼠细胞数据[9] - 在剪接分类(auPRC)、RNA-seq覆盖(Pearson r 32bp)、DNA可及性等模态评估中相对改进最高达32.6%[29]