打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature|精准医疗的基础:准确预测致病突变的深度生成模型

本文介绍的是由哈佛大学医学院和牛津大学的Debora S. Marks和Yarin Gal等科研人员发表在Nature上的研究成果:作者提出一种利用不依赖于标签的深度生成模型来预测变异致病性的方法。在此方法中科研人员提出了EVE(evolutionary model of variant effect)模型,一种仅根据进化序列训练的人类遗传变异分类的计算模型。EVE模型不仅优于依赖标记数据的计算方法,而且与高通量实验的预测相当。该团队利用此模型预测了3219个疾病基因中超过3600万个变异的致病性,并为256000多个意义未知的变异的分类提供了证据。这些工作表明,进化信息模型可以为变异解释提供有价值的独立证据,这将在研究和临床环境中有广泛的作用。

1

简介

人类基因组测序的指数性增长突显了人类群体中的巨大遗传变异。了解这种基因变异与疾病的相关性有可能改变医疗保健,并促使人们在收集人类群体基因组信息以及人口学和临床数据方面进行大规模投资。测序技术的使用使得将变异与疾病联系起来的基因研究和将变异与生物化学和细胞表型联系起来的更多基于机制的方法成为可能。然而,将基因组中的特定变化与疾病表型联系起来仍然是一个开放的挑战,因为人类人口中基因变异的数量超过了我们能够调查的数量。在人与人之间仅蛋白质编码区就产生了巨大的差异;到目前为止,已经观察到650万个错义变异(GnomAD),其中绝大多数(98%)的影响是未知的,甚至在与疾病相关的基因中也是如此。据估计在人类近80亿的人口中,每一种蛋白质位置(除致命位置外)都会有一种变异。

鉴于这一挑战,新的实验技术已经出现,可以评估数以千计的并行突变(有时称为深度突变扫描或多重变异效应分析(MAVEs))的影响。然而,这些技术不容易扩展到数千种蛋白质,特别是不能扩展到变异的组合,并且严重依赖于与人类疾病表型相关或至少与人类疾病表型有联系的分析的可用性。理想情况下,计算也可以加速临床变异的解释。然而,最先进的计算方法在临床标签上受到监督,在现实世界的预测场景中导致了夸大的准确性。这种膨胀的性能源于跨基因的变异聚合(标签偏差)、标签稀疏性、标签噪声和数据泄漏。相比之下,进化序列的无监督概率模型在预测变异对蛋白质功能和稳定性的影响方面取得了显著的成功,并且由于它们避免了从标签中学习,因此根本上是可以推广的。然而,自早期的开创性努力以来,在开发这些模型以解决疾病相关性方面的进展甚微。

在原文作者的工作中,他们根据无监督生成模型的最新发展,重新审视进化信息的临床价值。作者介绍了EVE模型,一种仅基于进化序列训练的人类遗传变异分类的计算方法。他们通过实验表明,EVE模型在预测变异致病性方面优于目前最先进的计算方法(没有过度拟合临床标签的风险),并且与高通量实验的预测一样准确。

2

结果

通过进化预测致病性

EVE是从物种间序列变异的分布中了解到人类错觉变体的致病倾向的模型(图1,扩展数据图1)。在第一步中,作者通过使用一个富有表现力的深度生成模型—一种变分自动编码器(VAE),来学习每个蛋白质的氨基酸序列的分布,从而捕获了自然序列在进化过程中的约束,包括位置之间的复杂依赖关系。这种VAE已经成功地学习了跨越多个领域的复杂的高维分布,包括预测蛋白质功能。对于每一种人类感兴趣的蛋白质,通过在UniRef中搜索大约2.5亿个蛋白质序列,对Bayesian VAE进行多序列比对训练。

图1 模型策略

对于每一种蛋白质,Bayesian VAE (顶部)在进化数据的多重序列比对(MSA)中学习氨基酸序列的分布。这使得可以计算每个单变异序列的进化指数(左下),该指数接近变体()与野生类型()序列的负对数似然比。一个全局-局部混合的高斯混合模型(右下)分离变异成良性(蓝色虚线)和致病性(红色)集群基于该指数。该模型的结果既是反映致病性倾向的连续评分,又是低于用户定义的不确定阈值(扩展数据图1,3)的良性和致病类(分别为蓝色和红色阴影区域)的概率分配。

扩展数据图  1 Bayesian VAE架构细节

在对进化序列进行训练后,通过从VAE学习到的近似后验分布中抽样,估计了每个单一氨基酸变异相对于野生型的相对可能性,并将这种相对可能性称之为“进化指数”。作者进行了彻底的体系结构和超参数搜索,以确保蛋白质的稳定性和性能,并证明了它比以前的方法更优越(扩展数据图2)。当将这一进化指数与临床标记进行比较时,区分致病标记和良性标记的值在不同的蛋白质中是显著一致的(扩展数据图3a),这表明可以使用无人监督的方法来推断致病性。因此,在第二步中,作者不是使用(半)监督学习来将分数映射到标签类别,而是拟合了一个双组分的全局-局部混合高斯混合模型,该模型对所有单一氨基酸变异在蛋白质中的进化指数分布进行了拟合(扩展数据图 3b)。这个过程的输出既是EVE模型的得分(在[0,1]区间内定义的连续致病性得分,0为最良性,1为最致病性得分),也是类别分配。对于这些任务,我们使用高斯混合模型的预测熵作为分类不确定性的度量,并将变体归入以下三类之一:良性、不确定性或致病性。

扩展数据图2 贝叶斯VAE和深度序列对38次深度突变扫描的性能比较

扩展数据图3 进化指数分离致病和良性变异

作者将EVE应用于ClinVar中与疾病相关的一组3219个人类基因。EVE模型可以预测所有基因的所有标记变异的临床意义(平均曲线下面积(AUC)为0.91)(图2b),包括60个“临床可操作”基因(AUC为0.92)(扩展数据图4a)。此外,EVE的性能对每个蛋白质的标签数量是稳健的(图2b),这表明它对注释较少(或没有)的基因具有通用性,这与作者所提出的非监督方法所预测的结果一致。

由于变异分类的结果因基因而异,作者所提出方法的一个重要特征是能够给预测赋予一定程度的不确定性,允许在预测准确性和变异覆盖率之间进行权衡。如果抛开越来越多的“不确定性”变异不谈,这样就可以使那些作者归类为致病或良性变异的准确性更高。例如,排除25%的最不确定的变异导致致病和良性分类的准确率约为90%(图2b)。在实践中,假设研究人员在逐个基因和用例的基础上决定具体的权衡。

扩展数据图4 可操作基因的EVE预测以及EVE与其他计算方法(包括元预测因子)的比较

图2 EVE准确地预测了致病变异

EVE和实验预测一样准确

研究人员对于计算预测是否和实验预测一样准确进行了检验。对于ClinVar(BRCA1, TP53,PTEN,MSH2,SCN5A)中具有大量高质量标签的5个基因来说,EVE在预测临床意义方面的总体表现与专为预测致病性而设计的深度突变扫描实验一样好,甚至更好(图3,扩展数据图5)。例如,对于TP53,EVE预测整个蛋白质的良性和致病性变体接近完美分离,这与四聚体结构域(从位置300到末端)中较弱的实验预测形成对比。对于SCN5A(与布鲁加达综合征和长QT综合征相关),EVE预测R814Q具有致病性,尽管这是一种功能的获得,而不是丧失,这表明进化数据包含了关于功能获得的信息,并支持已知的遗传学。EVE的表现也略好于在一组高质量标签较少的基因上进行的实验(扩展数据图6)。

扩展数据图5 临床标签的高通量实验计算模型

扩展数据图6 标签策略的比较,以及临床标签的EVE和实验预测的比较

由于EVE和MAVE是独立的证据来源,比较它们的结果可能有助于评估临床标签本身。在MSH2、PTEN和TP53中,EVE评分与ClinVar不一致的27个变体中有23个(85%),而MAVE实验数据支持EVE分类。EVE和实验均支持TP53中变异R337H和R337C的良性评分,MSH2中变异S554N/T、D660G和I774V的良性评分,以及PTEN评分中的15个变异,其中ClinVar具有致病性标签。类似地,EVE和实验分析都支持致病性临床效应,其中ClinVar在MSH2中对G759E和E198G有良性标记(后者的致病性分配得到新实验数据的进一步支持)。一个明显的警告是功能检测预测和EVE之间的一致性可能会产生误导,这就是功能性RNA的情况,例如,剪接变异。

图3 EVE在预测变异的临床解释方面与功能实验一样优秀

将计算模型预测(左图,y轴EVE得分)和实验预测(右图,y轴实验得分)与clinvar标签(点)和未知意义的变异进行比较,其中浅红色和浅蓝色交叉表示EVE预测,x轴对应于蛋白质中的位置。虚线的红色和蓝色线对应的前夕预测设置25%最不确定的任务作为不确定。实验数据来自tp53,pten19,msh2和brcal的深度突变扫描。

对3600万变种的预测

该团队为3219个疾病相关基因的3600万个单一氨基酸变异提供连续的EVE分数和类别分配。在这些变异中,迄今约有130万个变异在至少一个人类中被观察到,但这其中只有大约3%在ClinVar中有临床解释(图4a,左)。在去掉25%最不确定的变异以保持大约90%的准确率之后,EVE的类别分配对总共约2700万个变异和超过80万个(约64%)的人类迄今看到的变异提供了解释(图4a,中)。

所有单一氨基酸变异的连续得分提供了一个与类别分配互补的情况。EVE分数在蛋白质中的分布突出了高致病性的簇,遵循了功能重要性可能预期的趋势,如疏水核心、配体结合和活性位点。例如,SCN4A-SCN1B离子通道复合物(PDB 6AGF38)中许多具有高EVE得分的变异位于复合物界面,排列在SCN4A孔和SCN1B的疏水核心(图4b,c)。对于错配DNA修复复合物MSH2-MSH6(与Lynch综合征和大约20%的散发性癌症有关),在临床标记稀少(但在人群中观察到)的ADP和DNA (PDB 2O8B)附近,EVE致病信号强烈(图4d)。

图4 3219个基因变异的预测

在图a中,将EVE分类与其他证据来源相结合。其中ClinVar标签和VUS基于gnomAD和UK Biobank 在左侧;EVE预测将所有可能变量的25%设定为不确定位于在中间;以及将EVE与其他证据来源结合后的预测在右侧。图b是SCN1B中EVE致病性评分的热图。在图c和图d中,SCN4A–SCN1B(PDB 6AGF 38)(c)和MSH6–MSH2结合到ADP和一个G-T错对(PDB 208 B41)(d)的3D结构的表示,用每个位置的平均分数(SCN4A、MSH6和MSH 2)和每个位置的最大分数(SCN1B)着色。3D高致病性簇包括SCN4A的孔区、SCN1B的疏水核心(位置40、57、117、119和121)、SCN1B的C端α-螺旋及其与SCN4A的界面、MSH2的ADP结合位点(如D748N/V/H、K675E、S676L和T677R)和MSH6的DNA结合位点。

结合EVE和其他证据

EVE提供了单一的证据来源,非常适合与其他正交证据来源相结合,为了说明这一点,作者将模型的类别分配与gnomAD的总体数据以及其他形式的现有证据相结合。这导致了256000个变异,之前没有潜在重新分类的临床解释,另外539个变异与当前的临床变异状态相矛盾,我们发现了独立的支持证据。后者的示例包括上述MSH2变体和TP53变体R337Q(图4a)。

无人监督也为一种更精细的方法打开了大门,在这种方法中,该模型提供的证据的强度可能会因基因而异,这与功能分析的建议非常相似。与有监督的方法相比,这提供了一个明显的优势。例如,如果只考虑1000个基因,则至少有10个标签进行验证,那么有监督的方法(使用90%的训练、10%的测试和随机分裂)只留下大约50个蛋白质供测试(扩展数据图7)。

扩展数据图7  与监督方法相比,EVE有更多可以验证的基因

上图是EVE(深蓝色)和监督方法(浅蓝色)的基因平均数量。和有监督的方法(浅蓝色),有足够的标签进行验证的基因数量 (5个(左边)、10个(中间)和20个标签(右边))。其中假设在ClinVar中对监督方法的所有标签进行90%训练10%测试的随机分割。

3

总结

EVE是一个基于进化过程中不同生物序列预测人类变异临床意义的模型。它使用在超过140K个物种的氨基酸序列上训练的完全无监督的深度学习。作者对疾病相关基因的所有单个氨基酸变异进行预测,这些变异的评分范围从1(最具致病性)到0(最良性)。

该团队利用EVE模型预测了3219个疾病基因的3600万多个变异的致病性,并为256000多个未知意义的变异的分类提供了证据。EVE模型利用了14万多种生物的数据,并且此团队还确定了国际自然保护联盟濒危物种红色名单上的17000种生物,这其中包括1301种易危物种、1148种濒危物种、548种极危物种、10种野外绝灭和21种灭绝生物。

作者认为通过将机器学习的最新发展与来自不同生物体的快速增长的测序数据结合起来,可以提取出比以前认识到的更精确的陈述,并且可以在一个足够大范围内影响人们对变异的临床意义的总体认识。

参考资料

Frazer, J., Notin, P., Dias, M. et al. Disease variant prediction with deep generative models of evolutionary data. Nature (2021). 

https://doi.org/10.1038/s41586-021-04043-8

代码链接:

https://github.com/OATML-Markslab/EVE

https://doi.org/10.5281/zenodo.5389490

数据下载:

http://database.liulab.science/dbNSFP

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
常用基因变异致病性评级辅助工具介绍
NVIDIA医疗布局日渐完善,从GTC 2022看AI+医疗的想象空间
成功预测90%错义突变,DeepMind团队开发新AI模型AlphaMissense,有望解决人类遗传疾病的最大挑战
遗传风险较高的男性前列腺癌研究和筛查的最新进展
我科学家发现新“疼痛基因”
心源性猝死 重要致病基因被发现
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服