利用同一个数据库，Nature同日发表4篇文章，揭示人类遗传变异的“秘密”！

每个人的遗传密码之间的差异对他们的个人发展和健康意味着什么？有几个因素阻碍了研究人员回答这个问题的能力。首先，理解遗传变异需要分析大量的序列，因为我们携带许多罕见的变异。大多数这些都没有效果，只有几个会导致遗传病。其次，我们对遗传变异的大部分理解来自于对单核苷酸变异(SNV)的研究，但超过50个核苷酸长度的结构变异才是导致疾病的主要因素。第三，我们对蛋白质编码序列之外的变异缺乏理解。

近期，Nature及其子刊在同日发表了7篇文章，通过分析GnomAD数据库的相关数据，尝试解决上述问题。其中Nature 4篇，Nature Medicine 1篇，Nature Communications 2篇。

gnomAD项目是游戏规则改变者ExAC项目进一步完善的数据库，该项目对超过6万人的基因组蛋白质编码部分(称为外显子组)的遗传变异进行了收录编排。ExAC为协调分析制定了新的标准--将来自不同项目的数据纳入共同的通道进行再分析--并为数据共享设定了新的标准。早在2016年该项目发表之前，科学家就可以获得ExAC的数据，它对研究人员、医生和遗传顾问如何解释遗传病患者的基因组产生了深远的影响。

在第一篇论文中，Karczewski等人阐述了gnomAD数据库收集的125,748个外显子和15,708个全基因组。对整个基因组进行测序尤其令人兴奋，因为对非编码序列的分析提供了关于结构变异和调控基因表达的DNA序列变异的信息。gnomAD包含来自不同群体的序列，比如亚洲和非洲的个体。然而，正如作者所指出的那样，仍然需要来自更多不同群体的代表来获得人类变异的全部图谱，并捕捉更多特定群体的特定变异。

Karczewski等人接着分析了他们数据集中的蛋白质编码变体。他们建立在ExAC小组开发的一种度量标准上，以评估一个基因是否能够“容忍”这些通过预测会阻止其编码蛋白质正常功能的变异，也就是说，这些预测的功能丧失(PLoF)变体是否对生理影响很小或没有影响，或者是否会导致严重的健康问题或死亡。这种类型的分析很有用，因为对LoF不耐受的基因可能是生命所必需的，或者它们的突变可能会导致遗传病。

ExAC指标衡量在整个群体中观察到的一个基因中有多少个pLoF变体，并与整个进化过程中，在考虑基因组中出现突变的速度，预计会有多少个pLoF变体相比。然而，由于pLoF变体非常罕见，6万个外显子不足以确定所有研究的基因-特别是小基因-是否都对pLoF不耐受。因此，这些数据被表示为给定基因耐受pLoF的概率。

相比之下，gnomAD中增加的队列大小可以更直接地衡量基因对LoF的耐受性。Karczewski等人根据基因包含的pLoF变体的频率与预期的相比，将基因分成10组，生成了pLoF耐受性的频谱。更大的样本量意味着基因长度在gnomAD分析中不是什么问题，但即便如此，作者也不能准确地评估在其中30%基因中的pLoF情况，这些基因根据预期会有少量pLoF变异。

尽管存在这一限制，该小组仍使用他们的方法来获得对疾病遗传学的新见解。例如，他们发现，在不耐受LoF的基因中，智力残疾或自闭症谱系障碍的人比不耐受LoF的人更容易出现罕见的变异。这些数据可能有助于研究人员理解这些特征背后的复杂遗传结构。

在第二篇论文中，Cummings等人调查了为什么似乎对pLoF不耐受的基因有时会携带这些变异，并且仅造成很小的后果。基因可以以不同的方式转录，一些蛋白质编码区(外显子)只能以有限的方式表达。Cummings等人证明，当一个人携带“不耐受”基因中的pLoF变体时，该变体通常位于显示这种限制性表达的外显子中，从而限制了其效果。

在第三篇论文中，Minikel等人评估了pLoF数据库如何提高我们识别药物基因靶点的能力。在药物发现中，识别在给定基因中携带两个pLoF变体的个体是可取的--如果这些个体在特定特征上也表现出变化，这就提供了证据，表明该基因可能是一个很好的药物靶点。该文表明，在识别pLoF变体时仍然存在许多错误；在识别这些变体时需要进行质量控制；一个人在同一基因中携带两个pLoF变体的情况非常罕见，以至于我们需要大约比gnomAD大1000倍的队列来收集它们在大多数基因中存在的确凿证据。

gnomAD项目最激动人心的方面之一是制作一个结构变体目录，Collins和他的同事在最后一篇论文中对此进行了描述。在使用长阅读测序技术对结构变体进行编目方面已经做出了出色的努力。然而，由于这种方法的费用和缺乏标准化分析通道，样本量一直很小。相比之下，识别短读取序列中的结构变异在技术上是具有挑战性的，因为变异通常比典型的短序列读出大，它们可以通过各种突变机制产生，导致许多变异类型(例如，DNA的复制、缺失或倒置)，每种变异类型都会在基因组中留下不同的足迹。这导致了许多工具的开发，用于从短阅读中识别结构变体，但没有“标准”通道。

Collins等人试图通过创建一条通道来解决这个问题，该通道允许对数千个基因组进行协调分析；这可能成为在种群规模上从短链序列中检测结构变异的行业标准。作者生成了一个包含30多万个高质量结构变体的目录-是之前分析的两倍多。然后，他们开始评估结构变异对生理特征的贡献。这一分析揭示了自然选择对控制基因表达的非编码序列中的结构变体的一些证据。不出所料，在蛋白质编码区，针对结构变异的选择更强。这表明，与编码区相比，非编码区可以容忍更多的变异，需要更大的队列(或其他方法)才能开始有力地剖析非编码区的变异。作者还发现，结构变异约占蛋白质截断事件的四分之一。

常规的结构变异分析，与SNV和基因表达的分析相结合，对于解释单个基因组将是至关重要的。Collins等人在这个方向上迈出了重要的一步，gnomAD资源为其他人提供了在这条道路上继续前进的工具。

另外，同一天，在Nature Medicine和Nature Communications也发表了三篇关于该数据库的文章，有兴趣的同学可以自己下载下来看一下，囿于篇幅原因，在此不再一一介绍。

这些论文中一个有趣的反复出现的主题是，尽管队列的规模很大，但我们仍然缺乏许多分析所需的数量。毫无疑问，这个队列将会越来越大。然而，仅靠这种方法并不能使我们在细胞和生物水平上完全理解人类基因和特征之间的关系。我们需要可扩展的方法来将遗传变异编程到人类细胞中，并且需要可以监测的具有良好特性的细胞特征，以使我们能够直接询问这种变异的生理影响。这种介入性生物学将极大地增强群体遗传学，并加速我们对人类生物学的理解。

gnomAD数据库已经将其数据公之于众。该项目对科学的影响将远远超出我们的想象，或将改变我们解释单个基因组的方式。该数据库的工作揭示了我们遗漏了多少关于人类变异的信息，并提供了帮助我们在群体和个体水平上更好地理解基因组的工具。

参考资料：

Karczewski, K. J. et al. Nature 581, 434–443 (2020).

4. Cummings, B. B. et al. Nature 581, 452–458 (2020).

5. Minikel, E. V . et al. Nature 581, 459–464 (2020).

6. Collins, R. L. et al. Nature 581, 444–451 (2020).