打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如果只关心“变异”,会漏掉什么?

 

在临床诊断实验室中,对疑似遗传疾病患者做基因检测,大家的落脚点,往往在“变异”上。


什么是变异呢?“变异”即个体和群体之间的差异。做法是将个体的序列,与人类公共参考基因组的序列进行比对,寻找到的mismatch,即错配就是变异Variant,和参考基因组匹配的标为Reference,一般不会单独去分析。

 

Reference是否就不用去关注呢


有一篇文章作者提到(在此特别感谢高勇博士和谭灏文博士提供的文献和见解),有一些reference alleles具有临床价值,人们往往会忽视这类位点,尤其是homozygous reference alleles更是需要重视。通过引入表型注释,那些与疾病相对风险增加相关的alleles,应始终被描述为alternative alleles。

 


那么,他为什么要这么提

在基因检测分析时,往往要面对变异在对照人群或普通人群中的携带频率,来帮助评估该变异的潜在致病性。通过大规模人群数据库比如ExAC, gnomAD等的搜索,如果某个变异在某地区,比如东亚普通人群的频率是0.01,显著高于该地区某个疾病的发病率(比如0.00001),则该变异很可能不是导致此疾病的变异。

在查阅人群数据库时,会发现许多变异位点的频率很特殊,表现为reference的频率低于同一位置的alternate的等位基因频率。举个例子,某个位点,有两种碱基T和C。T为ref,C为alt。但是如果去数C和T,发现T只有23,C有10540.  Ref T被称之为“minor reference alleles“。


这类位点有多少?作者以ExAC数据库为基础,发现最新的ExAC版本包含26,537个变异的reference allele频率小于0.5(minor reference alleles)。 这些变异中约1%(2763个变异)是罕见变异(AF <0.01, rare="" reference="">

ExAC的数据是基于 GRCh37/hg19的结果,所以这个数字需要再去订正:当参考基因组从GRCh37转换到38时,有1214 个已知的variants修订为reference。

比如rs2109135,在GRCh37里面是chrX:12939928T>C,体现C为variant. 到了GRCh38,标识为chrX:12921809 C>T,C被修订为reference。

 

OK。你会说,那我就注意

1 既然GRCh37留下坑,升级会修复这种问题,所以以后尽量用GRCh38。

2 在1的前提下,如果再遇到minor/rare reference alleles,即一旦ref的等位频率占了少数,那样MAF指的不是alt的频率而是ref的频率,需要记得数字倒转,以免张冠李戴,把MAF给算成了reference的频率。



但仅仅考虑到这些是不够的。因为只是做了alternate的AF的正确计算,如果不注意,反而会因为这一步计算导致信息丢失。

因为这类位点的AF值都比较大,很容易一开始,在人群频率筛选中被过滤掉。所以留下来进行深入分析的可能性反而不大了。

 

比如作者通过Clinvar注释,挑选与致病,可能致病,危险因子等关键词的位点,发现从ExAC数据库中提取的含minor reference alleles的SNP, 有很多和疾病表型相关。


PMC5769444, Table 1部分

这些变异在人群数据库中的allele frequency普遍大于0.5,超过疾病发生率的常规阈值,在疾病研究中,如果在测序样本中出现这些位点,很容易在分析的初期就过滤掉了。

我们不能忽视这类位点

和表型相关的并不是alternate allele, 而是reference allele.

这里以血栓相关的几个SNP为例:

最经典的例子是Factor V的变异rs6025, c.1601G>A (p.Arg534Gln),在以HG19为参考的基因组中,allele A是reference allele,也是致病变异。拥有的这种突变,使得Factor V不能与抗凝血蛋白正常结合,导致高凝状态,即患者很容易形成血栓。这个变异是欧洲人中最常见的遗传性高凝状态(易患凝血)。它以荷兰城市莱顿命名,1994年由R. Bertina教授等人首次发现(PMID 8164741)。

在人类参考基因组的GRCh38版本中,allele G属于reference, A更正为alternate, 从而解决了minor reference alleles是致病的问题,因此,患者的AA基因型可以被更加容易的识别。然而另外的几个变异,即使更新了人类基因组版本到最新,仍然是reference allele与疾病表型相关。

比如尿激酶型纤溶酶原激活物(PLAU) 基因中的变异10:75673101 T / C (rs2227564), allele frequency在gnomAD为0.7525:

 

 

这个变异与冠状动脉疾病患者的侧支循环相关, 侧支循环不良患者 (Rentrop 0-1; n = 547) 所携带的基因型TT,其频率高于良侧枝循环 (Rentrop 2-3; n = 129;P = 020)。变异 rs2227564 的reference T是minor reference allele, 在侧支循环不良患者中比较常见(P =006)(PMID:24952395)。

 

一氧化氮合成酶3(NOS3)变异 rs1799983 (NM_000603.4(NOS3): c.894T>G (p.Asp298Glu),T是minor reference allele。这个变异往往和与冠状动脉痉挛、缺血性心脏病、缺血性中风和顽固性高血压有关(OMIM entry:163729)。

 比如有人通过研究NOS3 基因 rs1799983 多态性与老年人脑卒中后痴呆的相关性(PMID:20691505)发现,纯合TT基因型, 而不是 GT 或 GG 基因型,是一个发展成为痴呆的重要因素。与 GG 基因型相比, TT 基因型增加了痴呆的风险;风险比为3.14 (95% 置信区间, 1.64-5. 99; p = 0.001)。

 

以上列举的这些变异,并不会因为参考基因组从GRCh37到38的更新而改变其reference,即使目前很多人默认使用GRCh38作为参考,但是还有很多研究人员的分析流程,或者富集试剂盒采用老版本的参考基因组,尤其是面对大批量样本的时候,要保证前后参照的统一性,更改数据库势必需要花费额外的成本。要想使得参考基因组都换作最新的,是需要一定时间来过渡的。


而且,大部分的功能相关的minor reference alleles即使出现了参考基因组的更新, 到了新的基因组版本中还是minor reference alleles(PMC4416239)。


除了精力、成本、数据库一致性,对于经典人类基因组版本,还是最新的参考基因组,分析的时候仍然面临这个问题:如何寻找和疾病表型相关的reference allele.

其实并不好检测,因为常规的变异流程是寻找“Variants”的,如果这种reference alleles是纯合的,那么分析工具不会观察到这些位点与reference有任何差异;如果是杂合的,那么会在过滤的时候往往又会被当成allele frequency大于预定义的阈值而被过滤掉。


为什么reference alleles会和疾病相关?

人类基因组变异学会(HGVS)序列命名标准中,推荐的 reference序列是“a genomic reference sequencebased on a recent genome build”,即基于最近基因组构建的基因组的参考序列。reference等位基因使用“=”符号报告为“无变化”。但是,这些规则基于使用代表“正常”状态的reference序列的假设。

而人参考基因组的序列是从主要来自欧洲的匿名个体的DNA集合中获得的,参与者的临床和表型信息未知。尽管在研究期间他们可能是健康的,但他们中的一些也可能是疾病风险等位基因的携带者。


目前的现状是

 

临床相关的reference地位比较尴尬:

ACMG指南也并未明确要求研究者评估或报告reference的位点。迄今为止,在高通量基因测序实验中,没有明确的鉴定reference变异的建议。

所以,这些具有临床 相关性的位点具有reference allele,不太可能会出现在基因测序报告里面。

然而,忽视对纯合致病性 reference的分析,造成的后果是,将导致不准确的风险确定和诊断,尤其是当在标准变异识别中看到“variant“即和参考序列不一致的信息时,导致过早的结论。

 

对于这些位点,应该如何处理呢?

 

如果将reference也作为变异来看,

多样本: 可以使用 reference-freeSNP detection策略,即测序多样本之间直接进行基因型的比较,放弃从公共数据库下载的人类基因组序列,来克服识别不了的 reference型变异的限制(PMC4083407)。

单样本:可以换另外一个作者安利的软件RAREVATOR(PMC4416239),仅用于评估罕见的变异,基于GATK的非常经典的Unified genotyper算法。


经典 SNP 和 InDel 识别和 RAREVATOR 的变异识别方案。图 a 和 b经典胚系和体细胞变异识别方案。图c 和 d 是 RAREVATOR 的胚系和体细胞变异识别方案。RAREVATOR 利用 GATK Unified Genotyper来识别所有的Rare Reference Alleles位点, 并检测含有reference allele 的胚系和体细胞变异 (c 和 d)。

 

如果我们的眼界,仅仅是对参考基因组进行修饰,那么会使得变异的注释和共享变得尤其困难,因为需要增加额外的工作量来对不同的参照系的VCF执行标准化操作。

怎么样让问题变得简单?有针对性的识别是一种非常灵活的策略:可以利用针对所研究的具体问题来定制panel,比如基于具体的基因,或者基于人群的频率。

基于人群频率:minor reference alleles往来自于人群的特有的一些allele,如果用基于群体频率的panel来定义变异,那么等数据库内容更新的时候,panel 也会得到更新。而且,对于homozygous reference的置信度,可以利用测序的质量,读段的深度,基因型质量等来估计。

基于具体的基因:可以研究候选基因中的变异,或者与表型具有生物学相关性的基因。过滤时可以利用氨基酸的保守型信息:前人已经证明,非祖先次等位基因往往具有功能性(PMC3071924)。 非致病性alternative alleles倾向于提供保守氨基酸,而 reference(疾病相关)等位基因倾向于与近缘物种不同的氨基酸。

 

也就是说,对于这些位点,要和其他的变异区别对待,这样可以一定程度上减少工作量,用来分析和更新会更加方便。

 

人类基因组的更新又需要注意什么问题

 

到目前为止,发现与疾病相关的遗传变异,可以说是人类基因组的最大的功劳。 在定义什么是reference的时候,建议考虑到临床效用,比如通过引入表型注释,那些与疾病相对风险增加相关的alleles,应始终被描述为alternative alleles。


在人类基因组中,一些复杂区域仍然难以作为所有人群的reference。 寻找定义最佳 reference allele的共识,将极大地帮助改进对更新的人类基因组的minor reference alleles校正。


关于什么是reference, 还应该考虑到多个层面的证据:


例如,有人发现,疾病相关的allele多为次等位和衍生(PMC3017004);尽管如此,有人认为allele frequencies应该更多的去考虑人口历史和血统(doi:10.4172/2469-9853.S1-008);从进化的角度看,一个major ancestral allele,或者说在祖先种群中具有更高频率的allele将是reference的最好的选择。比如有很多在非洲发生的突变,其频率通过非非洲人的定向选择而上升,而非洲人则保持低水平。 因此,以祖先基因组作为基准被认为是重要的。

 

 

总结

 

  • 纯合 reference变异的鉴定和报告可具有临床价值。

  • 在这些位点中,纯合的alternative变异倾向于代表非致病性等位基因,通常被忽视的纯合 reference等位基因可能具有直接的临床意义。

  • 这些变异应该通过修改现有识别策略来寻找和评估,特别是在单样本外显子组和全基因组的分析。

  • 作为一种长期解决方案,在以后的人类基因组更新时,需要对人类基因组中的“reference等位基因”状态进行后果定义。

 


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
临床应用篇丨Agena推出CYP2D6 CNV产品,精准检测拷贝数!
GWAS | 原理和流程 | 全基因组关联分析 曼哈顿图 Manhattan_plot | QQ p...
SNP命名
人类首个泛基因组草图公布!又多了1.19亿个碱基对,更好反映人类多样性!
Science:完整人类参考基因组改进了对人类遗传变异的分析
【直播】我的基因组28-必须要理解vcf格式记录的变异位点信息
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服