结构变异(SV)属于遗传变异的一个重要内容,但由于其分析难度,例如结果准确性与解读参考信息不足,在常规遗传学临床检测中通常是个空白地带,gnomAD通过对数据库中的14981个全基因数据进行SV分析和统计,并从遗传学角度进行生物学意义分析,从而建立了目前最大的人群SV参考数据库。当对样本进行SV数据分析时,可以参考相应SV人群频率信息,为临床决策提供更多参考信息。
注:文章尚在预览阶段,尚未正式见刊
0
背景介绍
随着二代测序的进一步普及,
WGS在遗传病领域的应用的逐渐增加,
虽然WGS可以提供
比WES测序更多的变异信息,
但大多数的分析难度非常高,
由于目前对基因组功能区域的研究
尚在进展阶段,
因此WGS的大多数变异所处区域功能
尚不明确,
如非编码区的snv/indel以及结构变异等,
很难从遗传学角度给出合理解释,
这就为临床决策带来了极大的困难。
多数WGS发现的变异都位于非编码区
为了解决上述问题,
世界范围都在建立基因组信息的数据库,
如encode,GTEx,
Roadmap Epigenomics等,
都在标注基因组的功能区域,
为非编码区域的生物学分析提供信息。
除了功能区域注释外,
结构变异的分析也是一个难点,
由于结构变异影响的结果
通常难以从生物学角度分析,
如跨过多个功能区域,
是否影响基因组三维结构等,
今天要讲的gnomAD的SV数据库,
虽然依然难以解决SV的生物学解释问题,
但可以从统计学角度,
给SV数据分析提供有效的参考信息。
1
分析过程
gnomAD的挖掘过程相对稳定
1. 发现高质量SV变异
2. 对变异进行统计分析
3. 从生物功能角度进行分析
4. 从疾病数据进行验证
2
具体过程
发现高质量SV变异
首先选择通过样本QC的14,216个WGS数据,
用一套成熟的分析流程
(通过trios数据验证)分析SV数据,
SV数据包括19种类型
(4种软件分析不同变异类型),
如deletions, duplications,
inversions, insertions等,
并通过trios数据
做流程验证和计算de novo变异率,
最后从12,549样本中
得到个382,460SV变异数据。
不同类型SV说明
SV分析流程说明
对变异进行统计分析
得到SV数据后,
根据相关信息进行统计分析,
参考信息有人群信息,变异种类等,
SV类型的常规统计分析
统计数据中有几个关键结论:
SV变异有人种特异性
SV多数为罕见变异
(人群频率小于1%)
SV多数长度较短且越长越罕见
每个基因组都有数千个SV变异
(中值8,202)
生物学角度分析
除了常规的统计分析,
gnomAD还通过结合现有生物学信息进行分析,
例如变异在染色体功能区域分布,
影响编码区域的SV功能分析等
SV类型与基因组位置的相关性分析
结合基因组信息分析的主要结论有
deletion和inversion变异比例
分别为最高和最低
SV变异总体在染色体上分布不均一
(端粒和着丝粒比例偏高)
不同SV类型在染色体分布各有特征
影响编码区的SV结论重点是
造成相关基因LOF的SV变异频率
与oe值线性相关
即从SV层面验证了oe值的可信度
(上期提到MNV与oe的一致性)
SV功能影响和oe值的一致性分析
从疾病数据验证
通过对英国BioBank的对应分析,
通过比较gnomAD
与已知genomic disorders (GD)数据,
发现相关疾病的携带率结论多数一致,
证明SV数据库的可信度。
和BioBank数据对比分析
3
辅助临床分析
目前参考gnomAD-SV数据库,
可以过滤掉WGS中大多数常见SV变异,
现有样本通过过滤,
通常可以得到10个左右的特有SV变异,
通过设置不同的过滤参数,
可以有效减少临床决策的分析范围。
gnomAD-SV数据的数量优势辅助临床分析
目前SV数据已经在gnomAD浏览器上展示,
可以随时参考目的SV的相关信息
gnomAD浏览器示意
4
注意问题
虽然目前gnomAD有大量的SV参考数据,
但仍需要注意以下问题:
相比SV变异的多样性,
数据库样本数量仍然偏少,
尤其是一些人群数量(如东亚人)
NGS对于SV的分析能力仍然有瓶颈,
例如三代长测序的SV结果,
会比二代多三倍以上的数量,
因此要注意NGS分析能力的局限性。
5
小结
gnomAD又一次开花,
这次是提供了SV参考数据,
给临床决策提供了有力的数据参考
又减轻了WGS的分析压力。
gnomAD的想象空间还有很多,
期待下一个挖掘方向。
如果对文章内容有评价或不同看法,
欢迎到行业大咖顾大夫创建的论坛中讨论
NGS基因诊断率能力提高之路径
多维度、多学科、多角度,合共同之力解决问题。
『广告时间』
bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES)
上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。
上海瀚垚生物 (www.56dna.cn)
我们为您提供优质的基因检测服务:
A、低成本即可获得更高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。
B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。
C、快速的实验周期,大部分项目20个工作日可完成报告。
感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施!
联系客服