打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
经验分享|GATK4 Mutect2与 GATK3 MuTect2的应用区别

相信经常做SNP或者SNV突变位点研究的人,对GATK的名字一定很熟悉,它的全称是Genome Analysis ToolKit,是一款从高通量测序数据中分析变异信息的软件。GATK主要用于人类的全基因组和外显子组的测序数据,目前大部分数据来源于Illumina测序平台。当然,随着技术不断发展,现在也可以用于其他物种的分析,也支持Copy Number VariationStructure Variation的检测。目前最新版本是4.0.4.0, GATK4,与之前的版本相比,版本4在算法上进行了优化,运行速率有所提高,同时也整合了picard软件的功能。

 

GATK软件提供了5套完整分析流程,我们一般叫它 GATK Best Practices 1) Germline SNPs +Indels; 2) Somatic SNVs + Indels; 3) RNAseq SNPs + Indels; 4) Germline CNVs; 5)Somatic CNVs 可以看到,GATK 更多的是倾向于DNA 测序数据的分析,主要识别SNPCNV 两大类型的变异。详细可以见官网的描述:https://software.broadinstitute.org/gatk/documentation/

 

这里我们主要讨论一下 Somatic SNVs + Indels这套分析流程中的故事。研究癌症,寻找somatic 突变是必不可少的一步。 通常癌症研究是将正常组织和癌症组织一起进行全基因组测序或者全外显子组测序,然后过滤掉种系突变(Germline mutation),从而获得肿瘤组织的体细胞突变(Somatic mutation)。当然,我们也要注意很多影响因素对我们寻找somatic突变的作用,包括受到测序文库、测序深度、肿瘤纯度以及软件缺陷等等因素的影响。例如,由于一些肿瘤切片组织含有过多的正常组织细胞,会对肿瘤细胞造成干扰;肿瘤突变可能是异质性的;一些突变常常是非整倍性的,如拷贝数变异导致的。所以选择好的软件,很好的理解软件的使用,对得到可靠的结果,并做出合理解释是非常有帮助的。

 

这里我们讨论一下GATK最新版本GATK4Mutect2与之前的版本GATK3MuTect2之间的差异。

 

首先,我们可以从名字的设定上就有差别:GATK3MuTect2是大写的T,而GATK4Mutect2是小写的t。这样的设计,可以让我们很好地区分它们是不同的版本软件,另外我们在type输入命令的时候也很容易,不用切换大小写。

 

下面我们再给出两个版本GATK 的不同工作流程(Workflow)参数用法:

 

从上表中我们可以看到,GATK3calling variants和过滤somatic calls都是用的MuTect2,而GATK4则是选择Mutect2进行calling,而过滤用的是一个独立工具 FilterMutectCalls。另外一个很大的区别是如果一个突变位点在匹配的正常组织中出现,或者是在注释库如dbSNP中出现,则GATK3 MuTect2是不对这位点call somatic的;这是因为根据随机突变假说,这样的位点要么不太会是somatic突变。而GATK4 Mutect2会充分考虑germline的位点和是否与Tumor位点匹配(matched)。详见下表的解释:

 

需要注意的是由于一些样品制备、测序以及序列配对过程中会产生系统性的误差,会在calling somatic突变中形成噪音。同时,GATK4 Mutect2主要是根据对正常-肿瘤样本进行位点比较寻找somatic突变,如果没有正常样本,虽然GATK4 Mutect2软件也能正常跑通产生结果,但假阳性或者说噪音也会很高。因此需要利用多个匹配的normal样本,然后使用GATK4 Mutect2中与癌症样本使用相同参数,构建一个PoN库;如果有了这种PoN库,GATK4 Mutect2会在局部重组装,有助于过滤掉常见的germline突变位点。这期就介绍到这里,敬请期待!


生信草堂

浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!

加微信bioinformatics88拉您进生信交流群

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
GATK4基本概念整理
生信基础课 | 行业“金标”GATK之概述篇
TCGA计划的4个找somatic mutation的软件使用体验
GATK4最佳实践-体细胞突变的检测与识别
02.GATK肿瘤基因变异最佳实践SnakeMake流程:Call 变异
一步一步用Snakemake搭建gatk4生成正常样本的germline突变数据库的流程
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服