本文介绍临床Gene Panel检测的「实验流程」及「生物信息学分析流程」(下图为MSK-IMPACT 468基因panel的检测流程,各产品流程也大同小异,本文参考此流程)。 个人能力有限,欢迎指出不足。
实验流程
Panel探针合成与QC
样本准备
基因组DNA抽提与QC
文库构建与QC
液相杂交捕获靶向文库
靶向文库高通量测序
生物信息学分析流程(无UMI标签)
Trimmomatic或cutadapt过滤
FastQc数据质控
bwa比对到参考基因组
samtools进行bam转换
picard或samtools对bam排序
picard或者gatk去重复序列
gatk重比对(Smith-Waterman算法)
gatk校正碱基质量值(BQSR)
call变异
annovar注释变异
免疫治疗相关Biomarker计算
关键参数统计
探针即扩增panel区域引物,QC要保证探针的GC比均匀、纯度高、特异性强。
NGS测序原理梳理02-簇生成
NGS测序原理梳理03-边合成边测序
为了降低实验误差,建库时有时候会用到UMI标签,加了标签后生信分析流程会很不一样,所以这里会分两种情况简单说说。
去接头、测序引物、低质量碱基、短序列及高N比率的碱基。
统计clean reads中碱基质量超过Q20及Q30的占比、reads数、GC比等。
bwa index构建参考基因组索引、bwa mem比对得到sam文件。
samtools view -bS将sam转换为bam格式。
samtools sort或者picard SortSam将bam文件按照参考序列位置升序排序。
picard MarkDuplicates或者gatk MarkDuplicates去除实验阶段PCR过程引入的重复序列,降低后续call出变异的假阳假阴性率。
由于参考基因组与比对算法在特殊区域存在一定缺陷导致需要重比对。gatk RealignerTargetCreator 定位重比对区域gatk 「Indel」Realigner进行重比对
校正测序过程中的系统性错误。gatk BaseRecalibrator找出需要校正的readsgatk PrintReads 校正碱基质量值「注意」,当后续使用gatk的HaplotypeCaller来call变异时,重比对步骤是可以省略的,因为HaplotypeCaller也有局部重比对的作用。至此,bam文件的各种校正结束,下一步开始找变异。
变异分为「体细胞突变」(somatic)和「胚系突变」(germline),其中somatic突变可指导肿瘤相关靶向药的使用,预后等,germline突变可预测遗传性肿瘤发病风险。体细胞突变(somatic)和胚系突变(germline)差异见:
一文彻底搞明白Germline Mutation和Somatic Mutation
找变异的方法非常多,一般会选择几个软件然后按项目实际情况挑变异,软件如(只列出了部分):
主流可选软件有gatk Mutect2(gatk4.0已经囊括了Mutect2,注意是Mu「t」ect2不是Mu「T」ect2)、strelka2 、VarScan、gatk(gatk HaplotypeCaller同时找出snv和indel;gatk SelectVariants分别挑出snv和indel;gatk VariantFiltration过滤变异)等,结果为一个VCF文件。
可选软件有factera、FusionMap、delly等。
可选软件有cnvkit、control-freec等等。
gatk HaplotypeCaller|VariantFiltration、 Samtools/BCFtools等。MSK-IMPACT 468的一些软件:
请出annovar的table_annovar.pl,主要从三个方面对变异进行注释:
「MMR,MSI,TMB」
参考panel MSK-IMPACT 468基因和Omics Core 19,396基因的参数及cutoff值,重要指标有panel区域的「覆盖度」(Average target coverage > NX )、Q30、热点突变区域的覆盖度(「DP」,Mutation Coverage)、热点突变区域的突变reads(「AD」,Number of Mutant Reads )、「突变丰度」(VF,Mutation Frequency)等,相关阈值如下。
「MSK-IMPACT 468」
联系客服