打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
RNA-seq从过滤低质量到去接头完整质控步骤

3.1 碱基质量

碱基的质量反映了碱基识别的好坏,这个在phred的质量评分中得以体现,将碱基出错的比例作为log10的对数,然后乘-10得到的标准值。举例说明,当100个碱基中有1个错误,质量评分为q = −10*log10(0.01) = 20,质量评分通常在0至40的范围内。除了数字,在FASTQ文件中质量信息通常用ASCII字符来表示以节约字符空间。现今的FASTQ的文件最初是由sanger开发,值的范围从0到92,对应的ASCII码从33开始至126。值得注意的是1.8版之前的Illumina软件(phred)使用的ASCII字符是由64开始的。进一步了解不同软件不同的编码方式,参考FASTQ文件格式手册。如果你不知道你文件的质量编码格式,利用FastQC可以帮你辨别,如果你希望转换FASTQ文件的质量评分,Trimmomatic可以解决这个问题。

一般碱基质量值在之后的循环测序中会下降,通过查看reads的可视化箱形图可以轻松得出结论,在FastQC和PRINSEQ的质量报告中都有这种类型的箱形图。图2展示了我们以双端测序为样本的FastQC碱基序列质量报告,如图所示,正向(fastq1)reads的质控质量很高,然而反向(fastq2)reads的质量很差,特别是在reads越接近末尾处质量越差。

除了检测每个碱基位点的碱基质量分布,检测reads的平均质量分布也是有价值的,这允许我们查看reads中是否有一部分整体质量不好,FastQC和PRINSEQ都可以绘制reads的平均碱基质量分布图。理想状态下,大多数的reads的碱基质量均值都应当为25或高于这个值,如图3所示,正向与反向的reads都包含有一段碱基质量普遍不好的2000000个碱基的reads。

可以对包含低碱基质量的reads进行过滤和修剪操作,过滤会去除整段reads,而修剪则会允许仅去除reads末尾低质量的片段,如果你打算过滤或质量矫正双端测序的reads,选择一个能够在输出时保存reads的匹配位置信息的工具,即使某一read或者其对应碱基被删除的情况下。这在将reads比对到参考序列时十分重要,因为比对软件通常都是按照两者的位置信息来回贴reads。注意不仅是过滤,修剪也会也会打乱位置顺序,因为直到修剪的read长度低于一定的数时,则完全舍弃该read。

3.1.1 过滤

Trimmomatic,FastX和PRINSEQ可以根据碱基来过滤reads,FastX质量过滤工具允许设置一个极小的质量值来获得得分百分比达到或高于这个值的碱基段。PRINSEQ和Trimmomatic基于reads的平均碱基质量来进行过滤,而且特别的是,他们可以处理双端读取的reads,以下是Trimmomatic过滤双端读取reads(PE)中平均碱基质量低于20的命令,输入与输出的文件都可以是压缩文件。


java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gzpaired2.fq.gz unpaired2.fq.gz AVGQUAL:20


图3.2 FastQC 测试样本的碱基序列质量绘图,正链reads(上图),反链reads(下图)。 图展示了所有Read中的每个碱基位置对应的碱基质量值。 y轴显示质量分数,黄色框表示Read每个位置碱基的质量值的四分位间距(25-75%)值。 红线是中间值,蓝色线是平均值。 绿色,橙色和红色背景着色表示良好,合理,质量差。 如果较低,FastQC会发出警告如果四分位数低于10,或者中位数在任何碱基位置小于25。

图3.3 FastQC输出的每序Read条列的质量值分布图。 正向测序Read(上)和反向测序Read(底部)包括大约两百万条Read(〜6%)的平均质量值小于2.反向Read的平均质量值一般较低。


Trimmomatic可以检查read’s互补是否存在然后将正确配对的reads输出在paired1.fq.gz和paired2.fq.gz中,将未能互补配对的reads输出在unpaired1.fq.gz和unpaired2.fq.gz中,如输出结果所示,约有82%的碱基对在过滤中保留了下来:


TrimmomaticPE: Started with arguments:

-phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz AVGQUAL: 20

Multiple cores found: Using 16 threads

Input Read Pairs: 34232081 

Both Surviving: 27981021(81.74%) 

Forward Only Surviving: 3162984(9.24%)

Reverse Only Surviving: 609823(1.78%) 

Dropped: 2478253(7.24%)

TrimmomaticPE: Completed successfully


使用PRINSEQ的如下命令同样也能实现质量过滤功能。


prinseq-lite.pl -fastq reads1.fastq -fastq2 reads2.fastq -phred64 -min_qual_mean 20 -out_good qual_filtered -out_bad null –no_qual_header –log –verbose


得以保留的碱基对输出在qual_filtered_1.fastq 和 qual_filtered_2.fastq中,过滤的reads输出在qual_filtered_1_singletons.fastq 和qual_filtered_2_singletons.fastq中,-verbose允许跟随运行生成一个质量报告统计(可在输出日志中查看),-no_qual_header指令指在PRINSEQ运行中在每条read质量行开头将“+ read name”换成“+”以减小结果输出文件所占体积。

3.2.1修剪

如果在reads的结尾处发现低质量的碱基,去除它们最简单的方法就是将reads修剪到给定的长度或者从任一端开始修剪给定数量的碱基。然而,这种方法也会去除质量好的序列。如果精确到考虑每一个碱基的质量值则可以减少序列损失,从read的3'或5'末端开始,如果碱基的质量低于用户设定的阈值,则将其修剪掉。FastX的修剪工具可以从3'末端修剪碱基,而PRINSEQ和Trimmomatic可以从两端修剪reads。因为修剪的原因,一些reads可能变的很短,修剪工具则会按照用户设定的最短长度将这些低于设定值的reads针对性的过滤掉,PRINSEQ,Trimmomatic和Cutadapt支持两端修剪,所以即使reads丢失了其互补也能够保持reads文件的同步。

以下Trimmomatic的命令用于修剪双端读取reads:由3'端开始,当碱基质量低于20时则将其修剪,并且修剪之后reads长度小于50个碱基的将被过滤掉。修剪和过滤的顺序是由代码命令所确定的,按正确的顺序使用两者是很重要的。


java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz TRAILING:20 MINLEN:50


经过修剪以及随后的过滤,近82%的碱基在两端读长中都得以保留,如输出摘要所示:


Input Read Pairs: 34232081 

Both Surviving: 27992914 (81.77%) 

Forward Only Surviving: 3114023 (9.10%) 

Reverse Only Surviving: 780195 (2.28%)

Dropped: 2344949 (6.85%)。


除了一个碱基一个碱基的检测质量, trimming 利用了一个叫做滑动窗口的算法,即将窗口中包含的碱基质量值与用户设定的阈值进行比较,Trimmomatic由read的开始(5'末端)开始滑动窗口,而PRINSEQ允许用户自己来决定从哪一端开始。值得注意的是,从5'端滑动窗口保留读取的碱基直到碱基的质量低于阈值,从3'开始的窗口则是一直修剪直到碱基质量达到阈值。由于reads中间的质量也可能会有下降,所有从5'端滑动窗口通常会产生较短的reads。很多reads有可能全部都被修剪掉,如果修剪与用户设定最小read长度过滤共同使用,将对双端读取的reads产生更严重的后果,因为一条read被过滤掉将导致从另一端读取的文件中的相对应位置的read被去除。除了扫描方向,PRINSEQ在其他设置方面更灵活:而Trimmomatic允许你设置滑动窗口的大小并且允许使用窗口中碱基平均质量来进行对比,PRINSEQ也允许用户设定每一次移动窗口的产的长度,以及是使用平均值还是最小值与阈值做对比。

以下Trimmomatic命令:设置一个可包含3个碱基的窗口,从5’端开始滑动并剪切reads,将窗口内平均值低于20的碱基去除,在修剪过后,过滤掉其中低于50碱基长度的reads。完成之后,将留下的reads按读序分开保存。


java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz SLIDINGWINDOW:3:20 MINLEN:50


输出结果如下图所示,值得注意的是正负读取的reads中都留存的碱基仅有64.4%。你可以通过增加窗口的大小来减小修剪的力度,比如,如果你将窗口大小改为7个碱基则有73.4%的碱基对留存。


Input Read Pairs: 34232081 Both Surviving: 22045360 (64.40%) Forward Only Surviving: 7811189 (22.82%) Reverse Only Surviving: 607284 (1.77%) Dropped:3768248 (11.01%)


作为对比,以下的PRINSEQ命令是从3’端移动一个3碱基大小的窗口,并且将平均质量低于20的修剪掉,在修剪之后,将碱基长度低于50的reads过滤,将正负链都留存的碱基保存在window_1.fastq 和window_2.fastq中,而输出的window_1_singletons.fastq 和 window_2_singletons.fastq文件中则保存在失去对应碱基的reads。


prinseq-lite.pl -phred64 -trim_qual_window 3 -trim_ qual_type mean -trim_qual_right 20 -trim_qual_rule lt -fastq reads1.fastq -fastq2 reads2.fastq -out_good window -out_bad null -verbose -min_len 50 -no_qual_header


根据输出结果:有81%的pairs在修剪与过滤之后保留。

Input and filter stats:

Input sequences (file 1): 34,232,081

Input bases (file 1): 2,567,406,075

Input mean length(file 1): 75.00

Input sequences (file 2): 34,232,081

Input bases (file 2): 2,567,406,075

Input mean length(file 2): 75.00

Good sequences (pairs): 28,133,789

Good bases (pairs): 4,220,068,350

Good mean length(pairs): 150.00

Good sequences (singletons file 1): 3,008,972(8.79%)

Good bases (singletons file 1): 225,672,900

Good mean length (singletons file 1): 75.00

Good sequences (singletons file 2): 769,471(2.25%)

Good bases (singletons file 2): 57,710,325

Good mean length (singletons file 2): 75.00

Bad sequences (file 1): 3,089,320(9.02%)

Bad bases (file 1): 231,699,000

Bad mean length(file 1): 75.00

Bad sequences (file 2): 3,008,972(8.79%)

Bad bases (file 2): 225,672,900

Bad mean length (file 2): 75.00

Sequences filtered by specified parameters:

trim_qual_right: 3330145

min_len: 50879967


碱基质量相加体系作为一种替代滑动窗口算法的方法最早运用在bwa比对工具中,所以这也被叫做“BWA 质量修剪法”,它从reads的右端(3’末端)开始扫描,与用户设定的阈值的比对的同时,也随着软件运行将异值相加,当到某个位点所累积的“不良”值最高时则将这段read修剪。Cutadapt tool也运用了这种方法。

最后,Trimmomatic提供了一种称为MAXINFO的自适应的质量修剪方法,旨在于在去除错误碱基与保持reads长度两者之间保持平衡。它需要提供两个参数,reads目标长度以及严格性指标,然后从reads的3’末端开始统计每一个碱基的分值,如果read长度小于目标长度,一个处罚机制将会实行。对于稍长的reads,错误概率造成的处罚机制将会累积并最终超过保存额外碱基的极限。使用者可以通过定义的严格性指标参数来控制这个平衡,通常取0-1之间的值来保存read的高准确性,以下是设定目标长度与严格性=0.7的MAXINFO修剪命令:


java –jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz MAXINFO:50:0.7 MINLEN:50


大约99%的碱基对在此次的修剪与过滤中得到保留:


Input Read Pairs: 34232081 Both Surviving: 33724880(98.52%) Forward Only Surviving: 63886 (0.19%)Reverse Only Surviving: 4564(0.01%) Dropped: 438751 (1.28%)


如果我们将严格性指标控制在0.8,将read全长的正确性提高,则留存的碱基对比例降到了82%:


Input Read Pairs: 34232081 Both Surviving: 27993319 (81.78%)Forward Only Surviving: 3113077 (9.09%) Reverse Only Surviving: 780359(2.28%) Dropped: 2345326 (6.85%)


3.2 不确定的碱基

如果碱基在测序中未能测出,则在read中以N代替,组装与比对时有多种处理未明确碱基的方法:一些是用随机碱基取代N,或者是用固定的碱基取代这些N,另外由于这些N会导致组装与比对的错误,含有大量N碱基的reads应当被去除,PRINSEQ质量报告会用图示来表示Ns的存在情况(图3.4)。用户可以看到每段read的Ns的百分比。

PRINSEQ的filtering(过滤)功能允许用户设置一个最大的数值或百分比,高于这个数值或者百分比的read将会被过滤,以下的命令用于过滤含有多余两个Ns的双端读取reads。

图3.4 PRINSEQ 不明确碱基(Ns)的概况说明 2%的reads含有Ns,92452的reads只含有Ns


prinseq-lite.pl -fastq reads1.fastq -fastq2 reads2.fastq -ns_max_n 2 -out_good nfiltered -out_bad null-no_qual_header -log -verbose


保留下来的碱基对保存在nfiltered_1.fastq 和nfiltered_2.fastq中, nfiltered_1_singletons.fastq 和 nfiltered_2 _singletons.fastq保存那些失去互补碱基的reads。如输出日志所示,33,546,906 的碱基对在过滤中得以保留。 


Input sequences (file 1): 34,232,081

Input bases (file 1): 2,567,406,075

Input mean length (file 1): 75.00

Input sequences (file 2): 34,232,081

Input bases (file 2): 2,567,406,075

Input mean length(file 2): 75.00

Good sequences (pairs): 33,546,906

Good bases (pairs): 5,032,035,900

Good mean length (pairs): 150.00

Good sequences (singletons file 1): 58,095(0.17%)

Good bases(singletons file 1): 4,357,125

Good mean length (singletons file 1): 75.00

Good sequences (singletons file 2): 141,443(0.41%)

Good bases (singletons file 2): 10,608,225

Good mean length(singletons file 2): 75.00

Bad sequences (file 1): 627,080(1.83%)

Bad bases (file 1): 47,031,000

Bad mean length(file 1): 75.00

Bad sequences (file 2): 58,095(0.17%)

Bad bases (file 2): 4,357,125

Bad mean length(file 2): 75.00

Sequences filtered by specified parameters:

ns_max_n: 1170812

3.3 接头

Illumina和Roche 454协议都需要用到测序接头,在数据分析之前需要对其进行修剪,一些其他的标签如标识及引物都需要去除,虽然这些听起来微不足道,但是也存在一些困难。首先,这些标记,就像read的其他部分一样,可能会有测序错误,所以修剪软件需要能够应对错误匹配,插入和缺失,碱基不明确等情况。其次,当对小rna进行测序是,reads可以延伸至3’接头,这种“通读”情况的问题是由于接头位于3’端成为了一部分造成了难以识别。最后,如果数据来源于公共数据库,这些接头序列信息甚至都难以确定。

如果接头序列不明确的话,TagCleaner 可以预测它。还有FastQC的k-mer overrepresentation图和PRINSEQ的Tag Sequence Check plot(标识序列检测图)能够检测到接头的存在。可以用于接头去除的工具有Trimmomatic,FastX,TagCleaner,和Cutadapt。其中,Trimmomatic,TagCleaner和Cutadapt可以应对错误匹配,修剪两端接头等问题,并且允许用户指定reads与标识序列的最小重叠, TagCleaner可以应对插入,缺失及碱基不明确等问题,Trimmomatic速度十分快,因为它首先将reads与短种子序列进行匹配,然后对那些匹配度高的reads进行操作。Trimmomatic支持双端读取序列,同时它也可以利用两端读取信息进行接头探测,这种所谓的回文法是基于两端都发生了通读并且片段被完全测出的情况下,此时,reads可以对齐,对部分接头的检测可以精确到每个碱基,值得注意的是如果将常用,质量及接头等修剪工作集合在一个Trimmomatic命令中,此时,你需要将接头修剪列为第一步,因为辨别所有全部的接头序列比探测特定的一部分简单。

图3.5 Trimmomatic软件的回文法可以将双端测序中在通读状态下即便是极短的那部分的接头序列识别出来。两个双端测序的reads相对(上方的为正读,下方的为反读),白色的是接头,黑色的是插入后被测序出的接头序列,当插入很短时,序列直接通读至3’末端,导致有一部分(或者全部)接头被测序。Trimmomatic可以识别及去除它们。(通过交叉比对来推断)。



样本数据已将完成可接头剪切,而接下来所举例的命令用于去除Illumina双端测序序列的TruSeq2 接头,并且允许与种子序列比对时有两处不符,回文修剪的阈值是30,通常一般设置为10,通过回文模式检测接头的最小长度为1,反链保存(默认值是去除)。


java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:30:10:1:true


3.4 read长度

检测read长度分布作为质量控制中一个很好的措施,也同样适用于Illumina测序出的初始长度一致的reads,因为因质量和接头修剪后会产生很多小片段,FastQC和PRINSEQ都可以画出reads长度分布图。许多的修剪工具如Trimmomatic,PRINSEQ,Cutadapt和FastX质量修剪工具都提供了根据read长度进行过滤的操作,而所需的最小长度取决于下游应用,极短的reads会很难准确的比对到基因组上,而较长的reads在组装与剪接异构体的定量中更有利。

3.5 随机六聚体引物引起序列偏差和不匹配

在文库制备过程中,rna被打断成片段,随机六聚体引物作为引物逆转录rna为cDNA,结尾的片段最终也被测序,因此人们希望可以从随机引物为起点的地方开始测序,从而在read中将不会产生任何偏差。然而有显示使用随机六聚体引物会引发RNA-seq开始处的核酸组成发生偏移,这种序列特异偏好性影响基因及亚型的表达量估计,这是由于在转录组上覆盖度不一致所引起。当所有位置的碱基比例一致的表现出偏差时也可能是接头未修剪和文库中某个序列大量重复的一个信号。

FastQC的reads碱基成分图(图3.6),正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。任一位置如果A与T之间或C与G之间的差异高于10%,Fast报'WARN'。

序列特定偏差不能通过剪切和过滤去除,但是在第六章中介绍的Cufflinks 和eXpress提供了修正方法,这可以通过数据认知选定的序列,并将这个信息保存在丰量估计中。

图3.6 由FastQC 产生的每个碱基成分图 y轴显示的是每种核酸的百分比,前十三个碱基位点表现出典型的 Illumina RNA-seq reads的序列特异性偏差。


值得注意的是,除了序列偏差,随机六聚体被证明在Illumina RNA-seq reads的开头引起了错配。错配率最高的是第一个核苷酸,尽管多达七个核苷酸可能受到影响,但是这些错配的碱基对通常含有较好的碱基质量评分,所以这些碱基难以检测,为了避免这种情况,可以通过Trimmomatic 或 PRINSEQ软件来修剪这些碱基。

3.6 GC含量

Reads的GC含量含量应当是遵循正态分布的,均值不一定在50%,而是由平均GC含量推断的, GC含量的曲线形状的偏差以及一个大幅度改变往往是由于文库的污染,这个问题我们将在本章稍后讨论。 FastQC和PRINSEQ都可以绘制reads的平均GC含量分布,FastQC也可以绘制出每个碱基位点的GC含量,根据基因组的GC含量应当会产生一条平滑的曲线,在确定的基因位点处出现了不同的GC内容是由于文库中部分reads构成的子集有偏差(overrepresented reads)。之前讨论的序列特异性偏差在GC含量图中也得以体现。

值得注意的是在标准文库制备流程中PCR 扩增时在GC含量高与低的区域会遇到困难,出乎意料的是,这些GC含量的影响可能具有样品特异性,这使得差异表达分析变得更复杂。这些GC含量的偏差不能被预处理所修正,但是通过样品的规范化及一系列修正方法的提出将这些问题纳入到后面的分析阶段中考虑可以得到改善。

3.7 PCR复制

如之前所述,reads一般读取的是随机片段末端,所以大部分reads应该是唯一的,但在其他的NGS测序应用中,高比例相同的reads代表着PCR过度扩增,但是在RNA-seq的背景下重复序列通常是高度表达的转录产物测序的自然结果。为了进行不同的表达分析,不建议去除这些重复序列,因为这些序列超出了动态范围,read 计数不能与表达量成比例。然而,如果一片较少表达的区域某个位点的reads数量极多,这可能是PCR过程中出现了问题。

FastQC和PRINSEQ都可以进行重复序列分析,FastQC只可以检测确切的重复,但是PRINSEQ也可以检测5’与3’的重复,通过PRINSEQ的质量分析报告,我们样本数据中51.4%的正读reads含有确切重复,PRINSEQ展示了一张含有重复数量前100的reads含有的重复。这些帮助我们确定是否有许多reads含有低比例的重复或者是否有少量reads含有高比例重复。

图3.7 PRINSEQ的重复报告的摘录内容显示了前100个最多重复reads的数量。最多重复的read含有95452个拷贝。


PRINSEQ的过滤功能允许用户指定一个read最多含有多少个重复,FastX Collapser将相同的reads整合到一起,并将数目计数统计,这些工具都是针对于原始数据并且根据序列识别复制reads。值得注意的是,在现实情况下由相同片段PCR扩增出的reads可能由于测序错误产生不同的序列。所以基于序列判断的方法可能会低估重复的数量。如果reads被比对到参考序列上,重复可以根据相同的比对位点来判断,而不仅仅是依靠序列的内容来判断。在下一章中讨论用于reads比对的软件中包含有这种功能。他们使用外基因组坐标来定位这些双端测序reads来对重复片段做一个推断,这对于RNA-seq来说并不是一个理想的方法,因为可变剪切产生的reads虽然含有相同的外基因组坐标,但是由于外显子跳读却含有不同的内容。

如果你想去除原始数据的重复,你可以使用PRINSEQ工具包,示例命令可以用来去除重复一百遍(-derep_min 101) 等确切的重复reads(-derep 1)。


prinseq-lite.pl -fastq reads1.fastq -fastq2 reads2.fastq -derep 1 -derep_min 101 -log -verbose -out_good dupfiltered -out_bad null -no_qual_header


保留的碱基对被保存在文件dupfiltered_1.fastq 和 dupfiltered_2.fastq中,而失去碱基对的reads被保留在dupfiltered_1_singletons.fastq 和 dupfiltered_2_singletons.fastq中,如日志报告,有808295条(2.4%)reads被去除,有33423786条(96.7%)得以保留。

Input sequences (file 1): 34,232,081

Input bases (file 1): 2,567,406,075

Input mean length (file 1): 75.00

Input sequences (file 2): 34,232,081

Input bases (file 2): 2,567,406,075

Input mean length (file 2): 75.00

Good sequences (pairs): 33,423,786

Good bases (pairs): 5,013,567,900

Good mean length(pairs): 150.00

Good sequences (singletons file 1): 0(0.00%)

Good sequences (singletons file 2): 0(0.00%)

Bad sequences (file 1): 808,295 (2.36%)

Bad bases (file 1): 60,622,125

Bad mean length(file 1): 75.00

Bad sequences (file 2): 0(0.00%)

Sequences filtered by specified parameters:

derep: 808295

3.8 序列污染

如果你不走运的话,你的reads或许会包含一些生物体或载体的序列,如之前所述,在GC含量分布图中这些都可以被反映出来,PRINSEQ的二核苷酸频率图也可以给出有关污染的线索,可能最直接的方法是将可能污染的reads进行比对,FastQ屏幕工具将用户认为的污染序列用Bowtie比对工具定位并以图文的形式展现出结果。或者,也可以取随机取部分reads BLAST到总核酸序列数据库。

3.9 低复杂度序列与polyA尾巴

低复杂度的序列包含信息有限,因此很难比对到准确的位置上。例如,他们就可以组成均聚物,(例如AAAAAAAAAA),二核苷酸(例如CACACACACA),或三核苷酸(例如CATCATCATCAT)等重复。PRINSEQ使用两种方法计算reads的序列复杂度:DUST和Entropy。DUST的分数范围在0到100之间,均聚物的分数最高,一条read的DUST得分如果高于7则被认为是低复杂度,Entropy的分数正好相反,均聚物的Entropy值为0,凡是低于50的reads被认为是低复杂度,你可以用PRINSEQ的–lc-threshold命令过滤掉这些低复杂度的reads,你只需要说明使用哪种方法进行过滤。-lc-method(DUST/entropy)。

PolyA/T尾巴指的是reads末端的A或者T的重复,PRINSEQ可以报出有多少条reads含有或多于5碱基重复的 polyA/T 尾巴和这些尾巴长度的分布。你可以设定一个最小的尾巴长度到 –trim_tail_right(或–trim_tail_left)指令中来去除这些尾巴。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
fastp: 极速全能的FASTQ文件自动质控 过滤 校正 预处理软件
Biostar:课程7、8
2-跟着science学习宏基因组-去除宿主-评估测序质量是否足够
NGS 数据过滤之 Trimmomatic 详细说明
从零开始完整学习全基因组测序(WGS)数据分析:第3节 数据质控 | Public Library of Bioinformatics
hisat2:比对基因组工具简介
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服