FASTQC结果解读 为保证下游分析输入数据的可靠性,需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控。fastqC会生成一个html的结果报告,下面是软件对质控结果进行判断:绿色代表PASS;黄色代表WARN;红色代表FAIL(当出现黄色时说明需要查看结果)。
Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号
Total Sequences: total reads的数量
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。
2. Per base sequence quality:序列测序质量统计
碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。
横轴是测序序列的第一个碱基到第90个碱基(read长度),纵轴是质量得分。红线表示中位数,黄色是25%-75%区间,误差线是10%-90%区间,蓝线是平均值。
任何碱基质量低于10或是任何中位数低于25,报“WARN”;任何碱基质量低于5,或是任何中位数低于20,报“FAIL”。
Q = -10*log10(error P) P为测错的概率,Q20表示1%的错误率,Q30表示0.1%的错误率。
7. Per base N content:统计reads每个位置N的比率
当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时,就会产生'N',对所有reads的每个位置统计N的比率。
正常情况下N的比例是很小的,所以图上常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。
当任意位置的N的比例超过5%报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。
8. Sequence Length Distribution:reads的长度分布
为了防止建库或者测序时有一些不规则长度的序列,也要对被测序序列进行一个长度的统计。
当reads长度不一致时报“WARN”;当长度为0的reads时报“FAIL”。
9. Sequence Duplication Levels:重复reads的次数统计
统计完全一样reads的频率,横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。上图的情况中,相当于unique reads数目的18%的reads是观察到两个重复的,大约5%是观察到三次重复的,依此类推。
测序深度越高,越容易产生一定程度的重复,但重复程度很高,可能是有偏差的存在。Fastqc中用测序数据的前200000条reads统计其在全部数据中的重复情况。重复数目≥10的reads被合并统计,这也是为什么上图的最右侧略有上扬。>75bp的reads只取50bp进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例>20%时报“WARN”;当非unique的reads占总数的比例>50%时报“FAIL”。
10. Overrepresented sequences:过多的重复序列
如果有某个序列大量出现,就叫做over-represented,Fastqc的标准是占全部reads的0.1%以上,为计算方便只取测序数据前200000条reads进行统计,所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在运行时加入-c contaminant file,出现的over-represented sequence会从contaminant file里面找匹配的hit(至少20bp且最多一个mismatch)。
发现超总数0.1%的reads报“WARN”;超过总数1%的reads时报“FAIL”。
11. Kmer Content:Kmer含量
Kmer:将一条reads连续切割,挨个碱基滑动,得到的一组序列长度为k的核苷酸序列。
例:read序列为:ACT GGT GCT AAT GAC GAT。采用7-mer分析
结果为:
ACT GGT G
CT GGT GC
T GGT GCT
GGT GCT A
第一行以reads第一个碱基为起点,第二行以reads第二个碱基为起点,以此类推。每行的长度都是7。
如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话(出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer),fastqc将其记为over-represented k-mer,通常可以在overrepresented sequences图中找到,并查看它的来源。
如果任何k-mer的p值<0.01时报“WARN”;p值<10-5时报“FAIL”。
联系客服