打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
NGS数据格式梳理01-FASTQ和FASTA格式详解

本系列想详细的梳理NGS数据分析中常用的几种数据格式,目前打算见下图:

正文分割线

FASTQ和FASTA是存储DNA序列及对应质量信息最常使用的文本文件,本文介绍Illumina平台下机数据FASTQ文件命名规则,详细格式和传输完整性校验,及FASTA格式。

FASTQ文件命名规则

Illumina测序仪下机FASTQ命名举例如下(NextSeq CN500下机数据bcl格式,经过bcl2fastq转化后名称类似)[1]:
Samplexx_S53_L002_R1_001.fastq.gz####详细解释###Samplexx:样本名,与上机时在sampleSheet中填写的一致;S53:S后跟的数字与样本在sampleSheet中的顺序一致,从1开始;L002:L00*,lane编号;R1:R*,R1表示read1,R2表示read2。R1和R2为paired end reads。同一个样本的配对的FASTQ,只有这个地方不同;001:001,通常为001;

Undetermined_S0_L001_R1_001.fastq.gz(存储index不匹配的reads

-----------------------------------------------------------------------------

FASTQ格式详解

  • 总共四行,如下例子

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGATCGCACTCAACGCCCTGCATATGACAAGACAGAATC+<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=
  • 详细介绍各行

  • 第一行,Sequence identifier

序列标识以及相关的描述信息,例如

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA

@SIM,测序仪的ID号1,run number,一张flowcell是一个runFCX,flow cell的ID号1,lane号15,tile号(tile为flow cell上最小单位,测序时每测一个碱基,照相一次)6329,flow cell中簇位置的X坐标1045,flow cell中簇位置的Y坐标GATTACT+GTCTTAAC 1,当sampleSheet存在UMI(Unique Molecular indentifier,用于提高测序的准确性)时该项存在;为Read1的UMI序列+Read2的UMI序列信息,下图为文库中UMI的位置1,1 表示 single read  2 表示 paired endN,是否过滤,Y表示被过滤,否则为N0,0表示十进制?否则是一个偶数ATCCGA,index序列

  • 官网给的格式解释如下:

@<instrument>:<run number>:<flowcell ID>:<lane>:<tile>:<x-pos>:<y-pos>:<UMI> <read>:<is filtered>:<control number>:<index>

  • 第二行,Sequence

序列信息,例如

TCGCACTCAACGCCCTGCATATGACAAGACAGAATC

  • 第三行,Quality score identifier line (consisting only of a +)

以“+”开头,为节省存储空间什么也不加,以前会重复第一行信息,例如

+

  • 第四行,Quality score,测序质量值

描述第二列中每个碱基的可靠程度,用ASCII码表示,我们平时长听到的Q20,Q30即为该字符对应的值,例如

<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=

  • 质量值详解

  •  该行ASCII码怎么来的?

利用公式Q = -10log(p_error)计算质量值,p_error(测序错误率)为测序时照相后,图片中数据点的清晰程度,由测序过程中的base calling 算法计算出来,Q值越大,该位置测序正确率越高,测序错误率越低,常用的Q值与对应的错误率如下表,Q20即测序质量值为20,测序正确率为99%,测序错误率为1%;
质量值加上质量体系值求得ASCII码值,查询ASCII码与ASCII码值对应表如下,得该位置ASCII码。举个例子,第一个碱基T对应的碱基质量ASCII码是<,查询ASCII码表中<对应的ASCII值为60,如果当前测序仪使用的质量体系为Phred33,则T对应的碱基质量值Q为27(60-33),可进一步推算出Q = -10log(p_error)中p_error。
  • 质量体系值怎么来的,怎么选?

早期没有统一的标准,有的加33,有的加64,不同测序仪可能不同,所以有Phred33和Phred64两个质量体系,现在基本上统一为Phred33体系了,如下图。

  • 为何FASTQ中该列不直接使用Q值表示质量值?

数字不好直接连起来,还得加分隔符浪费空间。
  • 为何要用质量值加上质量体系值?

ASCII码前0到32个为非可见字符,如空格,记录分隔符等,所以需要Q值加上质量体系值(33或者64),ASCII码标准表如下[4]

----------------------------------------------------------------------------------

FASTQ传输完整性校验

为了防止FASTQ在传递过程中意外损坏,传递之前会生成文件的md5文件。
  • 批量生成md5文件md5_check.txt

for i in `ls -d *fq.gz`;do md5sum $i>>md5_check.txt;done
  • 校验传递完整性

md5sum -c ./md5_check.txt

----------------------------------------------------------------------------------

FASTA格式

参考资料[2]

主要由两行组成,序列的描述信息和序列数据。头信息独占一行,以大于号(>)开头作为识别标记,例如
>ENSMUSG00000020122|ENSMUST00000138518CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGTTATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGTTCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCAGGGCCCACCTGTTCTCTGGT
  • 第一行序列描述信息

以<开头,格式没有严格要求。用一个空格把头信息分为两个部分:第一部分是序列名字,它和大于号(>)紧接在一起;第二部分是注释信息,这个可以没有,看具体需要,例如:

>ENSMUSG00000020122|ENSMUST00000138518

相同的序列被不同的人处理之后、甚至是在不同的网站上或者数据库中它们的头信息都不尽相同,比如以下的几种情况都是可能存在的。在业内也慢慢地有一些不成文的规则被大家所使用,那就是,用一个空格把头信息分为两个部分:第一部分是序列名字,它和大于号(>)紧接在一起;第二部分是注释信息,这个可以没有,就看具体需要。
>ENSMUSG00000020122|ENSMUST00000125984> ENSMUSG00000020122|ENSMUST00000125984>ENSMUSG00000020122|ENSMUST00000125984|epidermal growth factor receptor>ENSMUSG00000020122|ENSMUST00000125984|Egfr>ENSMUSG00000020122|ENSMUST00000125984|11|ENSFM00410000138465
  • 第二行序列数据

CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGTTATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGTTCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCAGGGCCCACCTGTTCTCTGGT

参考资料

[1] https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/FileFormat_FASTQ-files_swBS.htm[2] https://en.wikipedia.org/wiki/Phred_quality_score[3] https://www.plob.org/article/11672.html[4] https://baike.baidu.com/item/ASCII/309296?fr=aladdin
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Bioinformatic Data Skills 学习专题(7) 序列数据浅谈
从零开始完整学习全基因组测序(WGS)数据分析:第2节 FASTA和FASTQ | Public Library of Bioinformatics
读懂测序文件那些事儿
fasta格式文件处理大全(六)
微生物多样性研究中测序原始数据及其处理方式
NGS基础 - FASTQ格式解释和质量评估
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服