有任何疑问、批评及指导，请毫不犹豫地私信作者！

术语与定义

VCF格式 variant call format

一种生物信息分析中的变异数据描述格式。

单核苷酸多态性 single nucleotide polymorphism; SNP

在基因组水平，由单个核苷酸位点的变异（替代、插入或缺失）所引起的脱氧核糖核苷酸序列多态性。

插入缺失型变异 insertion and deletion; Indel

在基因组的某个位置上所发生的小片段序列的插入或者缺失，插入或缺失片段的长度＜50bp。

结构性变异 structural variation；SV

包括大片段缺失、大片段重复、倒位、易位。

大片段缺失和大片段重复又叫拷贝数变异（copy number variation，CNV），即连续较长的序列发生了缺失或者重复，与插入删除型变异的区别在于变异的长度。

倒位指染色体上某一段序列发生了180度的颠倒。易位指染色体上的某一片段转移到了其他位置上。

测序通道 lane

高通量检测平台测序功能在芯片上实现，整张芯片可以物理分隔成更小部分，每个物理分隔的栏称为lane。

原始数据产出(Mb)

测序下机的原始数据量，即测序得到的碱基数目，以Mb为单位，1 Mb=1000, 000 base。

目标区域覆盖度 covered length

测序数据在目标区域的覆盖百分比。

目标区域长度(bp):捕获测序的目标区域总长，例如全外显子捕获就是全外显子区间总长。

探针覆盖度(bp)：捕获芯片中探针覆盖区域总长，由于探针设计特点，捕获探针覆盖区域长度一般比目标区域长度要长。

平均测序深度 sequencing depth

测序得到碱基总量与基因组大小比值。

1倍测序深度 1X

测序得到碱基总量与基因组大小比值为1。

4倍测序深度 4X

测序得到碱基总量与基因组大小比值为4。

20倍测序深度 20X

测序得到碱基总量与基因组大小比值为20。

FASTQ格式 FASTQ format

FASTQ 基于文本的、保存生物序列（通常是核酸序列）和其测序质量信息的、每四行表示一条序列的标准格式。

唯一下机序列 uniq reads

测序得到的唯一的下机序列。

Q20

测序数据中，碱基识别质量值＞20的碱基占所有碱基的比例。

注：碱基识别质量值为20时，表示碱基的正确率为99%以上，Q20≥95%，则表示测序数据中95%以上的碱基质量值大于20。

Q30

测序数据中，碱基识别质量值＞30的碱基占所有碱基的比例。

注：碱基识别质量值为30时，表示碱基的正确率为99.9%以上，Q30≥85%，则表示测序数据中85%以上的碱基质量值大于30。

碱基质量值(Base Quality Score, Q-score)是该碱基测序错误率的体现，在下机数据中每个序列的每个碱基都有一个质量值信息，我们通过识别这个质量值信息就可以了解到这个碱基被识别出错的概率是多少。质量值=-10log10(p)，p为该碱基的测序错误率。即碱基质量值为30的时候，这个碱基测错的概率为千分之一，表明该碱基可靠性非常高。碱基的质量信息我们可以在数据的原始文件中查看到的。二代测序平台双端测序获得的原始数据为fastq（或为压缩文件fq.gz）格式，每个样本有 fq1 和 fq2 两个文件，文件中为测序两端的 reads信息，序列通常按顺序一一对应。

平均读长 read length

测序的下机数据里，所有序列的平均长度。以碱基（bp）为单位，常见的读长有50 bp、90 bp、100bp、150 bp。

测序数据质控相关名词

生物信息学相关的名词

测序仪及平台

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。