打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
二代测序中Duplication问题讨论
userphoto

2023.04.04 江苏

关注

什么是Duplication?


首先来说一下什么是duplication。二代测序所获得的测序reads序列,将它们比对到基因组上,如果出现了完全匹配在基因中同一位置的reads,那么它们就是duplication。它们来自于一段序列的多拷贝,通常对数据分析的意义不大,后续分析需要过滤保留唯一值。可知,当duplication的比例过多时,就意味着测序数据中的相当一部分都是“无效数据”。

Duplication rate的计算公式如下:

Duplication Rate=1 - Unique Reads / Total Reads

DNA分子多样性是影响Duplication rate的主要因素。减少PCR循环是降低Duplication rate的有效措施。由于随机事件的存在,二代测序各个环节都存在影响Duplication rate的因素。一般来看,二代测序duplication的比例通常应该小于15%的比例,特殊性测序类型除外(如扩增子测序)。


duplication是怎样产生的


要理解这个问题,必须首先要知道从样本准备到测序这一系列过程中都涉及了怎样的步骤。以基因组测序为例,主要过程包含:样本制备,核酸随机打断,文库构建,上机测序。

  (1)核酸提取和序列的随机打断

二代测序测序要求短读长,因此在提取核酸后,首先需将它们打断为小片段,片段化环节需要保证获得适当的长度,由于样本中核酸的原始拷贝数目极多,经随机打断后,出现两条相同小片段的概率基本为0,这一步本身不会出现duplication。

但是片段长度越小,后面PCR扩增越容易,加剧了PCR偏好性,最后引起PCR产物复杂度降低,duplication rate升高。

  (2)文库构建和PCR扩增

此步骤在DNA片段两端添加测序接头(adapters)序列。(可参阅各实际使用的建库试剂盒)。


adapters添加后,引物会跟adapters上的序列结合,再进行数轮的PCR扩增。


这个PCR扩增就是duplication的主要产生原因了。由于PCR扩增偏好性问题,并非所有的含adapters的DNA片段都是均匀扩增的,不过好在PCR循环次数一般不多,偏好性问题不严重。

但是含adapters的DNA片段经过扩增,带来了duplication的丰富来源,因此PCR循环次数是产生duplication的主要原因,如何降低PCR循环数是我们需要考虑的问题,某种程度上,接头连接效率越高,分子多样性越好,PCR循环数越少,duplication rate也就越低。

   (3)NGS测序

二代测序的基本原理都是边合成边测序,此以Illumina为例介绍:

Illumina测序仪中实际进行的测序反应位于流动池(flow cell)中。


flow cell是吸附移动DNA片段的通道,它也是测序反应的核心容器,所有测序过程都在这里进行。每个flow cell的泳道的表面都附着有非常多的衔接子,可以与文库中DNA片段末端添加的adapters两侧的接头互补以吸附目标DNA。测序文库中的DNA片段穿过flow cell时,它们将随机附着在泳道上,并在这里以衔接子作为模板进行PCR扩增。在连续扩增循环后,每个DNA片段最终将在其各自位置聚集形成cluster。


culster形成之后,在反应体系中加入DNA聚合酶、连接引物和4个带有碱基特异性荧光标记的dNTP。这些dNTP的3'-OH受化学保护,可确保在测序过程中一次只能延伸一个碱基。然后加入荧光激发所需的缓冲溶液,通过激光激发荧光信号,并通过光学设备记录荧光信号。最后,通过计算机分析将光信号转换为测序碱基。记录荧光信号后,添加化学试剂淬灭荧光信号并去除dNTP 3'-OH保护基团,从而可以进行下一轮测序反应,不断循环。


测序过程中产生duplication的原因主要有3点:

(1)在DNA片段与flow cell表面的吸附过程中,会出现相同DNA分子(由建库过程中的PCR产生)吸附在flow cell的不同位置,后续形成各自的cluster并测序后,得到了相同的reads序列。

(2)桥式PCR过程中,也可能会出现极少数已发生拷贝的DNA分子和flow cell的结合不稳定而脱离,之后吸附到另一结合区域并扩增成cluster,测序后得到相同的reads序列。

(3)光学分辨引起的Duplication,如下图左上,一个不规则的Cluster被识别成了两个,被识别成两个的Cluster通常比较大,或者不规则,或者是由于生成Cluster的模板DNA分子被释放后在很近的位置又被再次捕获,就近形成第二个克隆。



其他可能影响duplication的因素


磁珠纯化

磁珠纯化可能会影响duplication rate。磁珠吸附本质上是电荷吸附,DNA序列不同,电荷密度不同,洗涤条件如果不严谨,就会造成磁珠吸附有偏好性,也就意味着分子多样性降低,进而影响Duplication rate。

杂交过程

不考虑模板本身的多样性,如果杂交时重复序列(比如LINE、Alu序列以及Adapter序列)未能有效封闭,必然会造成duplication rate升高。

试剂质量

比如测序试剂出了问题,可能会导致duplication rate升高。

建库的次数

目前深度测序的应用越来越多,最明显的就是ctDNA,有时候会到10000x的深度,一些全基因组测序也需要高深度测序,从正常的30x变成300x,当需要这种应用时,我们建议在条件允许的情况下,多建几次文库,比如全基因组300x测序,建一个文库测序300x和建3个文库各测100x,其分子的多样性是完全不一样,需要我们注意。

其他因素

包括DNA提取质量、操作人员的操作习惯等。比如同样取200ng基因组DNA做NGS,一个取0.1μL获得200ng,一个取5μL获得200ng,也影响分子多样性。


关于duplication比例的问题


以上分析,可以看到产生duplication最多的一步,就是在建库过程中的PCR环节,导致了几乎所有目标DNA片段都产生了多拷贝。所以大部分建库要求PCR在10-15轮之间。

Cluster生成过程的最开始,是DNA模板与芯片上引物结合的过程,这个过程是随机事件,各种分子的比例越均一,模板分子的多样性和复杂度越高,duplication rate就会越低,极端的情况就是每个Cluster只是一种模板分子的单克隆,这个时候Duplication rate是最理想的。但实际的情况由于PCR偏好性的问题,我们的上机文库不可能完全是均一的分子模板,但是注意的是,不是所有DNA片段都能吸附到flow cell表面,flow cell捕获的DNA片段仅为文库中带adapters的DNA片段的一个很小的子集,该过程是随机捕获的,相较于背景文库中的DNA片段数量,两者可以说不在一个数量级上。因此,同一目标DNA片段的多拷贝序列被捕获次数≥2次的情况,其实是很少的,所以最终结果中duplication的比例并不糟糕。


Duplication Rate经验值


WES:数据量约10G时,Duplication rate在10%左右;

WGS:数据量约90G时,Duplication rate在10%左右;

RNA-seq:Duplication rate在40% ~ 50%左右;

WGBS:>10G, Duplication rate > 10%;

多重PCR试剂盒和靶向捕获Panel,差异很大,跟需要测序的区域以及测序量有关,通常情况下只要中靶部分数据质量足够好,Duplication rate不是一个重要的考虑指标。




 1
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
NGS的duplicate的问题
为什么二代测序的原始数据中会出现Read重复现象?
深入理解snp-calling(一):比对与数据预处理部分
建库测序中的若干问题(1)
文库测序十问十答
NGS文库质检非定量PCR不可吗?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服