字幕内容
大家好,欢迎参加MGI(华大智造公司)网络研讨会系列。
今天是MGI网络研讨会系列的第一期。从现在开始,我们将开始介绍基于MGISEQ平台的技术包括:测序原理,实验步骤,产品选择和质量控制标准等。
将由MGI现场应用科学家团队和营销团队定期和大家分享。MGI的现场工程师MC Meng Wong和我将主持今天的网络研讨会。
接下来让我将麦克风交给今天的演讲者Chizheng Yang。
大家好,谢谢您参加此点播网络研讨会,我叫Chizheng Yang,华大智造的现场
工程师。
今天我们将为您简要介绍DNBSEQ测序技术。
所以在我们下面开始之前,让我先说明一下本课程的目的。完成本课程后,您将能够了解MGI建库中的单链环化,并生成DNA纳米球、再把DNA纳米球加载到流通池中。
接下来,会用cPAS--组合探针锚定合成测序技术。最后是一个基本的数据分析工作流程。
根据这些目标,今天的网络研讨会将分为四个部分。
从文库制备开始、生成DNB(DNA纳米球)、测序、和分析。
我们可以从第一部分“准备文库”开始。
我想你们大多数人已经对下一代测序或大规模并行测序的工作原理略有了解。
让我们以全基因组测序为例。它始于碎片化的DNA。DNA将经过末端修复,连上接头,再PCR。
但是,与其他平台相比,MGI库略有不同,因为在直接PCR之后,还有一个
附加步骤称为“环化”。
让我给解释一下。双链DNA通过加热变性成单链。如图,我们将蓝色区域设计为可以完全与夹板寡核苷酸配对的接头。因此,在添加夹板寡核苷酸后,该寡核苷酸可将单链DNA形式形成单链环状DNA。那是我们最后的文库。
因此请记住,我们的最终文库不是双链PCR产物。而是单链环状DNA文库。
如果我们试图了解库中单链环状的精细结构,我们会发现这里有一个绿色区域。那是我们感兴趣的片段(在圆环中的)插入位址。
这是原始部分,这是我们的条形码序列。而且我们设计的灰色区域可用于退火粘附测序引物和条形码(测序)引物。
因此,在成功构建单链库之后,我们应该开始下一部分--DNB生成。
有人会问我们DNB代表什么。DNB代表DNA纳米球。什么是DNA纳米球。我们为什么要使用DNA纳米球?
我们将看到单链环状DNA文库是我们的最终文库。您可以将其想象为单链环状DNA,就像这里的单根火柴一样。如果您要在黑暗的条件下划一根火柴,您会看到单根火柴发出的光太弱。对我们的相机系统而言很难检测到(这弱光)。所以因为信号不够强。我们使用DNA纳米球来代替单链环状文库。不再是一根火柴,而像森林里的篝火一样,可以散发出强烈的光芒。
因此,DNA纳米球的结构可以从单链文库生成。
也用于在测序过程中增强信号。
所以问题是我们如何产生DNA纳米球,使用它后是否有什么优势?答案是“是”。
为了产生DNA纳米球,我们使用了称为RCA--“滚环扩增”--的技术。
因此,在库构建部分中,我们设计了用于退火粘住RCA酶和RCA引物的区域,我们可以在其中添加RCA酶。使用深红色代表我们的RCA引物。加入RCA酶后,该酶将有催化沿着单链文库的DNA链延伸。绕一圈后,您会看到原来的一个单链环就变成了双链。
请注意,因为我希望您能清楚一点,所以我在此动画演示中没有画第二条链。它是从单链变成双链的。因为直到酶到达引物的起始区域,这个酶会显示出它的第二功能。生成的第二条链将被酶顶开,这第二条链会漂浮在溶液中。同时DNA链延伸将继续进行,而新链的延伸和之前的DNA链被顶开是同时发生的。
随着时间的流逝,溶液中将产生越来越多的DNA链。在转了300圈到500圈之后,我得到了所谓的DNA纳米球。
请注意,这不是一个真正的球。它实际上是单链长片段DNA。从它开头到结束看着象纳米级的毛线球。
为什么我们使用DNA纳米球滚环扩增代替常规的PCR作为信号增强方法?
因为他们有下述优势。
您在RCA反应中看到的新链的合成总是基于原始的模板,这意味着它是完全线性
的扩增,没有扩增偏差。而且也没有错误累积。并使用我们的MGI免PCR的文库制备试剂盒,再加上MGI测序平台。我们可以实现超过99%的SNP检测精度和灵敏度,以及超过99%的indel检测精度和灵敏度。
这是一个视频,展示滚环扩增的工作原理。
双链变性成单链,加入夹板寡核苷酸后,形成单链环,这单链环可用于RCA反应。在RCA过程中原始模板被放大300到500倍。产生我们叫“DNA纳米球”的东西。
所有这些过程都可以在一个试管中完成。不需要将外部仪器或其他东西,所有的反应都在一个试管中完成。
现在我们已经准备好测序要用的基本单位--DNA纳米球。我们必须将DNA纳米球加到流通池中。
这是一张图片,显示了FCL(大流通池)-适用于MGI-seq2000 RS测序仪
的大型流通池。如果我们看一下流通池的内部,这里有数十亿个小点。DNB将在那里生成簇。DNB会在流通池中分布开来
如果我开始加载DNA纳米球,我们将看到每个发光点就代表一个DNB。它们将根据设定好的阵列很好地分散开来。这会为您带来高成像效率和高密度DNB阵列。当然,它也产生了很高的测序精度。
就像我之前所说的,图中的小黑点被称为“斑点”。两个点之间的距离称为“间距”。一个斑点的中心到下一个斑点的中心的距离约为715纳米。一个斑点的直径约为220纳米。
然后该点已被胺化修饰带正电(可以与DNB吸附)。玻璃基板上其它的地方,都被用HDMS修饰过(译者注:六甲基二硅氮烷,Hexamethyldisilazane)。由于HDMS的化学功能,DNB无法与玻璃基上板除斑点外的地方吸附。
回来说DNB。使用调整后的RCA反应并控制了RCA反应的持续时间后,我们将DNB的尺寸控制在220纳米至240纳米之间。(DNB的直径)比我们的斑点(的直径)大一点。
因此我们可以手动地、或用仪器自动地,将DNB加载到流动池上。
DNB首先会因为重量而沉积下来。再会被吸引到斑点上,并会因为范德华力与斑点结合。再将特殊试剂泵入流动池,以去除过量的DNB(没有与斑点结合的DNB)。然后开始做一个叫做“蛋白质结合”的过程。这个过程在可以确保(结合在斑点上的)DNB不会轻易被冲走。
简单说,我们在DNB加载中使用了打结技术(把DNB牢固地结合到玻璃基板的
斑点位置上)。
首先,流动池的斑点位置是设计好的。我们控制750纳米的(斑点与斑点之间的)间距。一个斑点的直径和一个DNB的大小相配,通过化学修饰,让DNB固定在流通池的表面上。最终确保DNB可以平稳地装入流通池中。每个DNB都有自己的唯一的一个斑点。
这样我们已经准备好对DNB阵列进行测序。
有人会问我们,是否有任何特定的原因,让你用DNB阵列来测序?答案是“是”。
首先是'重复率'。有些人可能想知道什么是'重复率'。重复是指有几条序列,它们之间从第一个碱基到最后一个碱基的序列都相同。但是我们只需要一条序列。所以第二条(以及之后更多条)一样的序列就是所谓的“重复”序列。较高的重复率会导致测序通量被大量浪费。
有很多导致“重复”的原因,但主要原因之一是由于DNB之间的光学串扰。
因为我们使用模式阵列,所以DNB并非直接在流通池上生成,而是在流通池
以外部生成。同时所有NDB都根据阵列的排列进行分离。这样有助于消除重复率。在我们的MGI测序平台上,重复率可能会低至2%。
您可能知道在下一代测序中,总是在一次测序中同时测几个样本。直到一次测序完成,我们才能识别出来哪个序列自来哪个样品,这完全是根据“条形码”或者叫“索引”来进行分辨的。
“索引跳变”或者就象这个名称所表示的“索引错误分配”是很难(克服的),但是很容易出错,无法确定序列来自哪个原始样本。较多的索引跳变可能带来不太准确的数据。这个问题对于某些应用,例如基因表达,微寻觅,基因概况分析或其他应用非常重要。
因为在我们的平台上,因为我们使用了点阵经特定排布的流通池,用外部生成的
DNB,然后将DNB加载到流通池上。索引跳变的比率急剧下降,发生率为0.0001%。
这是来自我们发表论文的数据,这下面是参考文献。
让我们回到测序过程。
我们已经准备好对DNB阵列进行测序。我们必须将带有DNB的流通池放入机器中进行测序。在这一步中,我们使用一种称为cPAS的技术。cPAS代表“组合探针锚合成”,它是从Complete Genomics公司的cPAL技术改进而来的。
这意味着一个循环包含三个步骤:“结合,图像捕获和切割”。
因此在测序过程中,我们将酶和特殊的dNTP泵入其中。这些dNTP各有一个荧光基团,并在3'端各有一个阻断基团。这意味着只有一个dNTP可以锚定到我们的DNA纳米球上。通过激发荧光团,DNB发出相应(颜色)的光。光线将由我们的摄像头系统捕获,然后传输到电脑进行碱基判读。
经过前面两个步骤。泵入裂解试剂释放3'末端。并使dNTP为下一次结合做好准备。因此,这意味着一个循环只能检测到一个碱基。如果您做双端150碱基(PE150,pairedend 150 base pair sequencing)的测序,则循环将持续300次。
这视频是在显示DNA纳米球阵列。我们使用cPAS技术来检测ATCG。测序后,我们将获得Fastq数据。
有人可能对PE(双端)测序有疑问。
如我们所知,我们是使用DNA纳米球代替常规的PCR产品(来进行测序)。但是我们如何开始进行PE测序?
让我们一起来看看。
首先,您在这里看到一条灰色链,这是我们的模板,也就是DNA纳米球。在第一链的测序完成后,DNA纳米球的某些部分变成了双链。然后在读第二端的测序之前,我们开始做另一个反应,称为MDA多重置换扩增。接着,我们将继续添加dNTP,并继续扩展,长出一条长链。当(酶)到达到前一个拷贝的开头时,前一个拷贝上粘着的反向链将被(酶)顶开。那就是我们的MDA链。
之后,第2端(反向链)的测序引物将与反向链退火粘合。并做反向链的测序。这种PE测序方法(MDA扩增第二链的方法)的一个优点是,我们知道随着测序循环次数的增加,光的强度将逐渐变弱。
但是,通过MDA反应,可以产生更大量的反向链,这意味着反向链的数量
至少能等于正向链的数量(也就是反向链在测序时,光强度能达到足够强)。
PE测序的过程,我们可以弄清楚我们的测序策略如何。
如果是单端测序,也就是SE(single end)测序,我们将从读取第一链开始,
例如,SE50将是在第一链上读50个碱基。
然后我们将对条形码进行测序,条形码包含10个碱基对。
如果是双端测序,我们将从第一链开始读,例如PE100,就是从第一链上读
100个碱基,再从第二链(反向链)上读100个碱基。
然后再是对10个碱基对的条形码进行测序。
回来说我们的测序平台。MGI在全球共有3个测序平台。台式的测序仪:MGISEQ-200。中高通量的测序仪:MGISEQ-2000。还有就是生产级别的测序仪:MGISEQ-T7。
不同的测序平台使用不同的(测序荧光基团)配色方案。例如MGISEQ-2000和T7使用四种颜色的方案。这意味着ATCG四种碱基分别被不同颜色的荧光基团标记。每个循环后将保存四张图片,并用于确定四种不同的碱基。
MGISEQ-200则使用2种颜色的配色方案。举例来说,这意味着T碱基可以在被2号激光照射时发光。而1号激光可以让C碱基发光。而1号和2号激光器都能让A碱基发光。G碱基不发光(无论用1号或2号激光照射,都不发光)。
这就是我们的测序部分的内容。
下一部分是关于分析。
关于分析,我们可以将分析定义为三个步骤。
第一个是在测序过程中,我们的测序仪中的UI软件将保存原始图像以进一步分析
接下来是我们的主要分析。碱基判读软件也将在我们的测序仪中,把图像文件翻译成碱基ATCG。
我们将另外组织一个单独的网络研讨会,告诉您碱基判读的工作方式。
正反链配对的步骤可以在测序仪内完成。然后使用组合的生物信息学加速器MegaBOLT。
我们可以获得比对的信息,或SNP、或Indel的检测信息。
在基本分析中,通常要从原始图像中提取光的强度,然后找出光背后的碱基是
哪种碱基。因此基本分析包含以下步骤,例如原始图像、图像检测以及从图像中提取光强度。并进行信号归一化,然后给每个碱基打分。
二级分析包括条形码的拆分。当我们使用条形码进行多样本混合测序时。现在各样品(所产生的序列)将在二级分析中根据条形码序列进行分拆。
接下来是关于我们的Fastq文件的结构。
这里总共有四行。
第一行是标题,以@符号开头。
第二行是我们读取的序列,您在这里看到这序列从碱基T开始到碱基C结束。
第三行是一个“ +”号。
第四行是(碱基的)质量得分。
如果您更清楚地查看第一行,您会看到它以@符号开头,第二段以“ V”开头
表示流通池的ID。第三个“ L1”是通道号(Lane号)。“ C001”和“R001”是F.O.V.的行和列。“ 000000”表示序列的编号。而最后一个数字“ 2”表示此序列是来自正向第一链的测序结果、还是反向第二链的测序结果。
以上就是我现在想与您分享的内容。
快速小结一下。你收获的是关于DNBSEQ测序技术的信息。DNBSEQ测序技术包含三个主要部分。DNA纳米球,MGI单链循环状DNA文库,用RCA反应进行扩增。最后我们产生了DNA纳米球。
DNA纳米球将被放到到设定好阵列图案的流动池上,再通过打结技术(把DNA
纳米球绑定到玻璃基板的斑点上)。以得到可以进行测序的DNB阵列。
然后使用混合的DNB库,用阵列测序仪(来测序)。并通过使用cPAS组合程序进行测序。
所有这些技术合在一起为您带来了高精度的数据,从而减少了索引跳跃,
并减少了重复率。
好,这是关于今天的网络研讨会。
非常感谢您的关注,谢谢。
联系客服