1. illumina测序化学原理
2. HiSeq 测序仪工作原理
3. PacBio 单分子超长测序
4. Ion Torrent 测序
5. X10人全基因组测序
6. illumina 公司的Nano Well 测序技术
7.第一代DNA测序
1. illumina测序化学原理
今天的第一期节目,主要给大家介绍Illumina公司的技术。Illumina公司是当今最红火的二代测序公司。它的测序技术的最基本的原理,是基于可逆终止的、荧光标记dNTP来做“边合成、边测序”的工作
听起来有点拗口,接下来逐步为大家讲解。
Flowcell
第一个要给大家讲的,是它这个flowcell。Flowcell翻成中文,就叫“流动池”。
我们来看这个图片。图片当中,我们看到一个象载玻片大小的芯片。这个芯片里面,是做了8条通道。在这个通道的内表面,是做了专门的化学修饰。它的化学修饰,主要是用2种DNA 引物,把它(2种DNA引物)种在玻璃表面。
这两种(DNA引物的)序列是和接下来要测序的DNA文库的接头序列相互补的。而且这2种引物是通过共价键,连到Flowcell上去。之所以要用共价键连到Flowcell上去,是因为接下来有大量的液体要流过这个Flowcell,只有有共价键连接的这些DNA,才不会被冲掉。
这就是Flowcell。
文库制作
再接下来,讲一下文库、和文库的制作(过程)
所谓的DNA文库,实际上是许多个DNA片段,在两头接上了特定的DNA接头,型成的DNA混合物。
文库有2个特点,第1个特点,是当中这一段插入的DNA,它的序列是各种各样的。第2个特点,它的两头的接头序列,是已知的,而且是人工特地加上去的。
要做这个文库,首先是把基因组DNA,用超声波打断。然后打断之后,两头用酶把它补平,再用Klenow酶在3’端加上一个A碱基。然后,再用连接酶把这个接头给连上去。
连好了接头的DNA混合物,我们就称为一个“文库”。英文也称作“library”。
桥式PCR
做好了Library之后,就要做桥式PCR了。桥式PCR,实际上是把文库种到芯片上去,然后进行扩增,这样的一个过程。
这个过程,首先是把文库加入到芯片上,因为文库两头的DNA序列,和芯片上引物是互补的,所以,就会产生互补杂交。
杂交完了之后,我们在这里面加入dNP和聚合酶。聚合酶会从引物开始,延着模板合成出一条全新的DNA链来。
新的这条链,和原来的序列是完全互补的。
接下来,我们再加入NaOH碱溶液。DNA双链在NaOH碱溶液存在下,就解链了。而且被液流一冲,原来的那个(模板)链,也就是没有和芯片共价连接的链,就被冲走了。而和芯片共价连接的链,就被保留下来。
然后,我们再在液流池里加入中性液体,主要是为了中和这个碱液,在加入中和液之后,整个环境变成中性了。这时侯,DNA链上的另外一端,就会和玻璃板上的第二种引物,发生互补杂交。
接下来,我们加入酶和dNTP,聚合酶就延着第二个引物,合成出一条新链来;然后,我们再加碱,把2条链解链解开;然后,我们再加中和液,这时侯,DNA链会和新的引物杂交。再加酶,再加dNTP,又从新引物合成出新的链来。
连续重复这一过程,DNA链的数量,就会以指数方式增长。
制备单链
在桥式PCR完成之后,接下来要做的工作,就是要把合成的双链,变成可以测序的单链。
办法是通过一个化学反应,把其中一个引物上的一个特定的基团给切断掉。
然后,再用碱溶液来洗这个芯片。这时侯,碱让DNA的双链解链,那根被切断了根的DNA链就被水冲掉了。留下那根共价键连在(芯片)上面的链。
接下来,再加入中性溶液,然后在这个中性溶液里面加入测序引物。
正式测序
好,接下来正式的测序工作就开始了。
那么,在测序的时侯,加入进去的,最主要是2个东西:一个是带荧光标记的dNTP。而这个dNTP,它还有一个特点,它的3’末端是被一个叠氮基堵住的。
然后,再加一个聚合酶,聚合酶就会选择:哪一个dNTP是和原来位置上的那个碱基是互补的,根据互补性原理,把这个dNTP合成到新的这个DNA链上去。
因为这个dNTP的3’端是被一个叠氮基团堵住了,所以,它一个循环只能延长一个碱基。然后,它就停在那儿了。
合成完了之后,就用水把多余的dNTP和酶给冲掉。
冲掉之后,就放到显微镜下,去进行激光扫描。根据发出来的荧光来判断它是哪个碱基。
因为4种dNTP,它每一种dNTP上面标的荧光素都不一样,根据红、黄、蓝、绿,它出来的哪种颜色,那么,就可以倒过来推出来,这个新合成上去的碱基,是哪种碱基。
因为新合成的碱基,是和原来位置(的碱基)是互补的,所以,又推出模板上那个碱基是哪个。
这一个循环完成之后,就加入一些化学试剂,把叠氮基团和旁边标记的荧光基团切掉。切完了之后,3’端的羟基就暴露出来。
再接下来,加入新的dNTP和新的酶,然后,又延长一个碱基。新延长完一个碱基之后,把多余的酶和dNTP冲掉,再进行一轮显微的激光扫描,再读一下这个碱基是什么。
不断重复这个过程,可以重复上百次,到几百次,就可以把上百个碱基,甚至更多碱基的序列读出来。
读Index
那么,什么是Index哪?是因为Illumina的评委会个测序量很大,往往一个样本,用不了那么几亿条DNA。所以,科学家就想了一个办法。在文库的接头上做了一些标记,每一个样本,它有一个特定的接头,每个接头里面,它有一段特定的序列。
这段特定的序列,我们就称为Index。也有人把它叫做Barcode,反正,表达的是一个意思:这么一段特定的序列,标记了样本的来源。
那么,要读这个Index的序列,先用碱把上面这根测完“Read 1”的序列,把上面这根DNA链给解链掉。
解链掉之后,再加入中性液,然后,加入“Read 2”这个测序引物。Read 2测序引物结合的位点,正好,就在这个Index序列的旁边。
接下来,就进行第2轮测序,一般来说,是读6到8个碱基。把这6到8个碱基读下来,我们就可以知道,这某一个具体的一段DNA,它来自于原始的哪个样本。
双端测序
这是Illumina的最核心的另外一个技术,就是双端测序。
那么双端测序,就是说,一根DNA链,除了从正向读一遍,还可以从DNA的负向,再读一遍。
这一下子就把Illumina测序的有效长度加了一倍。这是非常有实际用途的。
那么这个倒链的过程,是这样,先让这个DNA先合成,合成出来这根互补链。
有了这个互补链之后,用一个化学试剂,在原来这根链的根上切一下。切一下,原来这根模板链就掉了,剩下那根互补链。
再接下来,就进行第2端的测序。第2端的测序原理,和第一端的测序原理是一样的。
加上了“Read 3”的这个引物,依次往下,一个一个碱基地往下读。
大规模平行测序
那么最重要的事情是什么呢?一个点,经过几百个循环,就读出了几百个碱基。但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就是“簇”。那么上亿个“cluster”,每个循环,它都可以读出地么多序列,这是Illumina测序非常强大的原因。因为是成千上万,准确说是上亿上链都在合成,这个就得到了很大的一个测序数据量。
2. HiSeq 测序仪工作原理
上期节目,给大家介绍了Illumina测序的化学原理。这期节目,主要给大家介绍一下,Illumina HiSeq测序仪的工作原理。
也就是芯片上发生了这么多变化,HiSeq是如何把这些信息给读出来,并且把扫描出来的荧光信号,又通过怎样一系列的加工,变成可以识别的“A、C、G、T”的碱基序列的。
HiSeq首先是一台高精度的显微光学扫描仪。然后再配上了一整套的液流系统,和计算机软硬件,再加温控系统,组成这样一台测序仪。
其中最核心,也是结构最复杂的,是它的光学系统。
前一期,我们讲了,Illumina测序仪主要是靠4种dNTP分别带有不同的荧光基团,在被激光照了之后,发出不同颜色的荧光。再通过对光的颜色的分辩,可以判断出到底是哪个碱基。
光路结构
我们先来说,它的光路结构。
这里,我们要说明一下:感光元件CCD,它本身是色盲。所以,它一定要配合滤光片,才能分辩出颜色来。
那我们先来看一下,HiSeq的光路图。
左边这两个元器件,就是激光器。一个发出红色激光,另一个发出绿色激光。
其中红色激光主要是激发A和C,这两种碱基上的荧光基团;而绿色激光主要是激发G和T,这两种碱基上的荧光基团。
红色和绿色这两束光,通过一面半透半反镜,组成一道激光。这道激光打在Flowcell上。
那么请注意,Flowcell就放在这个位置。
在Flowcell里面,结合在DNA上的那个荧光基团在激光的照射下,就发出荧光。
荧光通过3面半透半反镜,和1面全反镜,被分成4条光路,这4道光线,分别通过一道滤光片,这4张滤光片的滤过波长不一样。这样,这4 道光在经过了滤光片之后,就变成了4种颜色不同的光线。
然后,这4条颜色不同的光线,各自照在一面反射镜上,通过反射镜进入到CCD。这4个CCD就记录到不同颜色的光线。
TDI线扫描
HiSeq的光线扫描是“线扫描”,和传统的相机不一样,传统的相机是面扫描。
HiSeq采取了一种特定的叫“TDI”线扫描方式,TDI是Time delayintegration的缩写。
在HiSeq上之所以采取TDI扫描方式,因为它有非常明显的优点。
第一个优点,就是它的扫描速度非常快,在HiSeq 2500上,从Flowcell的一个Lane的一头扫到另外一头,也就是一个“Swath”的扫描时间,大概只有20秒种不到。
第二个好处,就是它的扫描精度非常高。在最新的HiSeq V4版试剂上,它的光点密度,大概可以达到每平方毫米90万个点,要扫描清楚这么高密度的光点,扫描仪的扫描精度是可想而知的。
TDI扫描的第三个好处,是这种方式,可以把Flowcell的上表面、和下表面都扫描到。
Flowcell(测序芯片)
接下来,我们再要详细介绍这张Flowcell。
那么,先来看一下,这张flowcell有点象一张载玻片,在这一张片子里面,我们可以看到,
它做了8条通道。
每条通道,我们称为一个Lane。这8个Lane之间,相互是隔绝的。
每个Lane的两端各有一个小孔。这两个小也孔,就是液流流进、流出的地方。
每个Lane的上表面和下表面,都分别以共价键的方式,种了2种DNA引物。这两种DNA引物,是与文库接头的两头序列相互补的。上一期(节目)我们已经说明了这一点。
一个Lane里面,分成2个面,上表面、和下表面。上表面和下表面,都种了DNA引物,也都是可以产生测序数据的。
在每一条Lane的每一个面,又被分成了3个扫描通道,每个道被称为一个“swath”。
每条Swath是从头到底被连续扫描的。但是它的数据,在进行数据分析的时侯,是被分割成16个小方块。这每一个小方块,被称为一个“tile”。
这样一张Flowcell,总共就是768个Tile。
每个Tile在扫描的时侯,会根据4种颜色,产生4张照片。
图像处理
扫描完了之后,就要进行图像处理。
扫描出来的最原始的文件,它的格式是“.tiff”文件。
Tiff文件记录了每个像素点上采集到的光强度。Tiff文件的优点是它是完全无损,保留了所有的原始信息。
但它也有它的不足之处。它的不足之处就是它的这个文件太大了。它的数据量很大,既不便于数据的传输,也不便于数据的存储。
接下来,计算机软件就把图像文件转化成光点文件。光点文件叫“.BCL”文件。也就是“Base calling”的英文缩写。
要把图像文件,转化成BCL文件,就是把4种颜色的4张照片,组合在一起,变成一张有4种颜色的彩色照片。
这其中首先要解决的,是4张照片在空间位置上的匹配问题,因为4张照片是通过4个CCD分别拍下来的,所以,会有一定的空间上的偏差。
软件要通过对4张照片上,亮点相互比对,找到最合适的、匹配的位置。
这里,我们要说明一下,如果被测的文库是碱基不平衡的文库,在这个空间匹配上就会遇到问题。
什么叫碱基平衡呢?也就是说,在测序过程当中,每个循环,A、C、G、T四种碱基,都是比较均匀在存在的。
最典型是人全基因组文库,这是一个典型的碱基平衡文库。
那什么是碱基不平衡文库呢?最典型的,就是PCR扩增子产生的文库。PCR扩增子的特点:PCR是有特定的起始位点的,一个特定的测序循环中,几乎所有的片段都是同一种碱基,而剩下的3种碱基,就特别少。
这在反映到照片上去的时侯,就变成:一张照片特别亮,光点很多。而其它的三张照片就特别暗,上面的光点就很少。
这时侯,要软件做空间上的比对,软件就会觉得困难,因为对于那几张暗的照片,软件很难判断上面的光点,是否与那张亮的照片上的光点真正对得上。结果,就是判断出来的可靠性变差。最后,就是测序的数据质量变差,有效数据量也会变少。
要解决这个问题,办法是在测序过程中掺入一些碱基平衡的文库。例如掺人全基因组文库。或者也可以掺Illumina提供的标准的PhiX文库,这些都是碱基平衡文库。
它的作用,是在每个循环当中,为每一种颜色的照片,都提供足够多的亮点。这样,它可以弥补那些不平衡的文库当中缺亮点的问题。
BCL文件
当把4种颜色的光点组成一个文件之后,软件就会生成一个“.BCL”文件。
“.BCL”文件就是光点文件,它对每个光点,记录了以下的内容。
首先一个光点处在哪个Lane里面。其次,这个光点在这个Lane的哪个Tile里面。第3,就是这个亮点在这个Tile的X轴和Y轴的座标位置。第4,是记录了这个光点当中“红、黄、蓝、绿”四种光的对应的光强。
这个图是BCL文件的一个示意图。
实际上,BCL文件是二进制文件,无法拿来直接阅读。也正是因为BCL文件难于阅读,并且很难改动,所以,BCL文件几乎不存在做假的可能。
在测序过程当中,有许多客户会要求测序公司提供原始的测序数据,如果客户是包Lane、或者包Flowcell的,一般测序公司是可以提供BCL文件的。
客户在拿到BCL文件之后,可以用“BCL2FASTQ”这个软件,把BCL文件转化成FASTQ序列语文件。
以此,客户可以来验证,测序公司提供的数据是否是原始的,是否是真实的。
再说一下最初生成的那个tiff文件。tiff文件实在太大了,所以,测序仪在测序过程中,只把tiff文件作为中间文件。最后是把这个tiff文件删掉的。
如果客户想要原始的图像文件,在HiSeq V4之前,可以让测序公司保留“.CIF”文件。CIF文件是一种彩色图案的向量文件,它的优点是比tiff文件的数据量小很多。
测序公司把CIF文件给客户之后,客户就可以看到原始的图像文件了。
但是,请注意:在HiSeq升级到V4之后,保留CIF文件的这个选项是被取消掉了。所以,对于要测V4 Lane的客户来说,是拿不到CIF文件了。
碱基识别
接下来,我们讲一下碱基识别。
我们之前讲:4种dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。这个实际上是一种简化了的说法。实际情况,要比这个复杂得多。
来看这个图,这是2种荧素的荧光的波长图。
我们会发觉,这两种荧光色,它发出来的发射光,它在波长上是有交叠的。在X的这个位置,主要是绿色荧光素的贡献,但是蓝色荧光素,也有少许贡献。
而在Y这个波长位置,蓝色荧光素是做了主要贡献,但是绿色荧光素,也有少量供献。
在实际测序过程中,是4种荧光素发出的亮,相互有交叠,相互之间的交系,变得更加复杂。
那么,现在我们要做的事情,是把A、C、G、T,4种荧光素的贡献给拆开。
首先,我们就要确定4种荧光素在4个被测波长处的贡献率。
我们可以看一下,这个表,就是4种荧光素,在4个波长分别有不同的贡献率。这样就组成一个4X4的贡献率表格。
我们在实际的分析当中,等于解一个4元1次、4联方程。因为是4个未知数,又是4个方程,所以肯定是可以解出来的。
说解方程,有点复杂。那么我们来打一个比方。让大家来理解这个事情。
假设有一家饭店,它有4个熟客:甲、乙、丙、丁。它日常又提供4道菜:猪肉、白菜、黄瓜、花生。大厨知道:甲最爱吃猪肉、乙最爱吃白菜、丙最爱吃黄瓜、丁最爱吃花生,每个人来了饭店之后,主要吃自己最爱吃的,也会吃些别的菜,但别的菜都吃得不是太多。
那么这个大厨不到前台,看不到今天来的客人。如果,这个大厨想要知道今天来的客人是谁,他有什么办法呢?看今天哪个菜被吃掉得最多。如果今天的菜被吃掉的最多的是猪肉,那他可以大致地判断,今天是甲来过了;如果他看到今天被吃掉的菜,最多的是白菜,很可能是乙来过了;那么其它的,道理也是一样的。希望这个例子可以帮大家来理解一下,这4个荧光和4种碱基的判读的关系。
Phasing 和 Prephasing
接下来,我们再讲一下,Phasing和Prephasing。
在Illumina的测序过程当中,一个簇,大概有5千个到1万个分子。但是在边合成、边测序的过程当中,每一步酶反应,理想情况下,应该这5千个分子都延长1个碱基。
但实际情况,总有少量分子没有完成延长反应。也就是说,总有少量的分子会掉队,我们称这种掉队的现象叫“phasing”。Phasing主要是由于酶活性不足,所引起的。
如图所示,掉队的这个分子,它所发出的荧光信号,和大部队所发出的荧光信号是不一样的。这个循环的次数越多,掉队的分子就越多。所以,测序越到后面,它Phasing的分子数就越多。最后,信号的可靠性就越差。
除了掉队的分子,还会有一部分分子,会跑得超前,也就是在一个循环中,它延长了2个碱基。在一个循环中延长了2个碱基的最主要的原因,是dNTP上标记的那个叠氮基团(N3)掉了。
我们知道,叠氮基团是非常容易从有机化合物上掉落的。当叠氮基团掉落之后,dNTP的3’端的羟基就暴露出来了。当丢失了叠氮基团的dNTP加到(合成链的)3’端之后,它的聚合反应不会终止,而是会继续往前走。当再加上了一个带叠氮基团的dNTP之后,这个聚合反应才停下来。
这样的后果,就是一个循环,某些分子,会合成了2个碱基。也就是说比大部队多走了一步。那么这个多走了一步的碱基,它所发出来的荧光颜色,也是和大部队不一样的。
在Illumina测序过程当中,Phasing和Prephasing是限制测长的最主要原因。也就是说,随着循环不断进行,越来越多的分子掉队,还有越来越多的分子超前。然后,它们所产生的噪音,掩盖了大部队的信号的时侯,也就是测序开始测不准的时侯。
在HiSeq测序当中,从第12个循环开始,在计算某个光点是哪种碱基的时侯,就要把Phasing和Prephasing的影响,纳入考虑。
Chastity 和 Pass filter
为了对光点当中荧光素的纯粹程度进行描述,Illumina公司定义了个标准,叫“chastity”,Chastity的定义,就是浓度最高的那个荧光素的量,去除以“它自己 + 排名第二的荧光素的量的和”。大于0.6是一个好碱基。
用更加通俗的话来说,也就是“老大”比“老二”,如果大于、等于“1.5倍”,这就是个“好”碱基。如果“老大”比“老二”不足“1.5倍”,这就是个“坏碱基”。
Illumina对每个read的质量都要做一个检验,这个检验就叫“pass filter”检验。检验的标准,是看前25个碱基当中,有几个是“坏碱基”。如果只有一个、或者没有坏碱基,则Pass filter就通过;如果有超过一个以上的坏碱基,Pass filter就不能通过。
那我们平时说,测序服务保证多少“PF data”,指的就是Pass Filter(PF)的数据。
Pass Filter最主要的作用,就是把那些一个光点当中,含了几个cluster的那些点,给去掉。只剩下那些纯粹的单克隆的read,作为合格的数据,提交给客户。
我们平时说“PF率”,指的就是Pass Filter的Reads数,占总的、测到的Reads数的比例。
PF率可以从一个侧面反映测序的质量。一般来说,如果上样密度过高,PF率就可能会下降。
Quality Score,Q 值
一个碱基的Quality Score,也就是这个碱基的质量分数(Q值)。这个是通过这个碱基被误判的可能性,换算出以10为底的对数,再乘以“-10”得到的这样一个数字。
这个Q值,有点象我们说黄金的纯度,我们说“三九金”,或者说“四九金”,就是指99.9%的纯度的金子,或者是99.99%的纯度的金子。
我们平时说Q30,就是指一个碱基的可靠性达到99.9%。或者说,它的出错的可能性小于千分之一。
同样道理,我们说Q40,就是指一个碱基的可靠性是99.99%。或者说,它的出错的可能性是万分之一。
那么,我们经常说Q30比例,所谓的“Q30比例”,就是在全部PF数据当中,达到、或者超过Q30质量标准以上的数据,占所有PF数据的比例,叫Q30比例。
Q30比例,可以表征一个测序过程的质量的好坏。一个碱基的质量分数,不是以数字方式,直接记录到最后的Fastq文件的。而是把它的Q值,加上33,再用ASCII码表转换成一个字母,把这个字母录入Fastq文件。
这样做,有2个好处。如果我记2位数字,那么就占2个字节,现在用一个字母来记录,只占一个字节。那(数据存储)空间就节省了很多。
第二个好处,用ASCII码字母表,一个碱基,只对应一个字母;如果是用2位数字来记录,就有可能发生移码错误。而用ASCII码,一个字母来记录,就不太容易发生移码错误。
Fastq 文件
在软件做完上述所有的数据处理之后,就会生成一个Fastq文件。
Fastq文件里,主要包含了3部分内容。
第一个部分,是每个Read的目录信息。也就是这个Read来自于哪台HiSeq、第几个run、第几个Lane、和第几个Tile,以及在这个Tile的X、Y的什么位置。
接下来,就是所测到的碱基的序列。
最后,是这些碱基序列对应的质量分数信息。
这个,就是Fastq文件。
到Fastq文件之后,测序仪所要完成的工作,就完全完成了。
以上,就是HiSeq测序仪的基本工作原理。
3. PacBio 单分子超长测序
本期节目,给大家介绍一下Pacific Biosciences公司的技术。Pacific Biosciences公司的简称叫PacBio。Pacbio是目前读长最长的测序技术公司。
它的读长,最长可以达到2万到3万个碱基,平均可以达到8千多个碱基。相比于llumina 和Ion Torrent的几百个碱基的读长来说,有着明显的优势。
今天,我们就给大家介绍一下这个技术。
PacBio 测序过程
PacBio的测序原理,和别的高通量测序的原理,基本上也是一样的。也是边合成,边测序。
首先,这个聚合酶是固定在测序小孔的玻璃底板上。这个聚合酶又和DNA模板、测序引物是结合在一起的。
然后加入带4色荧光的dNTP底物,这些dNTP都在其磷酸基团上被标上了荧光基团,四种碱基、各标一种颜色。
当一种与聚合酶正要合成的碱基一致的dNTP被酶抓住的时候,酶就会长时间地抓住这个dNTP,不让这个dNTP漂走。
这时侯,激发光从小孔的底部照进来,打在这个被抓住的dNTP上,就会在较长时间内发出荧光。
仪器根据所拍到的荧光的颜色,就可以来判断,这个碱基是哪种碱基。
一个循环的聚合反应发生完毕之后,焦磷酸基团就从原来的dNTP上掉下来,因为荧光基团是连到这个焦磷酸上的,所以这个荧光基团也就一起掉下来了,在溶液中就会漂走。
接下来,进行第二、第三个循环……,一直进行下去。
一张芯片上有几万个孔,同时进行测序,这样一次就可以得到几亿个碱基的序列。
接下来,分几个要点,来说明这个测序的过程。
化学方法
和Illumina一样,PacBio也采用了4色荧光基团来标记dNTP,但是PacBio的标记和Illumina的标记有所不同,PacBio的荧光基团直接是标在dNTP的3'端的磷酸基团的末端的。
这样标记的好处是:当一个聚合反应的循环完成的时侯,dNTP上的那两个磷酸基团就掉下,连在这个磷酸基团上的荧光基团也随一块儿掉下来。它掉下来之后,就在溶液中漂走,不会影响接下来的测序过程了。
测序微孔
然后,我们说一下这个测序小孔的设计。
这个测序小孔叫Zero Model Waveguide,简称ZMW。
小孔的直径很小,光只能在小孔中传输很短的距离。这个特点对PacBio的测序很重要。因为酶是被固定在玻璃底板上的,所以,只有互补的dNTP被酶抓到的时侯,这个dNTP才会较长时间地停留在离玻璃底板很近的位置。
也只有这样,才会被激发光照到,并且发出它的荧光。
PacBio的光学设计中,入射光是几百纳米波长的可见光,光从小孔的底部的玻璃处照到小孔中来。这个,只有70纳米。
其它游离的dNTP,只会非常短暂地进入小孔,又很快漂走。所以,这些游离dNTP带来的的噪音(信号),就被抑制在很低的水平。
哑铃状的文库
接下来,我们说一下PacBio的建库。
PacBio的建库是比较特别的。它的库是在DNA片段的两段各接一下发夹型的接头。接好了发夹形的接头之后,形成的文库是一个哑铃形的文库。
这种哑铃形状的文库有个好处,那它整个分子实际上是一个圆环。在测序的过程中它可以周而复始地进行测序,这对于发挥PacBio的长读长的优势是很有益处的。
超长读长的根本原因 -- 单分子测序
接下来,我们说一下PacBio它测序长度优势的来源。这个来源,是因为它测的是个单个分子。
相比之下,Illumina或者Ion Torrent测的都是一簇分子。或者说它们测的都是一大堆分子。当它测一大堆分子的时侯,每个循环,多多少少,总有一些分子落后;也多多少少,有些分子超前。
这些落后、或者超前的分子,在每个循环里面就会给出噪音。而且,随着循环次数越来越多,落后、和超前的分子也会越来越多,达到一定程度的时侯,噪音就会很大,大到会掩盖掉信号。
当噪音大到掩盖掉信号的时侯,实际上测序就测不准了。
相比之下,PacBio它只有一个分子,所以,它不存在同步问题。
这就让它可以测到几千、基至上万个BP都可以达成。
碱基判读准确率:87.5%
接下来,我们要说一下PacBio测序的缺点。
最大的缺点是对碱基的判读不准。它的错误率是12.5%。也就是说,它每读8个碱基,就有一个是读错的。
那么它主要的错误类型是'插入'。也就是说,它会多读一个碱基。
好在,它的这种错误是随机的。也就是说,你在这个地方再读一遍,它不一定会发生同样的错误。那么,对于同一个序列,多测几遍之后,这些偶然误差,可以被校正过来。
读长限制因素
接下来,我们说一下限制PacBio读长的因素。
第一个因素,就是DNA链上出现了缺口。测序过程中是用激光照射来发出荧光的,所以当强光长时间照射DNA链的时侯,DNA链就有可能被照断掉,出现缺口。
当酶读到这个缺口的时侯,酶就从模板链上掉下来。这时侯,测序就终止了。这是第一种可能。
第二种可能,是光线照射情况下,酶有可能会变性,当酶发生了变性之后,失去了聚合酶的功能,这时侯,测序也会终止。
第三个限制因素,是文库本身的长度。因为要做片段长度大于20~30K的文库,是有相当大的困难的,所以,文库本身的质量,在一定程度上,也限制了PacBio的读长。
数据通量
在高通量测序当中,测序的通量,是一个很重要的技术指标。
那PacBio大根一张芯片一次可以测到0.3~0.4G的数据。
在PacBio测序中,芯片上的小孔数是第一个绝对的、限制性的因素。
目前的芯片,是有15万个小孔。
但这15万个小孔中,并不是每一个都能产生有效数据的。
这里,我们要说一下,测序复合物和玻璃底板结合的方式。
所谓的测序复合物,就是'聚合酶、测序模板、测序引物'这三者组成的复合物。
这个复合物是通过聚合酶连接到玻璃底板上的。
这个连接方式,首先在聚合酶上标上生物素。然后,在小孔的玻璃底板上标上链霉亲合素。
实验过程当中,利用生物素和链霉亲合素的亲合力,把两者(聚合酶、和玻璃底板)结合到一块儿。
在实验过程当中,这个测序复合物是被随机地铺撒到这15万个小孔中的。因为是随机地铺撒进去的,所以,有多少个小孔里面正好有一个测序复合物,是符合泊松分布的。
最理想的情况下,是有1/3的小孔是正好有一个测序复合物。这时侯,还有约1/3的小孔是空的,还剩下约1/3的小孔是有2个或者3个以上的测序复合物被种进去。
空的这些小孔,因为接下来它没有聚合反应发生,也没有信号,那当然是废掉了。
那么有2个复合物种进去、或者有更多复合物种进去的这些小孔,因为它产生的信号会非常的杂乱,所以,这些孔实际上也是没用的。它产生的数据,在接下来的数据分析当中,是会被去掉的。
一张芯片有15万个孔,其中1/3有效,也就是说,有效的孔数是5万个。然后乘以它目前的平均测长,大概8千多个碱基,所以,一张芯片,比较理想的情况下,大概有0.4G的数据量的产出。
直接测DNA修饰
PacBio在测序当中,可以直接测到碱基的被修饰状态。因为当聚合物,遇到模板上有甲基化的A、C等碱基,它测序的速度就明显地放慢。而且它的光谱特征会发生改变。这样,就可以判断,这个位置上的DNA被甲基化了。
GC Bias 很小
PacBio测序还有另外一个好处,就是它GC Bias很小。
什么叫GC Bias呢?就是我们知道,所有的PCR的过程,如果模板里面G、C(碱基)的含量比较高,PCR的效率就比较低。反之,A、T(碱基)的比例比较高,则它PCR的效率比较高。
传统的建库当中,一般都有大量的PCR的过程。它导致的一个结果,就是G、C含量高的那些片段,它读到的Reads数,就会比较少。
PacBio它的好处,就是它的建库过程中没有PCR过程,所以,它带来一个直接的好处:就是它测序过程当中,GC Bias很少。也就是说,那些高GC的片段,有和低GC的片段差不多的概率被读到。
测序速度极快
高通量测序的另外一个指标,就是测序的速度。PacBio的测序速度取决于酶反应的速度。
目前PacBio用的这个酶,大概1秒钟是合成3个碱基,1个小时大概就可以合成1万多个碱基,3个小时可以合成3万多个碱基。到3万多个碱基之后,基本上继续在读的Reads,已经几乎没有了,所以,3个小时之后,测序基本就完成了。
1个Run读三个小时,相对于Illumina的测序速度来说,是非常快的;相对于Ion Torrent的测序速度来说,也相对要快一点点。
所以,PacBio是一种非常快的测序方式。
国内现有PacBio测序仪的单位
最后,把国内已经采购了PacBio测序仪的单位,列个清单,以方便大家相互合作。
天津市湖滨盘古基因科学发展有限公司,4台PacBio. http://www.pangugene.com/
北京遗传所,1台PacBio
北京药植所,1台PacBio
上海南方基因中心,1台PacBio
云南动物所,1台PacBio
武汉邓子新教授实验室,1台PacBio
天津生物芯片中心,1台PacBio
海克维尔基因(北京)研究院,1台PacBio
北京华牛世纪生物技术研究院,1台PacBio
上海交通大学 分析测试中心,1台PacBio
内蒙古农业大学,1台PacBio
华大基因,1台PacBio
4. Ion Torrent 测序
今天,要给大家介绍的是Thermo Life公司的Ion Torrent测序平台的测序原理。
我们分成以下4个部分来介绍Ion Torrent的测序原理。
建库过程
文库通过油包水PCR过程,变成可以上机的珠子的过程
上机测序过程
Ion Torrent测序平台的优缺点
1、建库过程
那么,我们先来介绍一下建库过程。
建库是在样本DNA片段的两侧加上标准的接头的这样一个过程。
Ion Torrent的建库中,接头是平头的,这点是与Illumina文库的接头是3’端有带突出的T碱基粘性末端的是不同的。
在加接头的过程当中,是加入P1接头,并同时加入X接头或者A接头。
其中,X或A接头是未来的测序起始端。而P1接头是是连到测序珠子的这一端。
X接头和A接头的差别是:X接头是带Barcode序列的,而A接头是不带Barcode序列的。用X接头的好处是可以把一个芯片的测序通量分配个几个文库,测完序之后用Barcode把不同的文库的序列给分开。A接头的好处是直接测到样本序列,这样对于充分利用测序的读长是更好的.但是它的缺点是没有Barcode,所以一张芯片只能放一个样本。
在Ion Torrent测序当中,AmpliSeq文库是很一种非常常见的文库。AmpliSeq文库是通过多重PCR扩增出来的DNA,再加上接头,做的文库。
如果把整个的PCR扩增产物都拿来测序,那么测到的两头20~30个碱基,都会是PCR引物的序列。而PCR引物是人工设计的,它的序列是已知的。如果把这些PCR引物都进行测序,那就会浪费相当大的一个测序读长和测序数据量。那为了解决这个问题,Thermo Life公司在设计Ampliseq的PCR引物的时侯,在这个引物上特别设计了一种化学修饰,这种化学修饰可以被Fupa(视频中写作Pufa,正确的该是Fupa)试剂所切断。这样,利用Fupa试剂把PCR扩增产物上大部分的引物序列都给切掉。在测序的时侯,就可以尽可能多地测到样本序列。
这是一个非常巧妙的设计。
2、油包水PCR
在做好文库之后,接着就要做第二步:就是把文库种到测序珠子上去,并且进行扩增。
Ion Torrent把文库种到测序珠子的方法,是做油包水PCR。也叫EmulsionPCR(乳浊液PCR)。油包水PCR包括两个相:油相和水相。其中水相是核心,油相起到分隔作用。水相中包括文库、引物、酶、Master Mix、测序珠子,这5种PCR反应的主要成份。
其中这个测序珠子,它是接下来测序的核心载体。这个测序珠子是非常小的,PGM测序仪上用的珠子,它的直径大概平均是2.4微米;Proton PI测序芯片上用的珠子,它的直径,大约只有一个微米。这些测序珠子的表面,共价连接了许多PCR引物,这个引物的序列正好是和前面文库的P1接头是互补的。
每一个油包水PCR都会包含许许多多个这样的、小的测序微珠。
水相中的另外一个成份是那个游离的PCR引物。这个游离的PCR引物,它的5’端标记了生物素。这个标记的生物素的作用,我们后面还要讲到。
这个引物的序列,是和前面的A接头、或者X接头相一致的。
准备水相,就是把文库、引物、酶、Master Mix、测序珠子先在水相中混合好。
混合好之后,加入油。把油和水进行混合,形成乳浊液。在这个乳浊液当中,大部分是油。油把水相分隔成一个一个的小水滴。
每个小水滴当中都可能含有0个到若干个文库分子,还会包含0个到若干个的小的测序微珠。与此同时,引物、酶、和dNTP是过量的,所以几乎每个小水滴中都会有足够量的引物、酶、和dNTP。在整个油包水PCR反应当中,文库分子和测序微珠是限量因素。
接着,把混合好的乳浊液,进行PCR反应。
PCR反应的结果是,在一个小水滴当中,如果它同时有文库分子、和测序微珠,它就会发生PCR反应。如果缺少了文库分子、或者测序微珠,它就不会发生PCR反应。
PCR反应之后,珠子的表面,就会长出以同一个液滴当中,所含的DNA(文库)分子的扩增拷贝来。这些扩增出来的DNA链,是通过共价键连到珠子上的,这个共价连接,可以保证在接下来的测序过程当中,这些连到珠子上的DNA链,不会被(液流)冲走,那么这些DNA链就可以作为稳定的测序模板。
油包水PCR完成之后,要把所有珠子当中,那发生了PCR的珠子给纯化出来。
纯化的手段,是通过用标记了链霉亲合素的磁珠,和刚才经过PCR扩增反应的珠子进行混合。那些发生了PCR反应的珠子,它上面的DNA链,是连了一个从PCR扩增引物中带的生物素的,生物素会和链霉亲合素很牢固地结合。这样磁珠就会和发生了PCR反应的测序珠子结合在一块儿;而那些没有发生PCR反应的珠子,它上面没有连着生物素,所以,它不会和磁珠结合。
接下来,我们用磁铁来进行吸附,磁铁会吸附磁珠,磁珠会把带了生物素、同时带了扩增了的DNA链的那些测序珠子给富集起来,而那些没有和磁珠结合的那些微珠,是留在上清液当中的,通过清洗,就被洗掉了。
然后,通过专门的洗脱液,把磁珠所富集起来的测序珠子给洗脱下来。
3、上机测序
这些洗脱下来的珠子,就可以上机测序了。
第3部分,我们来介绍Ion Torrent的上机测序。
Ion Torrent测序芯片,是一人半导体芯片,上面做了数以百万、千万计的小孔。它每个小孔的既是测序微珠的容器,又同时是一个微型的PH计。每个小孔正好可以容纳一个测序微珠。在测序过程中就是通过测量、并记录每个小孔中,所发生的PH值的变化,来测出DNA的序列的。
每个芯片,都会有一个进口,还会有一个出口,是走液流用的。把测序珠子上机的时侯,就从进口把珠子的混悬液注入到芯片上。然后再把这个芯片离心一下,离心的作用,是更好地把珠子卡到小孔中去。
Ion Torrent的测序原理是:每个dNTP分子都有3个磷酸基团,当dNTP被聚合酶结合到DNA链上时,会掉下来的一分子的焦磷酸,1个焦磷酸分子会被酶再进一步分解成2个磷酸分子,这样,在测序的微环境中,就会多出两个酸性分子,一个珠子上有几千、几百条DNA链,每次发生聚合反应,就会多出几千、几百个酸分子。这样,这个微环境的PH值就会短暂地下降。
这时,Ion Torrent芯片中,每一个小孔中的PH电极,就测量这个小孔中的PH值变化,并且把测量得到的值传给计算机。
分别含A、C、G、T四种dNTP的溶液,分别地、依次地流过芯片的表面。
举例来说,流入的是dCTP溶液,而模板上正好有一个G碱基,就发生聚合反应,并产生电压变化,而且会被记录下来。如果流入的溶液与模板上的碱基不匹配,就不会发生聚合反应,也就没有电压变化,也就不会有碱基被记录下来。
如果正好有2个一样的碱基相邻,一次就会有2个碱基被聚合到DNA链上,电压变化值就会加倍,序列中2个新的碱基被记录下来。
在测序的序列安排上,最前面的4个碱基叫Key sequence,分别是A、C、G、T。因为每个珠子上长多少个DNA链,它的变化范围是很大的,所以用Key Sequence的A/C/G/T四个碱基所测到的PH值变化的强度,来确定这个珠子的正常的信号强度。有了标准的信号强度之后。后面测到的信号,都和这四个碱基的信号强度进行对比,如果是一倍强度,我们就知道有一个碱基,如果有2倍的强度,就知道串联了2个相同的碱基,依此类推。
在整个的测序过程中,影响有效数据量的因素有以下这些:
第一, 一张芯片上,在所有的预制孔中,有多少孔是有珠子进入的。ISP density,也就是Ion Sphere™ Particles (ISPs)。比较理想的情况下,ISP density可以达到60~80%之间。这个值一般是由把珠子加到芯片上去的这个过程所决定的,加载得越好,则有珠子的孔数越多,没珠子的孔越少
第二, 是珠子上是否长了文库DNA链。这个指标,是由磁珠纯化的过程来决定的。纯化得越好,则有文库DNA的珠子越多,没文库DNA的珠子越少
第三, 是单克隆的珠子、和多克隆的珠子的比例。所谓单克隆的珠子,就是在一个珠子上只长了一种DNA分子。而多克隆的珠子,是指一个珠子上长了2种或者2种以上的DNA分子。
在Ion Torrent测序过程当中,只有单克隆的珠子才可能产生有用的数据。而多克隆的珠子所产生的数据是乱的,是没有用的。
产生单克隆的珠子,还是多克隆珠子,是在油包水PCR过程当中,一个水滴当中包含了几个DNA文库分子来决定的。如果一液滴中,一开始只包含了一个文库分子,做出来就是单克隆的珠子。如果一个液滴当中包括了2个、或者2个以上的文库分子,做出来,就会是多克隆的珠子。
那么产生多少个多克隆的珠子,又产生多少个单克隆的珠子,它是一个统计的过程。是符合泊松分布的。
目前,理想情况下,大概可以达到70~80%左右的珠子是单克隆的珠子。
第四, 是珠子上长的是否是有用的样本序列
所建文库当中多多少少会含有一部分的引物二聚体。引物二聚体的序列,是无用的序列
测到的序列当中,有一部分的序列质量低于可接受的水平,这是会被去掉的
还有,在测序过程当中,一般会加1%的阳性对照珠子,这些对照珠子是进行质量控制的,但是这些阳性对照珠子上所测到的序列,也是无用的序列。
第五, 剩下,是有用的样本序列。
Ion Torrent 测序平台的特点
到目前为止,Thermo Lif公司在Ion Torrent平台上,推出了两款测序仪,小的叫PGM测序仪(Personal Genome Machine的意思),大的叫Proton测序仪。
Ion Torrent平台的主要测序优势,是可以从很少量的起始DNA来进行测序。一般情况下,5~10个ng的DNA就足够进行一次质量良好的测序了。
这个优势,是基于Thermo Life公司推出了一系列基于多重PCR的建库方案。
AmpliSeq是Ion Torrent平台上很好用的一个建库方案。它的核心,就是通过多重PCR的方法,一次从样本中把要测序的多个DNA片段给扩增出来,然后转化成文库进行测序。
ThermoLife公司基于其多年做PCR的经验,推出了这个AmpliSeq平台。在AmpliSeq平台上,一方面推出了许多成熟的测序Panel(,另外客户可以在AmpliSeq平台上,自行订制适合自己的AmpliSeq Panel。
所谓Panel就是一系列针客户感兴趣的基因片段,所做的扩增引物、或者杂交探针的组合。
有兴趣的同学,可以登录“www.ampliseq.com”这个网站,来寻求适合自己的测序服务。
Ion Torrent测序平台,一直有一个Homopolymer的问题。所谓Homopolymer问题,就是测序仪在测到一连串相同的碱基时,就读不准到底有几个碱基。比如说,有一串5个A,测序仪在读到这里的时侯,读到一个强的A信号,但是仪器在判断,这个信号到底是5个A,还是4个A、或者是6个A的时侯,有可能会判断错误。这就是我们所说的Homopolymer错误。
Thermo Life公司最近推出的了Hi-Q酶,这个Hi-Q酶的特点就是聚合反应非常快,也就是它所产生的PH值的变化的峰,更高、更尖、更利于判读。这在相当大程度上提高了Ion Torrent测序仪读Homopolymer区段时的准确性。
油包水PCR反应是一个对操作很敏感的实验步骤。为了提高实验结果的一致性,也为了减少人工消耗,Thermo Life公司还在Ion Torrent平台上推出半自动的油包水PCR反应仪:“One Touch”,和全自动的油包水PCR反应仪:“Ion Chef”
Ion Torrent平台的测序仪,还有一个优点,就是它的测序速度比较快。一般上机测序时间,在3~5个小时左右。
以上是本期视频的全部内容。
5. X10人全基因组测序
本期节目,我们主要给大家介绍:人全基因组测序。前半部分,我们会介绍一下Illumina 公司最新的HiSeq X10,这个专门用于人全基因组测的测序仪。那么后半部分呐,我们会给大家介绍一下人全基因组测序,将给出哪些有用的生物信息。
Illumina HiSeq X Ten
那么我们先来说一说,Illumina的HiSeq X10这个机器。这台仪器是Illuminad 2014年年头上,Illumina公司推出的一个重磅机器。它最吸引人们关注的特点,是它把测一个人全基因组90G数据量的成本,一下子降到了一千美元以下。
这台机器有以下的特点:
1、 首先,它测序的速度非常快,上它现在跑一圈、2张芯片,3天就跑完了。比之前的HiSeq 2000跑机器的时间—11,整整快出了2倍以上;
2、 第2点,就是它每张芯片的数据产量非常大,它的每张芯片的数据产量,可以达到0.9~1个T(10的12次方),甚至更多一些的数据产量。相比于HiSeq 2000每张芯片产0.3个T数据产量,又多出了2倍以上;
3、 第3点,是它的读长又增加了,它的读长从HiSeq 2000的双端(各)100个碱基,增加到现在的双端(各)150个碱基;
4、 最最重要的一点,还是测序成本的大幅下降。Illumina把HiSeq X10平均到每单位(G)数据量的、测序试剂的成本做了大幅的下调。根据Illumina公司自己公布的价格来看,测一个人全基因组90G的数据,它所需要的建库、和测序的试剂成本是797个美金。那么再加上一些人工、仪器折旧的直接成本,这样测一个人全基因90G的直接成本,已经降到1000美元以下。这就是它最大的吸引人的特点。
X10 的技术创新点
X10这台测序仪,之所以可以把测一个全基因组的成本控制在1000美金以下,是因为采用了一系列的技术改进。
NanoWell技术
那么,第一项改进就是用了Nano Well技术。
Nano Well技术就是把原来测序芯片上平铺那2种引物,做成小孔。这些小孔整齐地呈蜂窝状排列,只在小孔的里面,才有长Cluster的引物,小孔之间的那些表面,是没有这些引物的。
这样的改进,所带来的好处:
第一个就是Cluster可以长得更密。
因为现在只有在小孔中有长cluster的引物,所以cluster也只能长在小孔中,原来这些cluster是在一个整个的表面上随机长的,那么必然会有些地方长得密,有些地方长得稀。那么那些长得稀的地方,它的表面实际上就是被浪费掉了。现在把所有的孔都排列起来之后,所有的表面都被充分地利用起来。根据Illumina的官方数据,X10的芯片上,它的表面的cluster密度可以达到一个平方毫米里面有120万个点,那么相对于HiSeq 2500每平方毫米60万个光点来说,那么它(X10的cluster密度)整整高出了一倍。这是第一个好处。
第二个好处,就是它更有利于扫描仪对cluster的判读。
那么原来的这些Cluster,长得就象天上的星星,是随机长的。这样扫描仪要判断Cluster,就需要有一个横向的对比,也就是一个cycle(循环)里面,4个光、4幅照片之间的对比。还要做纵向的对比,也就是不同cycle(循环)之间,要进行光点的对比。那么这样,对扫描仪的扫描精度高求很高,同时,又对服务器的计算,又提出了很高的通量要求。现在改成所有的格子,它的位置都是事先知道的,都是排整齐的。那么,对于光学扫描仪的扫描精确度的要求,就降低了。然后,它(扫描仪)的扫描速度,也可以提上去。
扫描完之后,对光点的空间位置的判断也变得容易,那么计算,也更加高效率了。
RPA技术
那么X10上的第2项改进,就是它的簇生成的技术,从原来的桥式PCR技术,改到了新的RPA技术。
那么RPA技术,是recombinant polymerase amplification的首字母缩写。
那么RPA技术,它是一种模拟自然条件下的DNA扩增技术。
我们知道PCR是用热来解链DNA的。那么RPA技术呐,不再靠热来解链DNA。它是用解链酶、和DNA单链稳定蛋白来把DNA的双链打开,然后再利用聚合酶来合成新DNA链。
RPA技术带来的第一个好处是,就是直接提升了小孔的利用效率。
如果还是用桥式PCR,那么在理想情况下,所有的孔当中,大概有约1/3的孔是单克隆的;还有1/3的孔,会是空克隆。还有1/3的孔,是多克隆。
那么空的孔、和多克隆的孔,都是没用的。
那么空的孔,因为当中没有数据。而多克隆的孔呐,当中的数据是乱的。所以,这两者都是没用的。只有单克隆的孔,是有用的。
那么因为限于泊松分布的这个原理,所以,桥式PCR的方法来做克隆,一般只有1/3的孔是有效的。
那么现在采用了RPA技术之后,它得到这样一个效果:就是这个测序的模扳,和小孔当中的引物的结合,是一个比较慢的过程。但是它一旦结合了之后,它就马上发生扩增。那么经过扩增之后,马上就把一个小孔给占满。
这样,这个小孔即使后面再有新的模板来,那么也无法发生新的扩增。因为已经被占满了。那么,这个有点象地铁上的抢座位,谁先抢到了,谁就坐。那么后来的人,就没位子了,只能站着。
那么,这个呢大大提高了小孔的利用效率。那么根据Illumina官方的数据,它的孔的利用率从原来的1/3,提高到了现在的60%、或者更高。
那么,RPA技术还带来了另外一项好处,就是它对于加入的模板的浓度(变化)的耐受性,更好了。那么现在它对加入的模板浓度(变化)的耐受性,扩大到了20%,而以前,一般只有5~10%的耐受范围。
更快的光学扫描
X10的第3项技术改进,就是用了更快的光学扫描仪。那么它的这个光学扫描速度,是原来HiSeq 2000的光学扫描仪的扫描速度的6倍。
对修饰dNTP更适应的酶
X10的第4项重要改进,是用了新版的酶。
因为在Illumina的测序过程中,用的dNTP并不是天然的dNTP,而是经过了修饰的dNTP。那么这个dNTP,主要有2个修饰。
第1个(修饰),在3’端的羟基上,它带了一个叠氮基团,这个基团,是可逆终止的化学基团,那么这是第1个修饰。
那么第2个(修饰),是在它的碱基上连出去一个长柄,长柄上,再接一个荧光基团。那么就是靠这个荧光基才的颜色,来判断这是哪个碱基。因为接这个荧光基团,所以它的碱基也不是个天然碱基,这是在dNTP上的修饰。
第2个,在边合成边测序过程中生成的这根新的DNA链,它不是个天然的链。因为每个循环结束之后,我们要用化学方法把那个荧光基团给切掉,但是这个切断的位置,并不是齐根的。也就是说每次切断之后,实际上,在这个碱基上还会延出去一个柄。所以,这根新合成的这个DNA链,并不是一个天然的DNA链。
那么这样呢,我们所用的这个聚合酶,它所面对的聚合的环境、和条件并不是天然的条件,它面对的是修饰过的dNTP,同时这个DNA链,也是一个带柄的这样一个DNA链。
那么,每次Illumina的测序技术有大的改进,都会要求这个酶有大的、新的突破,它所有的突破,就是说这个酶能够更好地耐受dNTP的修饰,和耐受这个DNA上的那个多出来的柄。同时,这个酶还要有很高的聚合活性。
那么我们看到,这次,Illumina在HiSeq X10上,它整个的化学速度提高了4倍,那么这个核心的提升,就是这个酶的活性更高。同时,这个酶对这些修饰和变化的耐受性更好了。这就是它的第4个重要改进。
在综合了上述几项重要的技术改进之后,X10测序仪就呈现出了今天我们所看到的这样强大的测序能力。
X10所测出来人全基因组数据能为我们带来的生物信息
在说完了X10的新技术、和强大功能之后,我们再来说一下,它所测出来的数据,能给我们提供什么样的生物信息。
SNP
首先,我们就要说一下,它所提供的SNP信息。
所谓的SNP,就是单核苷酸多态性,也就是Single Nucleotide Polymorphism。这个SNP指的是一个碱基的替换,比如:A变成T,或者G变成了T。这些,都叫SNP。
根据Macrogen公司所发表的30倍测序深度的X10的测序结果,在整个基因组中,98%的区域可以10倍以上的覆盖深度。
有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了。
同样Macrogen公司宣布的X10的测序结果,它所确认的SNP信息,与用HiSeq 2000所确认的SNP信息,互相的比对确认程度,高达到95%以上。这个,也说明X10的测序结果的可靠性是非常之高的。
那么在一般情况下,一个普通黄种人的基因组,与国际公认的、标准的HG19这个参考基因组序列相比,会有350万个左右的SNP。那么这350万个SNP当中,又有大概2万个是落在外显子上的。
而在这2万个落在外显子的SNP当中,非同义的SNP,有大概9千个。所谓非同义的SNP,也就是说这些SNP是会引起蛋白质的序列变化的。
Indel
X10测序数据所能提供的第2种生物信息,就是小片段的DNA插入、和缺失信息。我们通称称这种小片段的插入、缺失叫“Indel”。Indel是“Insertion”和“Deletion”两个英文词的合并缩写。
我们通常所说的Indel是指小于50个BP以内的微小的插入、和缺失突变。
那么Indel如果一旦落在外显子区域,它是一定会引起蛋白质序列变化的。如果它引起的是移码突变,那么在移码位点之后,所有氨基酸序列就和原来的序列完全不同了。
如果它(基因)还能保持原来的阅读框,也会引起蛋白质中若干个氨基酸的增或者减。
一个普通黄种人的基因组和标准的HG19参考基因组相比,约有50万个Indel。其中落在外显子上的,大概在1千个左右。
SV
X10测序数据所能提供的第3种信息,是基因组结构变异信息。我们通常称之为SV信息,也就是:Structure Variation信息。
它是指染色体的结构变异,常见的染色体结构变异,有以下几种:
1、 染色体内部的位移
2、 染色体之间的位移
3、 大片段的缺失
4、 大片段的插入
5、 大片倍的加倍
6、 大片段的倒位
CNV
X10测序(数据)所提供的第4种信息,是拷贝数变异信息。也就是CNV信息,Copy Number Variation信息。
它是指染色体片段的拷贝数变异。它包括拷贝数增加,也包括拷贝数减少。
实际上,CNV是和结构变异(也就是SV)紧密相关的。
结构变异中的大片段的增加、和大片段的缺失,会直接导致CNV的变化。
人全基因组测序,它对CNV是高度敏感的。这儿是一张图,来告诉我们:在全基因组测序当中,这些大片段的缺失和增加是可以被非常明确地给测出来的。
测序深度
这里,我们要说明一下,我们所说的,测90个G,或者测30倍的深度,对于测germline变异,也就是我们通常所说的“娘胎里带来的变异”,一般来说是够了。
因为一个人的基因,一半来自于爸爸,还有一半来自于妈妈。那么这两半,基本上是各占一半,所以,一个基因2个拷贝。每个拷贝,如果能够被测到5倍或者10倍,实际上做基因分型,是够了。
那么如果要测肿瘤,那是不够的。因为肿瘤的突变,是Somatic突变,也就是我们说的“体细胞突变”。
因为肿瘤细胞是和正常细胞混着长的,那么在肿瘤组织里面,正常细胞往往还占了大多数,肿瘤细胞往往只占一半、甚至更少一点。那么肿瘤细胞中的一个基因的2个拷贝,往往是1个发生了某种突变。所以,这个情况下,这个突变的基因,在整个这一群细胞当中占的比例会低于25%,甚至更低。甚至只有百分之几。
如果,这时候,测序只测30倍,是比较难于测到这些低频突变的。
那么为了要测到这些低频突变,这就要求我们对肿瘤要加大它的测序深度。那么,目前科研人员一般会对实体肿瘤进行50倍到100倍深度的(全基因组)测序。
同时,还会测一下病人血液中白细胞的基因组DNA(一般是测30X,90G)。那么,把这个白细胞的基因DNA作为正常背景,来做对照。然后,把肿瘤测出来的序列,和正常的对照,进行比对。来找出当中的突变。
还有一些科学家,会做另外一个选择,他会对肿瘤和血液白细胞的DNA,都做30X的(人全基因组)测序(目的是得到肿瘤CNV、SV信息),但是,他们会对肿瘤加测一个100X或者200X的外显子测序。
那么有了这些高深度的测序之后,我们才有比较大的把握,来捕捉到肿瘤中的那些低频的基因突变。
关于这4种突变,1、点突变;2、插入、缺失突变;3、结构变异;4、拷贝数变异,与肿瘤的发生有什么关系,大家可以在我的微信公众号【陈巍学基因】中回复“视频4”三个字,就可以看到我之前给大家做的,关于这方面的介绍视频了。
6. illumina 公司的Nano Well 测序技术
(Illumina公司)专利的微流体芯片是新的创新测序技术。极大地增加了数据的产量、和通量。让我们来仔细看一下此项新技术。
数十亿个纳米级的小孔按预先设定好的方式,整齐地排列。保证了DNA簇有固定的大小、和空间位置,使高密度芯片同时又有精确分辨率成为可能。
好处是数据产量大、有更多序列条数、和更快的仪器运行速度。
现在,你可以在更短的时间内处理更多样本。
这个流式芯片是用数十亿个有专利的Nano Well小孔,在玻璃基质上制作出来的。
在流式芯片生产好之后,只有在小孔中,才种有DNA引物。
在生成DNA簇的时候,新的、独家的扩增技术,保证一个小孔中,只有一个DNA模板,会与(小孔中的引物)结合,并形成簇。
当DNA模板与种子引物相结合时,它会立即快速扩增。这种快速的扩增,能防止别的DNA模板在同一个小孔中,形成“多克隆”。
这就保证了,在每一Nano Well小孔中,只形成来自一个模板的单克隆簇,这样做的结果,就是在大部分的小孔中,每个小孔都是来自于一个模板形成的DNA簇,当这种单模板簇形成好之后,流式芯片就可以做测序了。
测序过程是用行业内公认的、领先的、边合成边测序试剂来进行。
我们承诺:开发创新的测序解决方案,让突破性的发现成为可能,并释放基因组的(巨大)力量。
7.第一代DNA测序
本期节目,我们会谈一下:第一代DNA测序。
第一代测序,又称“Sanger”法测序,或者叫“双脱氧法”测序。
这是由美国生物化学家Frederick Sanger先生发明的,Sanger先生也因为此项发明,而获得诺贝尔奖。
ABI公司(现为ThermoFisher的一部分)在Sanger先生的双脱氧法的基础上,进一步开发出,荧光标记的双脱氧法测序试剂盒。也就是分子生物学界鼎鼎大名的BigDye 试剂。
接着,(ABI)再结合毛细管电泳,生产出了“ABI 3730”和“ABI 3500”等非常成功的测序仪。
到目前为止,ABI 3730、ABI 3500等测序仪和BigDye测序试剂,都是业内公认的一代测序的金标准。
今天,我们就以BigDye试剂为主线,来介绍一下,第一代测序方法的原理。
双脱氧法测序的第一个核心技术:就是在用DNA聚合酶合成DNA链的过程当中,掺入双脱氧核苷酸,也就是“ddNTP”,英文叫“Dideoxynucleotides”。
天然的DNA的组成元件是单脱氧核苷酸,也就是dNTP,deoxynucleotides。在其糖基的5’位、和3’位,各有一个羟基。5'位的羟基,连到上游的磷酸基团;3'位的羟基,连到下游的磷酸基团。这样不断重复,就形成了DNA的一条骨架链。
这就象一群人,其中每个人都伸出双手,左、右手,都各拉住一个伙伴,这样,就形成了一条长长的链。
Sanger的方法,就是用化学合成的办法合成出3’位没有羟基的核苷酸,也就是双脱氧核苷酸(ddNTP)。它比单脱氧核苷酸少了一个3’位的羟基,只保留了5'位的羟基。
它就象一个只有左手、但没有右手的独臂人,在聚合反应当中,它可以被聚合酶结合到DNA链当中去。因为它缺了3'位的羟基,所以它就没有办法和下一个dNTP结合了。DNA链的聚合反应也就此终止,不再往下延伸了。
这样,在DNA链聚合过程当中,通过掺有ddNTP的dNTP进行聚合反应,得到一系列不同长短的DNA片段。每个片段的3’位末端,都是一个双脱氧的核苷酸残基。并且这个核苷酸的残基,是与模板上对应位置的碱基互补的。
接下来,我们来说BigDye试剂的创新点。
它在双脱氧核苷酸(ddNTP)的基础上,再在碱基上,加上荧光发光基团,并且,A、G、C、T四种碱基各标一种颜色的发光基团。
有了不同颜色的荧光发光基团做标签,在最后的识别过程当中,就可以方便地通过颜色,就识别出这末端的双脱氧核苷酸碱基是哪种碱基。
在实际的测序中,先在反应体系当中,加入要测序的DNA模板。一般是经过纯化的质粒,或者经过纯化好的PCR扩增片段。
再加入与测序起始位置已知序列相互补的测序引物DNA,也就是primer。测序Primer在这里起的作用,是与模板的特定序列位置相结合,引导聚合反应发生。并且,它还可以确保:DNA的聚合反应,是从已知的、确定的起点开始。
然后,加入BigDye试剂,进行反应。
BigDye试剂当中,包括了刚才我们所说的“四种荧光标记的双脱氧核苷酸”、dNTP、和DNA聚合酶。另外,还包含了镁离子、PH缓冲液等。
反应过程当中,聚合酶从Primer处开始进行聚合反应。荧光标记的双脱氧核苷酸和天然dNTP,遵照碱基互补的原则,延着模板,一个、一个地被聚合到新合成的DNA链上去。
每聚合一个新的碱基,都有2种可能。
第一种可能,是结合进了一个正常的、与模板互补的dNTP。这时候,聚合反应就可以续继进行下去。
另外一种可能,是结合进一个与模板互补,但是双脱氧的、荧光标记的ddNTP。当DNA链中被结合进了一个ddNTP的时候,链的延伸就被终止。同时BigDye的荧光基团也就被加到这个DNA链的3'位末端。并且这个荧光基团的颜色,与模板对应位置的碱基种类,有对应的关系。
整个反应过程当中,产生了一系列、长长短短的、分别带有荧光标签的DNA片段混合物。
接着,这些DNA片段的混合物,经过一个简单的纯化,去掉游离的荧光ddNTP单核苷酸,留下有一定长度的DNA片段,就可以上机测序了。
上机测序过程当中,先在一根长长的、中空的玻璃毛细管当中,注入丙烯酰胺溶液。接着用紫外光照射丙烯酰胺溶液,丙烯酰胺在紫外线的电离作用下,发生聚合反应,变成聚丙烯酰胺凝胶。
在电场条件下,聚丙烯酰胺凝胶,对于在其中电泳的核酸,有分离作用。短的片段,在聚丙烯酰胺凝胶当中电泳得快;长的DNA片段,则电泳得慢。
然后,把DNA片段混合物,加到有聚丙烯酰胺凝胶的毛细管的一端。在毛细管的两端,加上高电压。DNA片段就在电场的作用下,从负极向正极电泳。
在毛细管的正极的末端,用激光进行照射,并用分光的光学传感器把不同颜色的荧光强度经记录下来。
每个DNA片段,在通过激光的扫描点时,它上面带有的荧光基团就会发出特定颜色的荧光。
因为在之前的聚合反应过程当中,聚合反应的起点都是从特定的引物位置开始的,所以越先电泳到达激光扫描点的DNA片段,就是越短的片段。它的聚合终止位置,离聚合的起始位置就越近。它所产生的荧光颜色,就反映了它3’端末端的那个碱基是A、C、G、T当中的哪一种。
那么反之,越慢电泳到达激光扫描点的DNA片段,就是越长的片段。它的终止位点,就离引物的起始位置越远。
然后,我们就得到了这样一种有四种颜色的图。
图的横轴是电泳的时间;纵轴是荧光的强度;4种颜色,则对应了4种碱基。
那么横轴既可以看作是电泳的时间,也可以看作是碱基的先后次序。
延着横轴,我们可以根据峰的颜色,判断出,依次是哪种碱基。
峰越高、越尖,与别的峰的交错越少,则这个碱基判读准确性越好。
上述,就是ABI公司BigDye测序方法的基本原理。
目前,用ABI 3500测序仪,一般可以测到850个碱基(长度),或者更长的片段的碱基序列。用ABI 3730(测序仪),一般可以测到700个碱基(长度),或者更长片段的序列。
以上是本期节目的全部内容。谢谢您的收看
联系客服