上两期我们介绍了基于三代测序的全长转录组(Iso-Seq)在分析可变polyA方面(戳这里)和可变剪切方面的优势(戳这里)。今天,我们继续探讨Iso-Seq在分析转录本序列结构方面的独特优势:在融合基因检测方面的应用。
融合基因是指两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因。
融合基因是由染色体重排产生的,包括染色体的易位,插入,颠倒,缺失等(图1)。融合基因的产生改变了基因的蛋白编码序列或调控序列,使得基因功能发生变化,对机体的影响较大。
图1. 融合基因产生原因示意图。箭头为断裂位点[1]。
在生物体内发生融合基因,可导致疾病的发生。融合基因在癌症中普遍存在,与癌症的发生发展密切相关。
融合基因引发癌症的机制主要有以下几点:
1. 基因转录调控的失调:指的是染色体重排会使少数与癌症相关的基因拥有强的启动子或增强子,或转录激活因子,使其异常表达(图2左);
2. 融合基因产生的嵌合体蛋白:融合基因可能会产生功能异常的嵌合体蛋白,使生物体紊乱(图2右);
3. 基因截短:融合基因可能会产生正常基因被截短,从而使得抑癌基因表达失活,蛋白功能丢失,引发癌症。
图2. 融合基因引发癌症的机制[1]
目前发现发生融合基因的癌症有乳腺癌、白血病、淋巴瘤、前列腺癌等等,已有涉及到8607个基因的9928个基因融合事件被报道与肿瘤发生有关[2]。
染色体显带技术(chromosomebanding)
染色体显带技术可以研究大部分染色体重排,只有少数染色体间相同带型的置换无法鉴定。另外,该技术也有一些缺点,如需要活细胞,这就要求拿到肿瘤组织后要马上送抵实验室;某些肿瘤细胞在体外很难培养;某些基因组变异复杂的恶性肿瘤,显带结果难以从背景噪音中分辨。
荧光原位杂交
对已知的染色体重排设计探针,可以检测融合位点,但无法发现新的染色体重排。
高通量芯片技术
比染色体显带技术通量高,可检测全基因组范围内的染色体重排事件,并且分辨率更高。但同样也是只能检测已知的染色体重排事件。
高通量测序技术
高通量测序技术研究融合基因的分辨率和通量比传统方法高得多,并且可以在基因组和转录组水平上进行研究。目前最广泛使用的是基于二代Illumina测序技术的短读长测序方法来研究融合基因,算法也在不断改进。
但是基于读长太短这个致命弱点,利用二代短序列来检测融合基因还是存在一些问题:一是测序错误、基因组变异的存在使得比对错误,导致融合基因的检测不准确;二是基因组重复序列导致的多重比对使得检测结果不确定。
而利用三代全长转录组技术就可以轻松解决这个问题。因为三代全长转录组技术无需对RNA进行打断拼接,可以直接获得融合基因全长,轻松判断融合位点,在融合基因分析方面的优势非常突出。
下面我们通过一篇文章来看一下三代测序技术是如何应用到融合基因检测上的。
文章题目:三代测序技术检测新的前列腺癌融合基因RLN1-RLN2[3]
影响因子:3.754
该文章利用三代pacbio测序技术研究前列腺癌上皮细胞LNCaP的高度同源基因RLN1和RLN2的表达。与一般的全长转录组流程不同,本文从LNCaP细胞中提取全长cDNA后,利用NimbleGen定制NF1探针捕获目标序列,然后对捕获得到的cDNA构建2Kb长度文库, PacBio RSII平台测序,每个文库测2个SMRT Cell。因为文章的主要目的是研究RLN基因,因此这个目标区域捕获+全长转录组测序的方法也是节约成本和降低生信分析复杂度的一个好方法。
作者将测序得到的CCS序列与RLN1和RLN2参考序列进行比对,发现了两个RLN1和RLN2的融合转录本:RLN1-RLN2-1和RLN1-RLN2-2(图3)。将这两条融合转录本比对到人参考基因组GRCh38/hg38上,校正序列的测序错误。然后将二代Illumina测序短序列比对到融合转录本上来校正三代序列的错误,结果显示比对结果非常好,证明了三代测序得到全长转录本的准确性。
图3 三代测序检测到的融合基因示意图
对两条新发现的融合转录本进行序列分析,在转录本RLN1-RLN2-2中发现了一个新的外显子结构,生成一种新的RLN2的isoform,其编码产生的RLN2蛋白包含了完整的功能结构域,但是缺失了信号肽序列,影响了蛋白的分泌(图4)。结合qPCR和数据库表达量数据分析融合基因表达的情况,RLN1-RLN2-2融合基因在LNCaP细胞中与RLN1共表达,并且受到雄性激素相反的调控作用。
图4. RLN1-RLN2-2编码的蛋白缺失了信号肽序列
Tips
联系客服