打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
罗勒花和叶的转录组数据组装及基因功能注释
原创 2017-09-17 刘 雷,赵 欢 

罗勒Ocimum basilicum L. 为唇形科罗勒属一年生草本植物,俗称香佩兰、零陵香、九层塔、金不换和圣约瑟夫草,原产于以印度为中心的亚洲热带地区和非洲,在我国主要分布于新疆、吉林、河北、浙江、江苏、安徽、江西、湖北、湖南、广东、广西、福建、台湾、贵州、云南及四川等省[1]。罗勒具有疏风行气、化湿消食、活血、解毒之功能,主要用于治疗外感头痛、食胀气滞、脘痛、泄泻、月经不调、跌打损伤、蛇虫咬伤、皮肤湿疮等症[2-3]。此外,其还可作为提取精油、食品调味料、减肥代餐食品等原料,具有较大的经济效益和社会效益[4-5]

罗勒化学成分的研究近年来主要集中于挥发油、酚酸、黄酮和甾体类。罗勒中含有大量的挥发油,通过水蒸气蒸馏法提取和GC-MS分析发现其含有多种萜烯类的含氧衍生物。近年来大量研究表明不同产地的罗勒挥发油成分和含量差异较大。兰瑞芳等[6]、帕丽达等[7]Jose[8]、李建文等[9]分别对我国福建、新疆产和肯尼亚产及栽培罗勒挥发油进行研究,结果都表明芳樟醇相对量最高,达50%左右,其他主要成分有茴香脑、对烯丙基苯甲醚、1,8-桉叶素、表姜烯酮、杜松烯醇和樟脑。卢汝梅等[10]对桂产罗勒挥发油的研究结果表明,相对量最高的为对烯丙基茴香醚(50.26%),其他主要成分有双环倍半水芹烯和3,7,11-三甲基-(Z,E)-1,3,6,10-十二碳四烯。汪涛等[11]从河南产罗勒挥发油中鉴定出相对量最高的是1,7-二甲基-1,6-辛二烯-3-醇(29.87%),其他主要成分有1-己烯、3-己酮、环氧乙烷。胡西旦·格拉吉丁[12]从新疆产罗勒中鉴定出相对量最高的为α-萜品油烯(30.97%),其他主要成分有香榧烯醇、α-萜品油、β-月桂烯、δ-愈创水烯和杜松烯。

关于罗勒中挥发油及生物碱的量及在不同栽培环境、措施及品种间的差异有一定的报道,但是上述研究均未能从本质上揭示活性物质的生物合成机制、代谢调控途径及调控水平。分子生物学是研究罗勒活性成分代谢调控途径的重要手段。随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转录组学是率先发展起来以及应用最广泛的技术。转录组是特定组织或细胞在某一功能状态下转录出来的所有RNA的总和,包括mRNA和非编码RNA[13-14]。目前转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题[15-18]。为此,本课题组在前期对罗勒资源收集、评价,有效成分提取、分离及检测的研究基础上,采用转录组测序的方法,对罗勒花和叶片中功能基因进行功能注释和分类,为后期功能基因的挖掘、代谢途径及调控机制的研究奠定理论基础。

1  材料与方法

1.1  材料

供试植物于2017年采集于四川省绵阳市,经绵阳师范学院生命科学与技术学院罗明华教授鉴定为罗勒Ocimum basilicum L.

1.2  RNA的提取与分离

采用GENEOUTTM植物RNA提取试剂盒(多糖多酚样本,成都兰博生物科技有限公司)提取罗勒花期花和叶的总RNA,使用磁力架(厂商Invitrogen)以磁珠法分离mRNA[15]。分离到mRNA之后进行扩增、构建文库以及测序。

1.3  转录组数据的获得

将上述获得的罗勒总RNA,以5 μg的起始量建库;采用磁珠法分离mRNA,打断mRNATruseqTMRNA sample prep Kit);双链cDNA合成、补平、3’端加A、连接index接头(TruseqTMRNA sample prep Kit);文库富集,PCR扩增15个循环;2%琼脂糖胶回收目的条带(Certified LowRange Ultra Agarose);TBS380Picogreen)定量,按数据比例混合上机;cBot上进行桥式PCR 扩增,生成clusters;在Hiseq2000测序平台进行2×100 bp测序。

1.4  原始数据处理及生物信息学分析

采用Base Calling将测序得到的原始图像数据转化为序列数据,采用FASTQ文件格式来储存结果文件。将原始测序数据进行统计和评估,再根据接头信息去除有接头污染的序列。得到原始的FASTQ数据后,首先对其进行质控得到高质量的测序结果(clean data),然后再进行de novo拼接。

RNA-seq分析过程中,将测序得到的reads与前面所得的拼接结果进行比对(mapping)。通过对定位到基因组区域的测序序列(clean reads)的数量来估计基因的表达水平,采用Trinity软件对拼接结果进行开放阅读框(ORF)预测。通过GOgene ontology)数据库和COG 数据库对基因的功能进行分类;基于KEGG数据库,采用BLAST算法(blastx/blastp 2.2.24+)将罗勒所有基因与KEGG的基因数据库(GENES)进行比对,再根据比对所得到的KO编号去查找具体的生物学通路,提供所分析基因可能参与的所有生物学通路。

2  结果

2.1  转录组数据组装

对罗勒花和叶进行了转录组测序之后,经原reads片段除杂,共获得86 331 137个高质量reads片段,包含了6 455 365 309个核苷酸序列信息。将质控后得到的高质量序列进行de novo拼接。结果显示,拼接得到的总Unigene片段达到90341条,平均长度为1 314.85 bp,最长的Unigene片段为14 243 bp,最短的Unigene片段为351 bp。总共得到48 762条基因。

在拼接得到的90 341Unigene片段中,长度在400600 bp的片段最多,达20 765条,其次是长度在600800 bp 8001 000 bp左右的片段,分别为12 986条和9 506条。

转录本的丰度体现基因的表达水平,转录本丰度越高,则基因表达水平越高。在分析中,将测序得到的 reads与前面所得的拼接结果进行比对。结果显示,罗勒花与叶的转录本丰度均较高(≥70%),分别为75%70%

2.2  转录组数据拼接结果及基因预测

基于罗勒的花和叶的转录组测序,通过Trinity软件对拼接结果进行ORF预测,总共预测到具有ORF的序列有60 476条,另外39 865个序列未预测到ORF。对具有ORF的序列进行蛋白质预测,共预测到62 895条蛋白质序列。

2.3  基因功能注释

2.3.1  GO分类  GO是基因本体论联合会建立的数据库。本研究将罗勒花和叶转录组获得的UnigeneGO功能数据库中比对分析发现,共有219 789Unigene与数据库中的基因具有相似性,较多的单条Unigene能够与多种基因相对应,建立了219 789条对应关系,从而得到尽可能多的注释和分类。罗勒花和叶转录组中的Unigene根据GO功能大致可分为生物过程、细胞组分和分子功能3个大类43个分支(图1)。通过对每一类的基因数量进行统计分析,结果表明,在生物过程这一大类中,代谢过程涉及的基因最多,有97 468条;在细胞组分这一大类中,细胞部分涉及的基因最多,达18 072条,其次是组成细胞器的基因,有13 448条。在分子功能这一大类中,具有催化活性功能涉及的基因最多,达20 770条,其次是具有结合功能的基因,有19 243条(表1)。

2.3.2  KEGG代谢途径分类  利用KEGG数据库作为参考,依据代谢通路将转录组中的数据分成111类,包括生化代谢通路、植物病原体互作、DNA剪切、植物激素生物合成、苯丙氨酸生物合成、萜类化合物与类固醇类化合物合成、脂类代谢、RNA降解等,共涉及基因22955条(表2)。其中,次生代谢物涉及基因2 158条,占整体的9.4%。如黄酮类(包括了黄酮、黄酮醇、类黄酮)的基因有44条,占总体的0.192%;萜类(包括了单萜、二萜、三萜、倍半萜、萜类化合物骨架)涉及的基因有201条,占整体的0.88%;类胡萝卜素代谢途径中涉及基因有81条,占总体的0.35%

2.3.3  COG功能分类 将罗勒花和叶的转录组Unigene片段与COG数据库进行比对,发现共有25 596UnigeneCOG数据库中的基因具有相似性,且较多的单条Unigene能够与多种基因相对应,建立了25 596条对应关系。罗勒花和叶转录组中的Unigene根据功能大致可分为25类,并对每一类的基因数量进行了统计。结果显示,UnigeneCOG功能种类比较全面,涉及到大多数的生命活动,仅作为一般功能预测的基因数量最多,有5 299条;其次是基因的复制、重组、修复等,涉及的基因为2 721条。其他种类基因的表达丰度也不尽相同,具体种类和数量见表3

2.3.4  转录组序列中SSR 重复基元分析  http://pgrc.Lpk-gatersleben.de/misa网站下载est-trimmer.pl

去除转录组序列中过短的序列和过长的序列;从http://www.bioinformatics,org/cd-hit/中下载CD-HIT软件,去除冗余序列。从http://pgrc.lpk-gatersleben.

de/misa网站下载使用MISA软件以识别和定位序列中SSR,参数设置如下:单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复次数至少为1065333。使用Primer3批量设计SSR引物,网址:http://sourceforge.net/projects/

primer3/files/primer3/1.1.4/primer3-1.1.4-WINXP.zip/download,引物设计参数为引物长度1822 bp,退火温度(Tm5565 。其中前后引物Tm值相差4 ,产物大小为100300 bp。应用本方法成功设计了15 617SSR引物,SSR密度分布出现频率最高是的单碱基微卫星,所占比例最高是A/T,如图2所示。

2.3.5  转录组序列中SNP情况分析  本研究共检测到对照样品SNP 10 254个,注释到基因上的有7 242个。统计发现,6种单核苷酸变异种C/TA/G发生频率最高,大于20%,其他4种单核苷酸变异A/CG/TC/GA/T发生频率均在15%以下(图3)。6种变异类型中C/T变异频率最高,可能是因为CpG二核苷酸上甲基化的胞嘧啶残基易自发脱去氨基而形成胸腺嘧啶的原因。

 

3  讨论

本实验首次建立了药用植物罗勒的花和叶的转录组数据库,获得了大量的转录本信息,结果共获得86 331 137reads片段,包含6 455 365309个核苷酸序列信息,对reads进行de novo拼接,共获得90 341Unigene片段。对罗勒转录组所有UnigeneORF进行blast分析,共获得60 476ORF序列;在蛋白质数据库中对罗勒转录组所有的Unigene进行blast分析后,共获得了62 895个蛋白质序列;将UnigeneCOG数据库进行比对发现共有25 596Unigene与数据库中的基因具有相似性,共有219 789Unigene可以与GO数据库中的基因具有相似性。

根据KEGG数据库作为参考,对上述Unigene进行代谢途径分析,可将其分为111类,参与到罗勒的生化代谢通路、植物激素生物合成、苯丙氨酸生物合成、萜类化合物与类固醇类化合物合成、脂类代谢、RNA降解碳水化合物代谢、脂类代谢等过程中,其中,萜类和黄酮类涉及的基因共245条,该结果可为发掘罗勒次生代谢产物合成途径上的关键基因克隆、功能验证等方面提供了数据依据。特别是萜类(包括了单萜、二萜、三萜、倍半萜、萜类化合物骨架)涉及的基因有201条,对进一步深入理解该物种挥发性成分生物合成关键酶基因奠定了基础。此外,以COG数据库为参考,将本实验测序所得的罗勒花和叶的转录组Unigene片段进行基因功能分类,可从基因组水平上找寻直系同源体,预测未知ORF的生物学功能,可以大大提高基因功能注释的准确性,本结果进一步支持了贾新平等[19]的观点。

罗勒属植物品种及变种繁多,Rastogi[20]对甜罗勒Ocimum basilicum L. 和圣罗勒O.sanctumL.的叶片进行了转录组测序及综合比较分析,对其主要化学成分萜类化合物及苯丙素类化合物代谢途径进行了分析,建立了罗勒属植物的第一个转录组数据库。Zhan[21]对罗勒属一变种Ocimum americanum var. pilosum (Wild.) Benth. 在低温胁迫下进行了转录组测序,构建了罗勒属植物首个冷响应转录组数据库。本课题组则对本地栽培罗勒品种花和叶混合库进行了转录组测序分析,并对数据进行了组装、基因功能注释和生物信息学分析,丰富了罗勒属植物转录组数据库信息。挖掘了其中的萜类等次生代谢成分生物合成途径关键酶候选Unigene,值得注意的是412条防御进程相关基因的获得,对利用分子生物学手段提升该物种产量和品质奠定了初步基础。通过对罗勒转录组的统计分析及功能分类,可从次生代谢调控途径中挖掘相关的功能基因及其序列,并直观了解其在代谢通路中的调控位置。通过后期的基因序列验证,及其与活性成分量的相关性分析,以及对外源诱导因子的响应等研究,揭示罗勒活性成分代谢途径的调控机制,并对限制性步骤的关键酶基因进行转基因技术研究,通过调整其表达量的手段,从而提高活性成分的量。因此,本研究为罗勒属植物新品种(系)选育、分子标记开发及活性成分量的提高奠定了坚实的理论基础。

参考文献(略) 


来  源:刘  雷,赵  欢, 冉茂中,杜保国,邵镪钎,伍希来,贾白慧,查  英. 罗勒花和叶的转录组数据组装及基因功能注释 [J]. 中草药, 2017, 48(17):3612-3618.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
综述 | Nature子刊:微生物组学研究方法,看这一篇就够了(IF:31.851)
夏枯草的转录组测序与次生代谢产物生物合成相关基因的挖掘
土壤宏病毒组的研究方法与进展
高通量测序技术极简介绍
NBT:未培养病毒基因组的最少信息标准(MIUViG)
科研 | 破译越南人参基因组并开发分子标记辅助育种
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服