打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
CPGAVAS2命令行版 | CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误

非常感谢陈程杰老师的邀请,我们打算以三期推文的形式来系统的介绍叶绿体基因组的注释以及叶绿体基因组注释工具CPGAVAS2(网页版和命令行版)的使用。

(1)第一期:零基础教程 | CPGAVAS2 快速,准确的叶绿体注释工具(附保姆级教程)

(2)第二期:CPGAVAS2命令行版 | 搞个大事情,一次准确高效的注释300个叶绿体基因组?!

(3)第三期(本期):CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误

在之前的推文中,我们一起学习了如何使用CPGAVAS2注释叶绿体基因组,然而寻找一个合适的参考基因组进行注释并不是一件简单的事情。如果选取了不合适的参考基因组,那么注释出来的结果就会有潜在的错误(无法通过NCBI的审核),下面我们就一起讨论一下注释的错误类型。

在完成注释后,我们发现经常会有注释错误,在CPGAVAS2的结果文件中,我们可以看到xxx.annotation_with_problems.txt这个文件,这个文件内记录着潜在的注释错误,例如缺少起点,终点,或者有错误的编码框等等。一般而言,如果组装没有出现错误的情况下,很少会出现编码框的问题。这里需要注意,使用NOVOPLASTY(2019,NAR)组装的可能会出现这类问题,因为他会在个别位置出现插入或者缺失碱基的现象(不是简并碱基)。起点和终点和最常见的注释问题,根据已有文献和现有的问题,我们把叶绿体基因组可能的注释错误的情况大致分为以下几种,建议大家遇到叶绿体基因组的注释错误时,能够进行综合的判断:

一、找不到转录起点

以下是我们发现的存在于植物叶绿体基因注释中找不到转录起点的几种情况。

类型1:同一基因的起始密码子在不同物种中不同,需要通过近缘物种确认起点

例如ndhD基因,不同物种的起始密码子有较大差异,无法判断,目前唯一的方法是根据近缘物种ndhD基因的起始密码子和基因的长度进行预测。当然,这样判断本身也是不够严谨的,这个基因的起点目前被证实可以不通过RNA编辑直接使用ACG作为起点,如下图所示(2004,NAR):

类型2:某些基因有固定的特殊起始密码子,不同于常规起始密码子

例如rps19基因,其起始密码子为GTG。

类型3:潜在的RNA编辑事件

RNA 编辑是指在转录产生的 mRNA 分子水平上发生的碱基变化,包括核苷酸的插入、缺失和置换等不同方式,导致其序列不能与基因编码序列相互补,翻译产生的蛋白质氨基酸组成也发生变化的现象,是对中心法则的一种补充方式。RNA编辑问题,叶绿体基因组中的RNA编辑位点相对比较少,一般不会做注释,但是有的起始密码子可能由于RNA编辑产生,从而产生注释的不准确。存在潜在的RNA编辑事件的基因起始密码子不固定,但比类型1的要明确的多。

二、内含子边界(不准)

基因序列的内含子边界问题一直是存在争议的地方,最理想的情况是使用RNA-seq的数据比对的到参考基因组,根据比对的结果确认内含子边界。此外,在植物的进化过程中,叶绿体基因内含子的丢失也是比较常见的,如clpP内含子、rpoA内含子。

三、小外显子基因

拥有较短的外显子的基因在参考中也容易丢掉那个较短的外显子,如rpl16,petD,petB第一个外显子很小,只有几bp,最短只有6 bp。

四、反式剪切基因(rps12)

反式剪接指的是两条不同的pre-mRNA的外显子连接到一起。与正常的顺式剪接不同,这里的两段外显子是来自不同的pre-mRNA的,但却可能来自同一基因。

反式剪接的基因(rps12),在一些已经发表的序列中(参考序列中)容易出现错误。rps12基因具反式剪切(trans-spliced)结构,其5′端和3′端分别位于LSC区和IR区,被分成2个独立的转录单元。Geseq在处理rps12注释的时候可能会出现问题,这里推荐使用CPGAVAS2处理rps12的问题。

五、重排

大多数高等植物的叶绿体基因组结构是稳定的,基因数量、基因顺序及组成上比较保守,但是由于不同植物类群具有相对特殊的遗传背景和进化历史,导致不同植物类群的叶绿体基因组大小、基因数目和基因组结构具有不同程度的变异,如反向重复区大片段的插入/缺失,甚至丢失。在某些情况下,基因组的重排可能会影响编码区,使得部分构像的个别基因只剩下一部分,这种情况下有可能会被认为是假基因不被注释出来。

六、假基因与基因丢失

假基因是蛋白编码基因对应的非活性本,由于含有一些有害突变,包括过早终止的密码子、缺失/插入或移码突变,阻碍其转化为蛋白质,因而丧失了蛋白质编码能力。因此,假基因通常被认为无生物学功能。然而,越来越多的证据表明,一些假基因被表达到假基因转录本上,这些转录本在调控靶基因中起着关键作用,其通过产生内源性小干扰 RNA、反义转录本以及隔离mi RNAs 来实现对靶基因的调控。假基因的情况常见的是处于边界的基因,如ycf1,rps19,其他的有些物种中ndh*基因容易出现假基因。还有的注释的时候发现编码基因内容有终止密码了注释成假基因,这时候就需要检查一下组装是否有问题了。此外,叶绿体基因组进化过程中存在基因丢失的现象,在寄生植物菟丝子中,光合家族ndh会整体丢失。龙胆属的rps16基因会丢失,猕猴桃科的clpP基因会丢失。

针对注释问题的快速检测,我们开发了CPGAVAS2的相关的程序(CPGview-RSG)来快速检测注释错误:

目前,有几种叶绿体基因组可视化工具可以绘制叶绿体基因组的圆形图。然而,这些工具只显示基因在叶绿体基因组上的分布。他们都无法显示文字记录的详细结构。这就给检验标注结果的质量带来了困难。为了使用户能够查看叶绿体基因组的剪接基因,我们开发了叶绿体基因组viewer with Repeats and Spliced genes (CPGview-RSG)。利用该工具可以很好地解决上述出现的各种叶绿体注释过程中出现的问题。

我们将该工具制作成了一个网站,使它可以为大家提供在线服务,网址是:http://47.96.249.172:16100/cpgviewer/home (阅读原文可达)

使用方法

1. 点击 DrawMap

2. 两种数据提交模式

    方法1:输入NCBIGenBank Accession Number,如NC_000932

    方法2:点击选择文件,提交本地gb文件。

然后点击Submit提交序列号或文件。

3. 此时,下方会出现结果

该工具会为我们展示出以下的结果:

1. 基因组圈图(内部包含重复序列的结果)

2. 内含子基因位置信息

3. 反式剪切的基因

第二张图片可以清晰的看到内含子基因,快速确认内含子基因的位置和是否被注释出来,第三张图片无法正常显示则代表rps12基因注释错误。

同时,我们也开发了命令行版本,来满足大家对大量叶绿体基因组文件进行批量处理的需求。具体操作步骤如下:

1. 安装conda环境,并使用conda安装singularity,并进入singularity(详细步骤见上一期)

2. 输入命令

singularity search drawrsgsingularity pulllibrary://cliu/default/drawrsg:0.01

           

3. 输入命令

singularity exec pmdrawdrawrsg file_gb projectid workingdir

   file_gb:注释的gb文件

   projectid:项目编号

   workingdir:结果目录

结果文件在结果目录下,以图片的形式展现。

叶绿体基因组虽小,但是分析时需要注意的地方非常多,希望大家在自己组装注释的过程中能够注意到以上的问题,以便顺利提交到NCBI和发表。以上内容有部分主观判断,如有错误,欢迎在给我们留言,我们会根据您提供的宝贵意见修改我们的稿件。

Postscript

1. 最近收到了很多老师的反馈,与此同时有很多问题是共性的,因此在这里做统一回复解答

(A)上一期的singularity的命令行少了空格

RESPONSE:已在本期修正。

(B)chloroplast genome 和 plastome 的区别是什么?

RESPONSE:简单的来说,叶绿体基因组是质体基因组的一种。

(C)CPGAVAS2的注释更新功能是用来做什么的?

RESPONSE:在注释存在错误的时候可以手动更改注释文件,之后使用更新功能获取最新版本的注释结果。

(D)我组装叶绿体的时候遇到了很多的问题,就算是GetOrganelle也解决不了

RESPONSE:本系列推文主要是针对注释问题,对组装有兴趣的老师可以通过邮件进行学术讨论。

(E)叶绿体基因组用三代测序的数据组装可以吗?有什么区别吗?

RESPONSE:尽管通常三代比二代数据对叶绿体的构象更准确(针对于串联重复区),但是准确度不是很好,最好的三代叶绿体就是pacbio的 hifi(ccs)数据,这样准确度比二代高,构象比二代准,但是他的价格很贵,没有人特意为叶绿体测它,一般都是全基因组项目分出来做一部分。

(F)会出植物线粒体的推文吗?

RESPONSE:目前有老师反馈,人数不多,如果大量老师通过评论区留言或者邮件联系我们,我们会根据老师们的需求更新。

(G)我是做生态方向的,动物线粒体有没有比较好的组装注释软件?

RESPONSE:MitoZ,NOVOPLASTY, GetOrganelle。

(H)上次提到了细胞器群体基因组,目前叶绿体基因组有群体的文章吗?

RESPONSE:水稻,辣椒均有,推荐辣椒的细胞器群体研究,发表在HR上,题目为:

Pan-plastome approach empowers the assessment ofgenetic variation in cultivated Capsicum species

2. 感谢刘昌来,黄洁,周文等多位老师以及部分匿名老师提供的意见,部分错误已更正,部分意见已采纳并且会在短期内更新。感谢这些老师在CPGAVAS2网页版不能正常工作时的及时提醒,收到邮件后我们都及时处理了,再次感谢!

作者:张欣逸,倪阳

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
PBJ | 280篇参考文献, 6位领域内知名专家联合撰写!这篇叶绿体基因组、叶绿体基因工程(生物反...
文章必备| 叶绿体基因组高级分析内容汇总
【测序实验】如何从UCSC、RefSeq、Ensembl中下载参考基因组序列
祝你生日快乐~美花花
Hemberg-lab单细胞转录组数据分析(三)
科研丨ISME:干旱土壤生态系统中微生物群落的生活史策略
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服