打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Bioinformatics | 港城大孙燕妮组开发新型RNA病毒的序列检测工具VirBot

VirBot: 一个针对宏基因组数据的RNA病毒contig检测工具

VirBot: an RNA viral contig detector for metagenomic data

Article,2023-2-15,Bioinformatics,[IF 6.93]

DOIhttps://doi.org/10.1093/bioinformatics/btad093

原文链接:https://academic.oup.com/bioinformatics/article/39/3/btad093/7043093

第一作者:Guowei Chen (陈国威)

通讯作者:Yanni Sun (孙燕妮)

合作作者:Xubo Tang (汤旭博);Mang Shi (施莽)

主要单位:

香港城市大学 (Department of Electrical Engineering, City University of Hong Kong, Kowloon, Hong Kong SAR, China )

中山大学 (School of Medicine, Shenzhen Campus of Sun Yat-sen University, Shenzhen, China)

- 摘要 -

在不依赖培养的情况下,宏基因组测序大大加快了对新型RNA病毒的检测。然而,从测序样本中准确识别RNA病毒序列并非易事。宏基因组数据中的RNA病毒含量低,这对检测器的特异性提出较高的要求;而新的RNA病毒可能表现出高度的基因多样性,又对基于比对的工具构成挑战。在这项工作中,我们开发了VirBot,这是一个简单而有效的RNA病毒识别工具,其基于蛋白质家族和相应的自适应比对分数阈值。我们在模拟和真实的测序数据上,对比测试了其他七种流行的病毒检测工具。VirBot在宏基因组数据集中显示出较高的精确率,在检测新型RNA病毒方面显示出卓越的灵敏度。

- 引言 -

RNA病毒具有高度的多样性,可以感染从浮游生物到人类的大量真核生物。据估计,感染真核生物的病毒的数量超过1亿种(RNA病毒占主导),已记录的RNA病毒少于估计数的0.1%。宏基因组和病毒宏基因组测序数据都是发现病毒的主要来源。然而,这两种类型的数据都可以包含不同来源的生物体。为了从混合数据中识别RNA病毒,不同的检测工具采用了不同的方法,如通用比对工具、或有针对性的病毒检测工具。但是,它们在检测来自全新样本的短RNA病毒片段时难以得到较好的综合评分。

在这项工作中,我们介绍了VirBot,一个易于使用但有效的宏基因组数据的RNA病毒检测工具。它将组装好的contigs作为输入,并检测出来自RNA病毒的contigs。此外,它还为检测到的RNA病毒输出进一步分类标签。我们在各类样本中测试了VirBot的性能,并将其与其他RNA病毒检测工具进行比较。在只包含新型RNA病毒的样本中,VirBot取得了比其他工具更高的灵敏度。而且,VirBot在只包含少量RNA病毒的宏基因组测序数据中也表现出了高精确率。

VirBot使用我们自建的蛋白质家族来检测RNA病毒,并使用了特定的比对分数阈值来进行判别。分析显示,RNA病毒的蛋白质序列比其核酸序列更加保守。一些蛋白质,如RNA依赖性RNA聚合酶(RdRp)、capsid蛋白、和包膜蛋白,已被广泛用于对RNA病毒进化和发育的研究。我们以前的工作利用了RdRp,并贡献了一个灵敏的RNA病毒序列发现工具。然而,仅使用RdRp是非常局限的,因为短的contig不一定能覆盖RdRp基因。因此,我们通过对22281个非冗余RNA病毒蛋白进行聚类,构建我们自己的RNA病毒蛋白家族,并使用来自Uniprot和RefSeq的814991个非RNA病毒蛋白确定各蛋白家族的比对分数阈值。最后,共得到了1384个蛋白家族和3927个独立蛋白,即不能聚类成蛋白家族的单个蛋白序列。我们使用pHMMs在所有的蛋白家族上构建概率模型,以加强同源性搜索,并根据各家族中每个序列的已知分类标签提供初步的分类预测。与以前的工具不同,我们没有使用公共的蛋白质家族数据库,如Pfam,因为它没有针对RNA病毒进行优化。例如,RdRp是一种负责RNA复制的基本蛋白。在Pfam(35.0)中用关键词 "rdrp "进行搜索时,返回73个pHMMs,其中只有13个是由病毒RdRp构建的。专门为RNA病毒构建的RdRp家族数量非常少,这与RNA病毒种类繁多的事实不相符。关于蛋白质家族数据库的构建、自适应分数阈值的确定、以及为每个家族的分配分类标签的细节可以参考补充材料。图1描述了VirBot的预测流程:将输入的基因片段根据我们的蛋白质家族数据库和独立蛋白进行预测,并对其细分分类标签进行投票选取。

图1 VirBot的关键模块简图及其工作流程。

- 结果 -

在模拟宏基因组测序数据上的性能

我们首先使用一个模拟数据集对VirBot进行了评估,该数据集混合了RNA病毒和其他物种。我们下载了两个模拟的海洋宏基因组样本(NCBI SRA ID: ERR1992810, ERR2185279),它们被用作评估宏基因组分析工具的基准数据集。它们是半合成的数据集,由来自82种真核生物、365种原核生物和DNA/RNA病毒的读段组成。为了模仿真实的海洋测序样本,数据发布者从真实的数据中生成了测序错误分布文件,将模拟的混乱读段当作未知读段整合进样本,并添加了低丰度的RNA病毒序列。由于基因组组装工具会直接影响病毒检测性能,我们还考虑了两个流行的宏基因组组装程序(MEGAHIT和SPADES)。我们根据NCBI原有的分析,使用Megablast将所有contigs与确定的RNA病毒的基因组进行比对,生成了contigs的标签。

图2 在模拟样本ERR1992810和ERR2185279(MEGAHIT)中的检测性能。图中从左到右是500bp和1000bp组的情况。在ERR2185279中,由于精确率低,VirSorter2和VirFinder的F1分数几乎为零。

在用不同工具组装的序列上,我们都测试了所有检测工具,并在图2、图3中记录了它们的灵敏度、精确率和F1分数。VirBot在这些样本中显示出较好的F1得分。在灵敏模式下,我们通过DIAMOND模块来利用单体蛋白质,所有样本的灵敏度都上升到100%。在图2(b)中,21个假阳性序列是由DIAMOND模块引入的,3个由HMMER模块引入。而24个序列中的13个与原癌基因或肿瘤基因存在相似性,这显示了RNA病毒鉴定中的一个难点。为了更精确的检测,我们建议使用VirBot的默认模式,而非灵敏模式。此外,我们还测试了VirBot在其默认的TOP模式下的病毒序列分类准确率。对于ERR1992810和ERR2185279中那些正确检测到的RNA病毒序列,VirBot的分类标签准确率达到了100%。

图3 在模拟样本ERR1992810和ERR2185279(SPADES)中的检测性能。图中从左到右分别为500bp、1000bp和3000bp组。ViralVerify只在3000bp组上进行了评估,因为它只接受长于3000bp的序列。

RNA病毒具有高度的多样性,使得宏基因组数据中的RNA病毒检测变得困难。在过去的研究中,保守的蛋白质家族已经成功地被用于新型细菌的检测。但由于RNA病毒缺乏标志基因,妨碍了该方法在RNA病毒检测中的进一步应用。VirSorter2和viralVerify利用了RdRp和Pfam数据库。但RNA病毒pHHMs的数量有限,降低了其对RNA病毒检测的灵敏度。在这项工作中,我们为已知的RNA病毒构建了一个全面的蛋白家族数据库,并将RNA病毒pHMMs的数量增加了1384个。为了验证它们对RNA病毒和其他生物序列的区分能力,我们研究了RNA病毒序列和大量其他生物体序列在这些pHMMs上的比对分数分布。考虑到一些RNA病毒的蛋白质与DNA病毒或细胞生物的蛋白质有同源区域,我们为每个蛋白质家族设置了自适应的的分数阈值,而不是使用固定的阈值。使用该方法,我们开发了基于RNA病毒pHMMs的VirBot。与使用固定的阈值(如E-value)相比,使用自适应分数阈值的VirBot在模拟数据中的精确率从8.8%提高到97.4%,如表1所示。

表1 使用自适应分数阈值与固定阈值在模拟数据集上的比较(>500bp)。

发现新型RNA病毒

为了评估VirBot识别新型RNA病毒的能力,我们使用了三个包含新测序RNA病毒的数据集。一个包括以前几乎没有检测到的8849个RNA噬菌体(真核生物病毒在已知的RNA病毒中占主导地位)。第二个数据集是一个从海水中测序的RNA病毒组样本,包含114139个RNA病毒序列。第三个数据集是由5504个、从全球海洋资源中检测到的、非冗余的、包含病毒RdRp区域的序列组成。如图4所示,对不同长度的RNA病毒序列,VirBot都具有最高的灵敏度。

图4 在新型RNA病毒数据集上的灵敏度。

(a)在RNA噬菌体数据集上的表现;(b)在海水RNA病毒组样本上的表现;(c)在全球海洋RNA病毒数据集上的表现。

此外我们也讨论了VirBot所检测出的病毒序列与其他工具的重合程度。我们为VirBot检测到的序列(≥500bp)绘制了维恩图,其中涉及两种基于比对的方法DIAMOND和MMseqs2,一种无需比对的方法VirFinder,以及一种混合方法VirSorter2。结果显示在图5中。在RNA噬菌体数据集中,这五种工具从8849个RNA病毒序列中检测到7865个序列,VirBot检测到7865个序列中的94.3%。在海水RNA病毒群样本中,从114139个RNA病毒序列中检测到65527个序列,VirBot检测到65527个序列中的66.4%。VirBot贡献了最多的识别序列。然后我们分析了VirBot和其他工具之间的输出一致性。对于由VirBot检测到的序列,有79.6%和78.1%可以被三个或更多的工具识别。VirBot和其他工具之间的大量检测重叠表明了VirBot结果的可靠性。此外,有9.7%和10.1%的检测序列是由VirBot唯一识别。另一方面,尽管VirFinder唯一识别了海洋水体RNA病毒组样本中28.8%的检测序列,但其灵敏度有限(3000bp组中为52.3%)。这可能是由于VirFinder没有针对RNA病毒进行优化。合并上述五个工具,在两个数据集中分别有11.1%和42.6%的未检测到的序列,这暗示着又一个RNA病毒检测的难点。

图5 各检测工具所得结果的重叠情况。

(a)在RNA噬菌体数据集上的重叠情况;(b)在海水RNA病毒组样本上的重叠情况。

VirBot的高灵敏度并不仅仅源于使用pHMMs。为了验证这一点,我们将Pfam应用于检测新型RNA病毒,结果见表3。这清楚地表明,仅仅使用Pfam的pHMMs并不能导致RNA病毒检测的高灵敏度。

表3 在RNA病毒数据集中检测Pfam-A 35.0和VirBot的灵敏度。上方为RNA噬菌体数据集的检测结果,下方为海水RNA病毒组测序样本的检测结果(>500bp)。

在真实宏基因组测序数据上的性能

为了评估VirBot在真实的宏基因组测序数据上的表现,我们还在人类临床样本上测试了VirBot。我们利用了Shi等人发表的21个支气管肺泡灌洗液测序样本。这些样本收集自肺炎或急性呼吸道感染的患者,并被证实携带13种不同的RNA病毒病原体。VirBot成功地检测出了所有被记录的RNA病毒病原体。除了已确认的RNA病毒病原体,VirBot还检测到一些未报告的已知RNA病毒和新型RNA病毒序列。VirBot在不同组别中取得了99.3%的平均灵敏度和99.2%的平均精确率。对于那些被记录的RNA病毒序列,我们评估了VirBot对RNA病毒分类的准确性。其中25.2%的序列被分配为species,21.4%为genus,52.4%为family。它的平均准确率达到了94.9%,显示出其在临床诊断中的潜在适用性。表1显示了每个样本的分类准确性。在乙型流感病毒(IVB)样本中,准确率下降到42.9%和50%,因为VirBot将IVB的一些片段错误地分类为IVA,而IVA与IVB同属一个科。VirBot还检测出总共140个与已知核苷酸序列相似度不大的新型RNA病毒序列。结果见表3。

表3 VirBot在人类临床样本上的表现

讨论

在这项工作中,我们为RNA病毒构建了一个全面的蛋白家族数据库,并利用大量的非RNA病毒蛋白得出了自适应的比对分数阈值。我们在这些RNA病毒pHMMs的基础上开发了VirBot,用于在宏基因组数据中灵敏且快速地检测RNA病毒。我们的pHMMs是专门为RNA病毒设计的,比其他基于pHMM的工具显示出更高的灵敏度。与使用固定的阈值(建议的E-value)相比,VirBot在模拟数据中的精确率从8.8%提高到97.4%,体现出其高度的特异性。此外,我们在VirBot中嵌入了一个RNA病毒分类模块,该模块在人类RNA病毒病原体检测中的平均准确率达到了94.9%。我们在Github上提交了相关代码,使用指南,和测试数据,欢迎有需要的研究人员使用https://github.com/GreyGuoweiChen/RNA_virus_detector

参考文献

Guowei Chen, Xubo Tang, Mang Shi & Yanni Sun. (2023). VirBot: an RNA viral contig detector for metagenomic data. Bioinformatics, doi: https://doi.org/10.1093/bioinformatics/btad093

- 作者简介 -

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
热点翻译 | 临床宏基因组学
宏基因组测序在感染性疾病中的应用与反思
为什么核酸能检测新冠病毒
宏基因组检测技术与病原体检测结果解读分析
宏基因组分析和诊断技术在急危重症感染应用的专家共识
基因测序为何代替不了基因芯片以及 PCR?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服