标题:VSEARCH: a versatile open source tool for metagenomics
出版时间:Published October 18, 2016
论文链接:
https://peerj.com/articles/2584/?utm_source=TrendMD&utm_campaign=PeerJ_TrendMD_0&utm_medium=TrendMD
之前我们首发文章解读了发表在Nature上的一篇文章,Nature: 地球微生物组计划首发成果。其中在数据处理部分,利用比较新的降噪方法Deblur得到OTU。但是Deblur去掉测序错误后,仍然存在嵌合体(Chimera)等扩增错误。接下来利用VSEARCH软件de novo去除chimera。看到这不禁对VSEARCH产生了兴趣,这是什么高大上的软件,以前怎么从来没听说过。但是搜索以后不禁一口老血吐出来,Abstract清楚的写着:It is designed as an alternative to the widely used USEARCH tool (Edgar 2010) forwhich the source code is not publicly available, algorithm details areonly rudimentarily described, and only a memory-confined 32-bit version isfreely available for academic use.
Edgar,R.C. 是生物信息界的大神级人物,之前宏基因组公众号有对他的介绍。粘过来一句话感受一下:Edgar,R.C. 之前是研究理论物理的,发表过5篇相关文章。后来转行到计算生物学,开发了一系列优秀的生物信息学软件和算法,如多序列比对MUSCLE(引用23507次)、序列比对和聚类USEARHCH (5556)、嵌合体识别UCHIME(3779)算法、OTU聚类UPARSE(1691)算法等。仅此四篇文章引用近3.5万次,有谁不服。
USEARCH只有32位是免费的,64位版收费,这也是Edgar, R.C.作为独立研究员的主要收入。而现在另一帮大佬们不想花钱买USEARCH,并且觉得USEARCH代码不开源、算法描述的不清楚,就自己开发了功能几乎完全一样的VSEARCH。
本文主要介绍了VSEARCH的主要功能,并使用VSEARCH version 2.0.3与USEARCH version 7.0.1090 和 8.1.1861进行了性能对比。两者的比较有兴趣的可以查看原文。但是现在VSEARCH已经出到了2.6.0版本,USEARCH也已经升级到了10.0.240版本。两者的性能应该都有了不小的提升,究竟孰优孰劣,还需要用了才知道。
简单粗暴放文章结论:
1. VSEARCH在搜索、聚类、嵌合体检测和重抽等过程准确性优于USEARCH。
2. 合并双端读长的准确性上两者能力相当。
3. VSEARCH在去重复与合并双端读长步骤速度快于USEARCH,但是在聚类和嵌合体检测上慢于USEARCH。
VSEARCH下载地址:
https://github.com/torognes/VSEARCH/releases
参考文献:
Rognes T, Flouri T, Nichols B, et al. VSEARCH: a versatile open source tool for metagenomics[J]. PeerJ, 2016, 4: e2584.
联系客服