[toc]
这部分主要用于注释功能,使用的还是之前分组装的结果(spades) ,其实之前已经对这个组装序列进行过多次物种和功能注释,例如megan一站式注释物种和功能。kraken注释物种信息等。这些通过contig注释的物种结果已经有重复了,但是今天要注释的是kegg和pfam数据库,又增加了两种数据库的注释。
下载地址:http://uproc.gobics.de/#downloads手动安装:
./configure
make
sudo make install#
出现错误:动态库找不到,一般需要升级一下。
uproc-prot: error while loading shared libraries: libuproc.so.2: cannot open shared object file: No such file or directory
更新ubuntu动态库:
# 更新
sudo apt-get upgrade
更新后再次运行安装命令,完成安装。
这两个数据库目前都是uproc所支持的。也在官方网站上可以下载数据库。
uproc-prot --preds -o ./genecatalog/spades/longreads/allgenecalled.uproc.kegg.txt ~/db/uproc/kegg_20140317 ~/db/uproc/model ./genecatalog/spades/longreads//allgenecalled.faa.gz
uproc-prot --preds -o ./genecatalog/spades/longreads//allgenecalled.uproc.pfam.txt ~/db/uproc//pfam28/ ~/db/uproc/model ./genecatalog/spades/longreads/allgenecalled.faa.gz
完成注释后,我们将这些注释文件添加到覆盖度文件中。即可得到物种,功能对应的表格。
虽然uproc具有自建数据库的功能,但是说实话还是比较困难的,主要是我没有找到合适的文档,具体说明如何构建数据库,只是知道简单的命令,出现错误我暂时无法解决,网络上也没有什么好的文档,希望大家尝试尝试,和我交流。你也可以构建seed,等数据库。
mkdir /home/wentao/db/uproc/cog
cd /home/wentao/db/uproc/cog
# 手动制作cog数据库
wget ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/prot2003-2014.fa.gz
wget ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/cog2003-2014.csv
cd /home/wentao/db/uproc
uproc-makedb ./model ./cog/ ./cog
错误: 由于这个流程并没有使用COG的数据,所以这个错误就先留着吧!
fwd.ecurve: [ ] 0.0%error building ecurves: success
简介未测试,仅仅为备忘。
wget ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/prot2003-2014.fa.gz
wget ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/cog2003-2014.csv
wget ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/cognames2003-2014.tab
wget ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/fun2003-2014.tab
diamond makedb --threads <number_of_threads> --in prot2003-2014.fa.gz --db cog.dmnd
# uproc-prot --preds -o ./genecatalog/spades/longreads//allgenecalled.uproc.cog.txt /data/db/uproc/cog2014/ /data/db/uproc/model ./genecatalog/spades/longreads/allgenecalled.faa.gz
终!
联系客服