以上分析都是针对已公开数据库进行的,比如pubmlst。那么,如果我的菌是一种尚未有公开mlst数据库的菌该怎么办呢?或者说,我想使用自己的mlst方法(换用别的基因 或者 多几个基因)开展分析,又该如何进行呢?
下面让我们一起试试看~
首先我们安装分析工具(注意:这里的安装依赖于conda。如未安装conda,请参考前贴安装《善用Bioconda,管理好自己的Linux工具库》)
conda install -c conda-forge -c bioconda -c defaults mlst
# 如之前安装过,此步可跳过
然后,新建一个文件夹
mkdir mlst/db/pubmlst/YourSpecies
#mlst为你安装后的mlst路径, YourSpecies为你自己取的名字,取啥都行,只要没有特殊符号并且不和也有文件夹重复就可以。
将我们准备好的文件放入到新建的文件夹下。
这里重点说明一下需要准备的文件。一个是列表文件(YourSpecies.txt, txt格式),还有多个是序列文件(*.tfa Fasta格式)。
列表文件示例:
ST arcC aroE glpF gmk pta tpi yqiL clonal_complex
1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 26
3 1 1 1 9 1 1 12
4 10 10 8 6 10 3 2
这里比较容易出问题。容易串,容易混,需要小心些~
个人建议,这个列表文件用excel表格整理,整理完成后再保存成txt格式。
这样能有效避免串行串列。
第一列为ST型别编号,注意唯一性,互相间不能重复。
最后一列为克隆群信息,如无可空着,但是表头要保留着。
第二列~倒数第二列,每一列为一个基因。相应的空格处的数字,代表其相应的基因型别。
需要准备的序列文件(*.tfa)数量也就是上表中的基因数。一个基因一个文件。
基因序列文件示例如下
>arcC_1
TTATTAATCCAACAAGCTAAATCGAACAGTGACACAACGCCGGCAATGCCATTGGATACT
TGTGGTGCAATGTCACAGGGTATGATAGGCTATTGGTTGGAAACTGAAATCAATCGCATT
TTAACTGAAATGAATAGTGATAGAACTGTAGGCACAATCGTTACACGTGTGGAAGTAGAT
AAAGATGATCCACGATTCAATAACCCAACCAAACCAATTGGTCCTTTTTATACGAAAGAA
GAAGTTGAAGAATTACAAAAAGAACAGCCAGACTCAGTCTTTAAAGAAGATGCAGGACGT
GGTTATAGAAAAGTAGTTGCGTCACCACTACCTCAATCTATACTAGAACACCAGTTAATT
CGAACTTTAGCAGACGGTAAAAATATTGTCATTGCATGCGGTGGTGGCGGTATTCCAGTT
ATAAAAAAAGAAAATACCTATGAAGGTGTTGAAGCG
>arcC_2
TTATTAATCCAACAAGCTAAATCGAACAGTGACACAACGCCGGCAATGCCATTGGATACT
TGTGGTGCAATGTCACAAGGTATGATAGGCTATTGGTTGGAAACTGAAATCAATCGCATT
TTAACTGAAATGAATAGTGATAGAACTGTAGGCACAATCGTAACACGTGTGGAAGTAGAT
AAAGATGATCCACGATTTGATAACCCAACTAAACCAATTGGTCCTTTTTATACGAAAGAA
GAAGTTGAAGAATTACAAAAAGAACAGCCAGGCTCAGTCTTTAAAGAAGATGCAGGACGT
GGTTATAGAAAAGTAGTTGCGTCACCACTACCTCAATCTATACTAGAACACCAGTTAATT
CGAACTTTAGCAGACGGTAAAAATATTGTCATTGCATGCGGTGGTGGCGGTATTCCAGTT
ATAAAAAAAGAAAATACCTATGAAGGTGTTGAAGCG
注意,每条序列的名称必须为该基因的名字(与序列文件名相同),且基因后应跟着下划线和基因型别。例如arcC_1。
准备好所有的文件后,重新建库
mlst/scripts/mlst-make_blast_db
安装完成~~测试一下
mlst --scheme YourSpecies file.fasta
如果报错,大概率是需要准备的文件出了问题。或者是命名错误,或者是放错了地方。
请重新检查修正后,再重复以上步骤,直至运行正常。
以上,就是我们运用自己的数据库开展mlst分析的方法啦~
祝顺利~
长按关注
公众号名称:微微悦明
科学的乐趣是获得新知识的喜悦~
高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享
联系客服