如何开展MLST自建库分析

以上分析都是针对已公开数据库进行的，比如pubmlst。那么，如果我的菌是一种尚未有公开mlst数据库的菌该怎么办呢？或者说，我想使用自己的mlst方法（换用别的基因或者多几个基因）开展分析，又该如何进行呢？

下面让我们一起试试看~

首先我们安装分析工具（注意：这里的安装依赖于conda。如未安装conda，请参考前贴安装《善用Bioconda，管理好自己的Linux工具库》）

conda install -c conda-forge -c bioconda -c defaults mlst# 如之前安装过，此步可跳过

然后，新建一个文件夹

mkdir mlst/db/pubmlst/YourSpecies#mlst为你安装后的mlst路径, YourSpecies为你自己取的名字，取啥都行，只要没有特殊符号并且不和也有文件夹重复就可以。

将我们准备好的文件放入到新建的文件夹下。

这里重点说明一下需要准备的文件。一个是列表文件（YourSpecies.txt, txt格式），还有多个是序列文件（*.tfa Fasta格式）。

列表文件示例：

ST      arcC    aroE    glpF    gmk     pta     tpi     yqiL    clonal_complex1       1       1       1       1       1       1       12       2       2       2       2       2       2       263       1       1       1       9       1       1       124       10      10      8       6       10      3       2

这里比较容易出问题。容易串，容易混，需要小心些~

个人建议，这个列表文件用excel表格整理，整理完成后再保存成txt格式。

这样能有效避免串行串列。

第一列为ST型别编号，注意唯一性，互相间不能重复。

最后一列为克隆群信息，如无可空着，但是表头要保留着。

第二列~倒数第二列，每一列为一个基因。相应的空格处的数字，代表其相应的基因型别。

需要准备的序列文件（*.tfa）数量也就是上表中的基因数。一个基因一个文件。

基因序列文件示例如下

>arcC_1TTATTAATCCAACAAGCTAAATCGAACAGTGACACAACGCCGGCAATGCCATTGGATACTTGTGGTGCAATGTCACAGGGTATGATAGGCTATTGGTTGGAAACTGAAATCAATCGCATTTTAACTGAAATGAATAGTGATAGAACTGTAGGCACAATCGTTACACGTGTGGAAGTAGATAAAGATGATCCACGATTCAATAACCCAACCAAACCAATTGGTCCTTTTTATACGAAAGAAGAAGTTGAAGAATTACAAAAAGAACAGCCAGACTCAGTCTTTAAAGAAGATGCAGGACGTGGTTATAGAAAAGTAGTTGCGTCACCACTACCTCAATCTATACTAGAACACCAGTTAATTCGAACTTTAGCAGACGGTAAAAATATTGTCATTGCATGCGGTGGTGGCGGTATTCCAGTTATAAAAAAAGAAAATACCTATGAAGGTGTTGAAGCG>arcC_2TTATTAATCCAACAAGCTAAATCGAACAGTGACACAACGCCGGCAATGCCATTGGATACTTGTGGTGCAATGTCACAAGGTATGATAGGCTATTGGTTGGAAACTGAAATCAATCGCATTTTAACTGAAATGAATAGTGATAGAACTGTAGGCACAATCGTAACACGTGTGGAAGTAGATAAAGATGATCCACGATTTGATAACCCAACTAAACCAATTGGTCCTTTTTATACGAAAGAAGAAGTTGAAGAATTACAAAAAGAACAGCCAGGCTCAGTCTTTAAAGAAGATGCAGGACGTGGTTATAGAAAAGTAGTTGCGTCACCACTACCTCAATCTATACTAGAACACCAGTTAATTCGAACTTTAGCAGACGGTAAAAATATTGTCATTGCATGCGGTGGTGGCGGTATTCCAGTTATAAAAAAAGAAAATACCTATGAAGGTGTTGAAGCG

注意，每条序列的名称必须为该基因的名字（与序列文件名相同），且基因后应跟着下划线和基因型别。例如arcC_1。

准备好所有的文件后，重新建库

mlst/scripts/mlst-make_blast_db

安装完成~~测试一下

mlst --scheme YourSpecies file.fasta

如果报错，大概率是需要准备的文件出了问题。或者是命名错误，或者是放错了地方。

请重新检查修正后，再重复以上步骤，直至运行正常。

以上，就是我们运用自己的数据库开展mlst分析的方法啦~

祝顺利~

长按关注

公众号名称：微微悦明

科学的乐趣是获得新知识的喜悦~

高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。