打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如何开展MLST自建库分析

细菌MLST分型怎么做?看这里~

2022实操培训第4讲-细菌MLST分型实操演示

一图胜千言-用堆积气泡图画MLST分型结果

一图胜千言-MLST在线绘图工具

以上分析都是针对已公开数据库进行的,比如pubmlst。那么,如果我的菌是一种尚未有公开mlst数据库的菌该怎么办呢?或者说,我想使用自己的mlst方法(换用别的基因 或者 多几个基因)开展分析,又该如何进行呢?

下面让我们一起试试看~

首先我们安装分析工具(注意:这里的安装依赖于conda。如未安装conda,请参考前贴安装《善用Bioconda,管理好自己的Linux工具库》)

conda install -c conda-forge -c bioconda -c defaults mlst# 如之前安装过,此步可跳过

然后,新建一个文件夹

mkdir mlst/db/pubmlst/YourSpecies#mlst为你安装后的mlst路径, YourSpecies为你自己取的名字,取啥都行,只要没有特殊符号并且不和也有文件夹重复就可以。

将我们准备好的文件放入到新建的文件夹下。

这里重点说明一下需要准备的文件。一个是列表文件(YourSpecies.txt, txt格式),还有多个是序列文件(*.tfa Fasta格式)。

列表文件示例:

ST      arcC    aroE    glpF    gmk     pta     tpi     yqiL    clonal_complex1       1       1       1       1       1       1       12       2       2       2       2       2       2       263       1       1       1       9       1       1       124       10      10      8       6       10      3       2

这里比较容易出问题。容易串,容易混,需要小心些~

个人建议,这个列表文件用excel表格整理,整理完成后再保存成txt格式。

这样能有效避免串行串列。

第一列为ST型别编号,注意唯一性,互相间不能重复。

最后一列为克隆群信息,如无可空着,但是表头要保留着。

第二列~倒数第二列,每一列为一个基因。相应的空格处的数字,代表其相应的基因型别。

需要准备的序列文件(*.tfa)数量也就是上表中的基因数。一个基因一个文件。

基因序列文件示例如下

>arcC_1TTATTAATCCAACAAGCTAAATCGAACAGTGACACAACGCCGGCAATGCCATTGGATACTTGTGGTGCAATGTCACAGGGTATGATAGGCTATTGGTTGGAAACTGAAATCAATCGCATTTTAACTGAAATGAATAGTGATAGAACTGTAGGCACAATCGTTACACGTGTGGAAGTAGATAAAGATGATCCACGATTCAATAACCCAACCAAACCAATTGGTCCTTTTTATACGAAAGAAGAAGTTGAAGAATTACAAAAAGAACAGCCAGACTCAGTCTTTAAAGAAGATGCAGGACGTGGTTATAGAAAAGTAGTTGCGTCACCACTACCTCAATCTATACTAGAACACCAGTTAATTCGAACTTTAGCAGACGGTAAAAATATTGTCATTGCATGCGGTGGTGGCGGTATTCCAGTTATAAAAAAAGAAAATACCTATGAAGGTGTTGAAGCG>arcC_2TTATTAATCCAACAAGCTAAATCGAACAGTGACACAACGCCGGCAATGCCATTGGATACTTGTGGTGCAATGTCACAAGGTATGATAGGCTATTGGTTGGAAACTGAAATCAATCGCATTTTAACTGAAATGAATAGTGATAGAACTGTAGGCACAATCGTAACACGTGTGGAAGTAGATAAAGATGATCCACGATTTGATAACCCAACTAAACCAATTGGTCCTTTTTATACGAAAGAAGAAGTTGAAGAATTACAAAAAGAACAGCCAGGCTCAGTCTTTAAAGAAGATGCAGGACGTGGTTATAGAAAAGTAGTTGCGTCACCACTACCTCAATCTATACTAGAACACCAGTTAATTCGAACTTTAGCAGACGGTAAAAATATTGTCATTGCATGCGGTGGTGGCGGTATTCCAGTTATAAAAAAAGAAAATACCTATGAAGGTGTTGAAGCG

注意,每条序列的名称必须为该基因的名字(与序列文件名相同),且基因后应跟着下划线和基因型别。例如arcC_1。

准备好所有的文件后,重新建库

mlst/scripts/mlst-make_blast_db

安装完成~~测试一下

mlst --scheme YourSpecies file.fasta

如果报错,大概率是需要准备的文件出了问题。或者是命名错误,或者是放错了地方。

请重新检查修正后,再重复以上步骤,直至运行正常。

以上,就是我们运用自己的数据库开展mlst分析的方法啦~

祝顺利~

长按关注




公众号名称:微微悦明

科学的乐趣是获得新知识的喜悦~

高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
二代测序数据分析服务
BioNumerics软件模块功能介绍(最新)
MPB:农科院牧医所赵圣国组-基于GraftM对功能基因进行物种注释
这个为生信学习打造的开源Linux教程真香
【专题笔谈】我国社区获得性耐甲氧西林金黄色葡萄球菌肺炎的现状及其基因诊断的意义
基因家族分析3 || 蛋白性质和序列分析
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服