打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
快速 | 蛋白序列两两相似度矩阵计算

写在前面

Emmm,有时候,我们可能通过一些比对软件,如 BLAST , DIAMOND 或者 ghostz 得到一堆序列比对结果。当然,我们也可能从一些公共数据库如 NR, Swissprot 等下载一些序列。不可避免,会引入一些其实跟我们目标序列关联度不大的序列。如何快速识别,并去除这些序列,多少还是麻烦。
类似的场景,我遇到了几次,索性写个小工具来解决问题

蛋白序列两两相似度矩阵

使用简单,打开 「TBtools」对应功能

设置输入的 蛋白序列,随后点击 Compute 即可

计算结果即序列两两相似度矩阵

得到的矩阵,完全可以直接用 「TBtools」的 热图 功能直接可视化

可以简单的发现,确实混入了不少非本家族序列。可以通过各类方式,去掉不需要的序列,保留剩余的序列。用于其他分析....

当然,我们需要明白,多个序列的相似度计算,大体有两种模式:

  1. 所有序列进行多序列比对,后续两两计算

  2. 每两条序列分别做双序列比对,后续两两计算

两者区别即同源位点对齐的方式不同。前者在我们使用的序列都是同源序列,且长度完整时,优先选;在本例中常见,我们是明确知道存在异常序列,或者这个序列不是当前家族,或者这个序列有明显异常组成,那么后者合适。

写在最后

Emmm,随手一个小功能,我知道后面还会用到。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
蛋白质的结构与功能预测 | Public Library of Bioinformatics
高大上的生信技能:染色质构象捕获
lncRNA与蛋白结合预测数据库网站
核酸&蛋白序列分析
Mapman完全上手指南-Part_1(Mapman系列之三)
Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服