打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
根据转录本寻找可能的生物学功能信息

  今天是生信星球陪你的第282天


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!



依然是很容易上手的小工具
得到了组装的转录本,就可以根据这个去找潜在的生物学相关信息,比如编码区预测、注释等

利用TransDecoder 这个工具可以在转录本序列中寻找潜在的编码区,它先找到长的开放阅读框区域(ORFs)

TransDecoder.LongOrfs -t Trinity.fasta

然后根据序列组成打分

TransDecoder.Predict -t Trinity.fasta 

结果会得到一些带有transdecoder字符的文件

Trinity.fasta.transdecoder.bed
Trinity.fasta.transdecoder.cds
Trinity.fasta.transdecoder.gff3
Trinity.fasta.transdecoder.pep
Trinity.fasta.transdecoder_dir/
...

其中最关心的就是:Trinity.fasta.transdecoder.pep ,其中包含了预测的编码区对应的蛋白序列

$ less Trinity.fasta.transdecoder.pep
>TRINITY_DN107_c0_g1_i1.p1 TRINITY_DN107_c0_g1~~TRINITY_DN107_c0_g1_i1.p1  ORF type:internal len:175 (+),score=164.12 TRINITY_DN107_c0_g1_i1:2-523(+)
VPLYQHLADLSDSKTSPFVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKSFREAMRIG
SEVYHNLKSLTKKRYGSSAGNVGDEGGVAPDIQTAEEALDLIVDAIKAAGHEGKVKIGLD
CASSEFFKDGKYDLDFKNPNSDASKWLSGPQLADLYHSLVKKYPIVSIEDPFAE
>TRINITY_DN10_c0_g1_i1.p2 TRINITY_DN10_c0_g1~~TRINITY_DN10_c0_g1_i1.p2  ORF type:internal len:158 (-),score=122.60 TRINITY_DN10_c0_g1_i1:2-472(-)
TDQDKRYQAKMGKSHGYRSRTRYMFQRDFRKHGAIALSTYLKVYKVGDIVDIKANGSIQK
GMPHKFYQGKTGVVYNVTKSSVGVIVNKMVGNRYLEKRLNLRVEHVKHSKCRQEFLDRVK
SNAAKRAEAKAQGKAVQLKRQPAQPREARVVSTEGNV

这个文件中:header行包含了蛋白的ID信息、原始转录本ID信息、type信息、长度、正负链、打分信息、ORF坐标信息

其中type信息可能会出现:

  • complete:包含起始、终止密码子

  • 5prime_partial:可能是N端的一部分,但丢失起始密码子

  • 3prime_partial:可能是C端的一部分,但丢失终止密码子

  • internal:既有N端又有C端的部分

得到的.pep文件可以用于接下来的同源比对

刚得到转录本时就进行了一次SWISSPROT数据库的比对,目的是找到全长转录本;这里再利用得到的蛋白序列进行同源比对,只不过需要适当降低evalue,因此目前序列较之前转录本少许多

blastp -query Trinity.fasta.transdecoder.pep \
         -db mini_sprot.pep -num_threads 5 \
         -max_target_seqs 1 -outfmt 6 -evalue 1e-5 \
          > swissprot.blastp.outfmt6

另外可以用HMMER进行一个Pfam比对,找到可能的保守结构域

hmmscan --cpu 5 --domtblout TrinotatePFAM.out \
          Pfam-A.hmm \
          Trinity.fasta.transdecoder.pep

可以预测下信号肽、跨膜结构域信息

使用signalp预测信号肽

signalp -f short -n signalp.out Trinity.fasta.transdecoder.pep

看下结果

$ less signalp.out
##gff-version 2
##sequence-name source  feature start   end     score   N/A ?
## -----------------------------------------------------------
TRINITY_DN19_c0_g1_i1|m.141     SignalP-4.0     SIGNAL  1       18      0.553   .       .       YES
TRINITY_DN33_c0_g1_i1|m.174     SignalP-4.0     SIGNAL  1       19      0.631   .       .       YES

使用wc -l可以看预测了多少的信号肽

还可以使用tmhmm 预测跨膜结构区域

关于各种预测的软件信息:http://www.cbs.dtu.dk/services/software.php


去简书,获得更好的阅读体验哦😻

初学生信,很荣幸带你迈出第一步。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
基因预测软件ORFfinder
DN-公称直径与 Ф-外径对照表
建议收藏!基因功能注释及预测在线网站汇总
K&P 编织译——Trinity
RNA
Glimmer:识别微生物中的蛋白编码基因
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服