打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
使用MISO进行可变剪切的分析

MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析,网址如下

https://miso.readthedocs.io/en/fastmiso/index.html#

这个软件支持exon和transcript两种水平的可变剪切分析,在rmats的文章中,我们也提到了rmats是从exon水平给出的可变剪切结果,因为二代测序读长短的特点,无法有效得到转录本全长,从exon水平得到的结果更加的准确,而且阳性结果更容易通过RT-PCR验证出来,但是无法详细的探究某个基因不同isoform之间的变化;transcript水平直接给出不同isoform间的定量和差异,能有效的探究基因不同isofrm的变化情况,但是结果准确性较差。

该软件是一个python包,直接通过pip就可以安装,分析的pipeline如下

1. 对参考基因组的GFF文件建索引

对于transcript水平的分析而言,只需要提供转录本的GFF文件,可以从Ensembl等数据库下载参考基因组的gtf文件,然后自己转换成GFF3格式;对于exon水平而言,需要提供已知的可变剪切事件的GFF格式文件,示意如下

chr1  SE      gene    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-;Name=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4774032 4774186 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.se;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Bchr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B

第二列表示可变剪切的类型,以外显子跳跃为例,ID的格式如下

chr1:4775654:4775821:-@chr1:4774032:4774186:@chr1:4772649:4772814

包含了用@符号隔开的3个外显子,中间的exon的跳过的外显子,第一个为上游的外显子,第二个为下游的外显子,对应如下示意图中的3个exon

transcript水平的GFF文件从数据库中下载即可,而exon水平的GFF文件是需要自己先识别可变剪切的不同isoform,然后整理得到的,对于人和小鼠等常见物种,官网提供了exon水平的GFF文件,链接如下

https://miso.readthedocs.io/en/fastmiso/annotation.html

准备好GFF文件之后,就可以建立索引了,命令如下

index_gff --index ensGene.gff3 index_db

index_db为索引保存的目录。

2. 运行miso

运行miso需要第一步建好的索引以及样本对应的bam文件,该bam文件必须是经过排序处理的,而且有对应的bai索引,对于双端数据,用法如下

miso --runindex_db algin.sorted.bam \  --output-dir out_dir --read-len 150 --paired-end 250 15 --settings-filename miso_settings.txt

read-len是reads的平均长度,paired-end代表插入片段长度的平均值和方差,miso_settings.txt是配置文件,内容如下

[data]filter_results = Truemin_event_reads = 20strand = fr-unstranded[sampler]burn_in = 500lag = 10num_iters = 5000num_processors = 4

配置文件中的参数很多,就不一一解释了,每个参数的意义请参考官方文档。
通过上述方式得到的结果可以直接用于后续的差异分析,但是这个结果不利于我们查看,所以官方提供了汇总程序,用法如下

summarize_miso --summarize-samples raw_out/ summary_out1

3. 样本间的差异分析

进行样本间差异分析的代码如下

compare_miso --compare-samples control case/ comparisons/

在输出目录,会生成一个后缀为bf的文件。

4. 对结果进行过滤

用法如下

filter_events --filter  case_vs_control.miso_bf --num-inc 1 --num-exc 1 --num-sum-inc-exc 10 --delta-psi 0.20 --bayes-factor 10 --output-dir filter_dir

5. 可视化

用法如下

sashimi_plot --plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" index_db/ sashimi_plot_settings.txt  --output-dir out_dir

sashimi_plot_settings.txt是配置文件,其中设置了样本的bam文件和可变剪切的输出结果,示例如下

[data]# directory where BAM files arebam_prefix = ./test-data/bam-data/# directory where MISO output ismiso_prefix = ./test-data/miso-data/bam_files = [    "heartWT1.sorted.bam",    "heartWT2.sorted.bam",    "heartKOa.sorted.bam",    "heartKOb.sorted.bam"]miso_files = [    "heartWT1",    "heartWT2",    "heartKOa",    "heartKOb"][plotting]# Dimensions of figure to be plotted (in inches)fig_width = 7fig_height = 5# Factor to scale down introns and exons byintron_scale = 30exon_scale = 4# Whether to use a log scale or not when plottinglogged = Falsefont_size = 6# Max y-axisymax = 150# Whether to plot posterior distributions inferred by MISOshow_posteriors = True# Whether to show posterior distributions as bar summariesbar_posteriors = False# Whether to plot the number of reads in each junctionnumber_junctions = Trueresolution = .5posterior_bins = 40gene_posterior_ratio = 5# List of colors for read denisites of each samplecolors = [    "#CC0011",    "#CC0011",    "#FF8800",    "#FF8800"]# Number of mapped reads in each sample# (Used to normalize the read density for RPKM calculation)coverages = [    6830944,    14039751,    4449737,    6720151]# Bar color for Bayes factor distribution# plots (--plot-bf-dist)# Paint them bluebar_color = "b"# Bayes factors thresholds to use for --plot-bf-distbf_thresholds = [0, 1, 2, 5, 10, 20]

最终会产生如下所示的结果

这种图称之为sashimi plot , 是一种专用于可变剪切可视化的图表,上述示意图表示的是一个外显子跳跃事件在不同样本中的表达情况,左下方是GFF文件中共的exon结构,左上方是每个样本中比对上exon的reads的可视化,采用了RPKM表示,不同剪切方式用曲线链接,曲线上标记的是比对上该区域的reads数目,不同分组的样本用不同颜色表示,右侧的图片是样本中对应的可变剪切的表达量值。

从这种图中,可以直观的看到两组样本间的可变剪切表达有无差异,上图中heartWT组中的表达量高于heartKO组。

实际分析时,由于需要手动整理可变剪切isofrom对应的gff文件,所以使用的难度较大,但是其提供的可视化功能是非常值得借鉴的。

·end·

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
对featureCounts来源的表达矩阵使用DEXSeq分析可变剪切
NGS数据格式之bed
我是如何做可变剪切
基于bam文件做可变剪切的软件leafcutter和rMATS的比较
使用ASProfile分析可变剪切事件
用LeafCutter探索转录组数据的可变剪切
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服