打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
IGV-基因组浏览器-改造记录(五)

写在前面

IGV是目前广泛使用的基因组浏览器。但在前述的推文中,我们已经提到过,其并没有较多我们做小RNA数据分析或可视化所需的特性。为此,我们已经介绍了四处我们课题组对IGV修改。我的意思是,我们做了的IGV特性增强,远远不止于此
今天抽空,摆出一个非常简单,却非常有用的特性

小RNA测序数据特征

小RNA,长度往往在30bp以下。十年前的读长,足以一次将小RNA成熟体测通。换言之,我们得到的都是sRNA全长转录本。高度重复是小RNA数据固有特征。除去较多重复区域产生的sRNA,剩余的sRNA仍然在数据中表现出高丰度。有可能,在10M数据中,某个micro RNA的丰度是1M+。

小RNA数据快速分析逻辑与不足

基于这一数据特征,我们进行miRNA或者phasiRNA挖掘等分析时,我们常常会先进行数据的collaspe,大体是,如果一个sRNA的丰度是1000,那么我们会合并这个reads,并记录为

>id-1000CGATCGATCAGTGTTGGTTTT

随后再进行读段回帖和下游分析。这是一个非常机智的做法,

  1. 因为对于一套“高重复”的数据,直接比对,我们需要处理10M个reads的比对,而collaspe之后,我们只需要处理可能只有10K个reads的比对。(截图不全,时间数倍,对于更高深度,如目前最建议的30M,那么会有更明显的时间缩短)

  2. collapsed之后,数据将占用更少的硬盘,比对结果文件同样减少许多。(数据量较少,对于更高深度,如目前最建议的30M,那么会有更明显的硬盘空间节省)

一切看起来都没有问题,但当我们想要在IGV上展示时,我们会发现,问题出现了。collasped的reads比对到genome的bam,无法在IGV上正常显示出reads的丰度。
如下,

可以看到Collasped之后,看到的覆盖率,事实上是uniqreads的数目,从左侧,40+,而实际数据应该是 1700+。错误的展示覆盖率,会影响我们做真实的判断。

改造IGV使其实时解析.collasped.fa.bam

解决这个问题,其实一样比较简单,我们可以改造IGV(而事实上,我们已经在之前的版本支持了,只是没有推文)。**改造之后,我们可以直接在IGV导入collasped之后的bam文件,同时可以得到实际数据应该有的覆盖率**。

不止于此!为了加速IGV,事实上,我们需要使用其downsample的特性,然而,使用这一特性意味着,低丰度的reads会被忽略,如左图missing部分。我们可以看到 ,当我们进行实时解析mc.fa的时候,就没有这种问题。因为我们需要的绘图时间。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
bulk RNA
独家!号外!sRNAanno数据库又双叒叕有新动作:第二版强势来袭
华南农业大学夏瑞课题组发布植物小RNA注释数据库
IGV软件使用指南
可视化工具之 IGV 使用方法
直播我的基因组(第一阶段)完整目录
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服