打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
九万人都看不懂的视频
踩过的坑,才足够刻骨铭心!
这里正好推荐一下这个九万人都没有看懂的视频:https://www.bilibili.com/video/av28813815/?p=9
跑完一个RNA-SEQ项目,下意识的看了看bam文件大小,还有最后的文库统计情况,发现非常的 诡异,首先是bam文件大小就很奇特:
29M Apr 29 12:15 S12.bam
30M Apr 29 12:15 S1.bam
35M Apr 29 12:10 S22.bam
33M Apr 29 12:10 S2.bam
2.3G Apr 26 18:54 S8.bam
2.2G Apr 26 15:27 S7.bam
2.1G Apr 26 12:05 S4.bam
2.2G Apr 26 06:36 S18.bam
1.8G Apr 26 05:14 S19.bam
2.3G Apr 26 03:35 S6.bam
很明显,有4个样本应该是流程失败了,bam文件这么小,最开始推测是不是参考基因组使用错了,但是觉得不应该,这个项目都是同一个物种,不太可能部分样本失败部分样本成功。
然后我看到了文件名很有规律,失败的是 1, 12, 2,22 但是没有一眼看出来为什么,又转向其它项目了,只是把同样的代码重新跑一遍,以为是服务器问题。
因为RNA-SEQ项目我早就搭建好了,很少出这样的幺蛾子,这个坑有点类似于我三年前分享的:做过1000遍RNA-seq的老司机告诉你如何翻车
然后是文库统计情况:
是不是很有趣,看起来这4个样本只是文库偏小而已,并没有其它问题,所以我去检查fq文件,实际情况是他们的fq文件大小相当。
不过我这时候注意到了文件名的排序很诡异,灵光一现,想起来了我录制linux视频的时候,专门提到过的一个问题,就是sort的排序问题。
sort排序问题
这个问题来源于我自己的操作习惯,我制作配置文件一直使用
ls /home/jianmingzeng/rna/raw_data/*1.fq.gz > 1
ls /home/jianmingzeng/rna/raw_data/*2.fq.gz > 2
wc 1 2
cut -d"/" -f 8 1 |cut -d"_" -f 1
cut -d"/" -f 8 1 |cut -d"_" -f 1  > 0
paste 0 1 2  > config
而这个ls的顺序会出现,S1_1.fq.gz 高于 S12_1.fq.gz ,但是呢 S12_2.fq.gz 高于 S1_2.fq.gz是不是很诡异?
S1S1_1.fq.gzS12_2.fq.gz
S12S12_1.fq.gzS1_2.fq.gz
S2S2_1.fq.gzS22_2.fq.gz
S22S22_1.fq.gzS2_2.fq.gz
实际上这个问题,我早在linux视频里面讲解过!
关于这个视频为什么大家看不懂
因为要推荐这个系列视频才看了看B站弹幕,发现基本上留言的都是没有看懂的!
我也很纳闷,为什么听不懂呢?智商捉急吗
不建议这种命名方式
关于实验样本命名,其实我在全国巡讲经常拿出来说事的一个案例就很好的说明了它的重要性。(不能剧透,这里就不说了)
为什么是9万人看不懂
上面的17个留言是一个半表示能听懂,也就是10%左右,乘以我们的10万粉丝,就是9万人基本上是听不懂的,有点尴尬啊!
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
原创10000 生信教程大神给你的RNA实战视频演练
构建miRNA-seq数据分析环境
ATAC-seq分析全部流程
简化基因组数据分析实战(二):有参分析
比对软件-Bowtie2
NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服