打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
再次说明md5检查文件完整度的重要性

最近服务器又停电,发现几个星期前提交的项目失败了几个样本:

P5_DCIS 
P2_Norm 
P4_DCIS 
P2_DCIS
P9_DCIS 
P10_Norm
P9_Norm

所以我就去检查 clean 数据

gunzip -t P10_Norm_Exome_1_val_1.fq.gz
gunzip -t P10_Norm_Exome_2_val_2.fq.gz
gunzip -t P2_DCIS_Exome_1_val_1.fq.gz
gunzip -t P2_DCIS_Exome_2_val_2.fq.gz
gunzip -t P2_Norm_Exome_1_val_1.fq.gz
gunzip -t P2_Norm_Exome_2_val_2.fq.gz
gunzip -t P4_DCIS_Exome_1_val_1.fq.gz
gunzip -t P4_DCIS_Exome_2_val_2.fq.gz
gunzip -t P5_DCIS_Exome_1_val_1.fq.gz
gunzip -t P5_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_DCIS_Exome_1_val_1.fq.gz
gunzip -t P9_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_Norm_Exome_1_val_1.fq.gz
gunzip -t P9_Norm_Exome_2_val_2.fq.gz

发现的确是clean数据有问题,如下:

gzipP10_Norm_Exome_2_val_2.fq.gzinvalid compressed data--format violated
gzipP1_DCIS_Exome_1_val_1.fq.gzinvalid compressed data--format violated
gzipP2_DCIS_Exome_2_val_2.fq.gzinvalid compressed data--format violated
gzipP2_Norm_Exome_1_val_1.fq.gzinvalid compressed data--format violated

那这样就有两种可能,第一是Trim Galore 运行失败,第二是raw 数据有问题

首先检查log日志,发现6个样本都是Trim Galore 运行失败,而最后的P9_Norm是raw数据有问题

那么就对P9_Norm是raw数据重新运行 Trim Galore ,报错如下:

This is cutadapt 1.18 with Python 2.7.16
Command line parameters: -f fastq -e 0.1 -q 25 -O 3 -a AGATCGGAAGAGC /home/yb77613/data/public/IDC-DCIS/raw_fq/P9_Norm_Exome_1.fastq.gz
Processing reads on 1 core in single-end mode ...
cutadapt: error: At line 3: Sequence descriptions in the FASTQ file don't match ('SRR6269872.30075503 30075503 68 length=76' != 'SRR6269872.30075468 30075468 length=76').
The second sequence description must be either empty or equal to the first description.

Cutadapt terminated with exit signal: '256'.
Terminating Trim Galore run, please check error message(s) to get an idea what went wrong...

然后检查了:

$zcat P9_Norm_Exome_1.fastq.gz |grep SRR6269872.30075503
@SRR6269872.30075503 30075503 68 length=76
@SRR6269872.30075503 30075503 68 length=76

gzip: P9_Norm_Exome_1.fastq.gz: invalid compressed data--format violated

没办法理解为什么两条一模一样的reads会出现在这个fq文件里面。

检查原始md5值是:MD5 (P9_Norm_Exome_1.fastq.gz) = d8bfa6d7fb25fc5b51601fefd635e033
检查拷贝的md5值是:95c956d83fc51ae467922c228e8c6df1 P9_Norm_Exome_1.fastq.gz

既然同样的文件md5值不一样,所以确定是拷贝的时候出现了问题。

顺便检查了 右端测序数据:

$md5sum  P9_Norm_Exome_2.fastq.gz
426bcc6ccb1168c69624170443d23e29  P9_Norm_Exome_2.fastq.gz

(qc) jianmingzengs-iMac:IDC jmzeng$ md5 P9_Norm_Exome_2.fastq.gz 
MD5 (P9_Norm_Exome_2.fastq.gz) = 426bcc6ccb1168c69624170443d23e29

好吧,也就是说,重新上传那个拷贝失误的数据即可。

但其实我并不明白为什么gz格式的fq文件拷贝会出现意外?一条reads会出现两次?

      ■ 

全国巡讲约你


第1-10站北上广深杭,西安,郑州, 吉林,武汉和成都(全部结束)

七月份我们不外出,只专注单细胞!

系统学习单细胞分析,报名生信技能树的线下培训,手慢无

一年一度的生信技能树单细胞线下培训班火热招生

全国巡讲第11站-港珠澳专场(生信技能树爆款入门课)

全国巡讲第12站-北京(生信技能树爆款入门课)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
原创10000 生信教程大神给你的RNA实战视频演练
肿瘤外显子数据处理系列教程​(二)质控与去接头
NGS基础 - FASTQ格式解释和质量评估
2-跟着science学习宏基因组-去除宿主-评估测序质量是否足够
MPB:遗传发育所刘永鑫等-易扩增子:易用、可重复和跨平台的扩增子分析流程
使用bowtie2去除宿主序列
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服