打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
seqtk抽取reads

做测序数据分析经常要从原始的raw reads里面抽取部分做分析。

比如说不同样本之间的比较,不同平台之间的比较,以及不同的产品之间的比较等等。只有相同的起始reads数进行后续的分析,这样的比较才是一个合理且公正的比较。那么怎么随机抽取一定的数目的reads呢?

今天给大家安利一个小工具,叫seqtk

https://github.com/lh3/seqtk

比如说我们要从pair end的原始fastq文件中抽取10000条reads,可以用下面的命令。其中-s是seed,控制随机抽取,但是要注意在抽R1和R2的时候,一定要用相同的seed,这样才能保证抽出来的R1和R2仍然是配对的,否则有可能会错位。后面10000表示抽取的reads数目。

seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq

除了可以指定抽取的reads条数以外,还可以指定抽取的百分比,比如下面的命令就是抽取原始reads的一半。

seqtk sample -s100 read1.fq 0.5 > sub1.fq
seqtk sample -s100 read2.fq 0.5 > sub2.fq

这里还有一个小技巧,如果原始文件是压缩文件,也可以直接使用seqtk进行抽取,不需要先解压。不过抽出来的reads需要使用管道,进行压缩。这样才能保证抽完还是压缩文件。

seqtk sample -s100 read1.fq.gz 10000 | gzip > sub1.fq.gz
seqtk sample -s100 read2.fq.gz 10000 | gzip > sub2.fq.gz
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
lncRNA组装流程的软件介绍之seqtk
GEO专题 | 高通量测序数据的GEO上传攻略!
使用bowtie2去除宿主序列
简化基因组数据分析实战(二):有参分析
迅速提高序列拼接效率,得到后续分析友好型输入,依托qiime
使用SOAPfuse进行融合基因的分析
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服