打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
3000份水稻重测序数据全部公开

感觉最近接触的生物信息学知识越多,越对大数据时代的到来更有同感了。现在的研究者,其实很多都可以自己在家里做了,大量的数据基本都是公开的, 但是一个人闭门造车成就真的有限,与他人交流的思想碰撞还是蛮重要的。

https://aws.amazon.com/cn/blogs/aws/new-aws-public-data-set-3000-rice-genome/ https://aws.amazon.com/cn/public-data-sets/3000-rice-genome/ https://wiki.dnanexus.com/Featured-Projects/3000-rice-genomes 

这里面列出了3000多份水稻全基因组测序数据,都共享在亚马逊云上面,是全基因组的双端测序数据,共3,024个水稻数据,比对到了五种不同的水稻参考基因组上面,而且主要是用GATK来找差异基因的。 而且,数据收集者还给出了一个snp calling的标准流程!

其采用的找变异流程如下:

  1. SNP Pipeline Commands

  2. 1. Index the reference genome using bwa index

  3.   /software/bwa-0.7.10/bwa index /reference/japonica/reference.fa

  4. 2. Align the paired reads to reference genome using bwa mem.

  5.   Note: Specify the number of threads or processes to use using the -t parameter. The possible number of threads depends on the machine where the command will run.

  6.   /software/bwa-0.7.10/bwa mem -M -t 8 /reference/japonica/reference.fa /reads/filename_1.fq.gz /reads/filename_2.fq.gz > /output/filename.sam

  7. 3. Sort SAM file and output as BAM file

  8.   java -Xmx8g -jar /software/picard-tools-1.119/SortSam.jar INPUT=/output/filename.sam OUTPUT=/output/filename.sorted.bam VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE

  9. 4. Fix mate information

  10.   java -Xmx8g -jar /software/picard-tools-1.119/FixMateInformation.jar INPUT=/output/filename.sorted.bam OUTPUT=/output/filename.fxmt.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE

  11. 5. Mark duplicate reads

  12.   java -Xmx8g -jar /software/picard-tools-1.119/MarkDuplicates.jar INPUT=/output/filename.fxmt.bam OUTPUT=/output/filename.mkdup.bam METRICS_FILE=/output/filename.metrics VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000

  13. 6. Add or replace read groups

  14.   java -Xmx8g -jar /software/picard-tools-1.119/AddOrReplaceReadGroups.jar INPUT=/output/filename.mkdup.bam OUTPUT=/output/filename.addrep.bam RGID=readname PL=Illumina SM=readname CN=BGI VALIDATION_STRINGENCY=LENIENT SO=coordinate CREATE_INDEX=TRUE

  15. 7. Create index and dictionary for reference genome

  16.   /software/samtools-1.0/samtools faidx /reference/japonica/reference.fa

  17.   java -Xmx8g -jar /software/picard-tools-1.119/CreateSequenceDictionary.jar REFERENCE=/reference/japonica/reference.fa OUTPUT=/reference/reference.dict

  18. 8. Realign Target

  19.   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T RealignerTargetCreator -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -o /output/filename.intervals -fixMisencodedQuals -nt 8

  20. 9. Indel Realigner

  21.   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T IndelRealigner -fixMisencodedQuals -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -targetIntervals /output/filename.intervals -o /output/filename.realn.bam

  22. 10. Merge individual BAM files if there are multiple read pairs per sample

  23.   /software/samtools-1.0/samtools merge /output/filename.merged.bam /output/*.realn.bam

  24. 11. Call SNPs using Unified Genotyper

  25.   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T UnifiedGenotyper -R /reference/japonica/reference.fa -I /output/filename.merged.bam -o filename.merged.vcf -glm BOTH -mbq 20 --genotyping_mode DISCOVERY -out_mode EMIT_ALL_SITES

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
GATK4最佳实践-数据预处理篇
GATK使用(一)
GATK best practice每个步骤都是必须的吗?
Eclipse与Antenna整合开发J2ME程序
使用libjpeg处理图像(功能简陋)
AD5791应用电路
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服