打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
你知道你的二代测序数据来自于哪个平台吗
准备上传数据时发现一个有趣的问题,自己不知道数据来自于哪个illumina的哪个测序平台,所以整理下如何根据FASTQ的标识行分析测序数据的来源
FASTQ格式文件中每个read由四行描述,如下:
@HWI-ST1327:30:C18RRACXX:8:1101:10939:1992 1:N:0:ACCAAT
AGGACCCGAAAGATGGTGATGGAATTCTCGGGTGCCAAGGAACTCCAGTC
+
DDFFFHHHHHJIIIJJHIHIJJJJIJIIJJJJDGHIJJJJIJJJJJJJIJ
其中illumina测序标识符和测序仪器线索相关的内容为就是第一行中 HWI-ST1327部分,用于说明来自于什么测序平台。
根据10X公司的脚本,illumina_instrument.py,整理出如下内容
测序仪器平台编号
MiSeqHWI-M
Genome Analyzer IIxHWUSI
HiSeq 1500HWI-C 或 C
Hiseq 2500HWI-D 或 D
Hiseq 3000J
HiSeq 3000 或 HiSeq 4000K
HiSeq XE
NextSeqNB或NS
MiniSeqMN
举几个例子:
'@E00591:243:HLK2YCCXY:3:1101:4411:1608 1:N:0:AGCAGGAA' 包含E,也就是HiSeq X平台,
'@ST-E00314:132:HLCJTCCXX:6:2206:31213:47966 1:N:0' 虽然开头是ST,但是后续跟着E,那么还是HiSeq X。
大部分情况都能解决问题,但是如果你遇到了'@HISEQ:739:CCGERANXX:7:1101:9617:1309 1:N:0:NATCCGTC' 这种编号的话,那么就得求助这里面的'CCGERANXX'这9个字符组成的FCID
还是根据illumina_instrument.py脚本里的内容,查询以C开头,ANXX结尾的是'HiSeq 1500', 'HiSeq 2000', 'HiSeq 2500',我们将范围缩减到了3个平台。同时我们还可以查询每个测序仪器的测序读长范围。
根据我整理的表格,至少能够区分250bp , 以及小于100bp的FASTQ数据来源。
测序仪型号最长读长数据量
HiSeq X2 x 150 bp1.6–1.8 Tb
NovaSeq 60002 x 150 bp134–6000 Gb
HiSeq 40002 x 150 bp125–1500 Gb
HiSeq 3000(过时,不用)2 x 150 bp
HiSeq 25002 x 250bp9 –1000Gb
HiSeq 20002 X 100 bp36 - 200Gb
NextSeq2x 150bp20–120 Gb
考虑HiSeq 1500 基本不用,最后就只有2个选项,最后比较下每个读段长度,就能分析出具体的平台了
参考资料
- https://github.com/10XGenomics/supernova/blob/master/tenkit/lib/python/tenkit/illumina_instrument.py
- Illumina的仪器说明
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【专题】第二代测序技术漫谈
细菌16S rRNA基因测序平台比较
文件格式——fastq格式
下一代测序技术(NGS)展望
Illumina HiSeq 2500
数据模拟软件ART
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服