打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基因组的那些事儿(二)

 今天是生信星球陪你的第386天


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!


继续整理之前写的直播基因组优质内容,这一次介绍基因组分析两种基本思路
基因组的那些事儿开篇:https://www.jianshu.com/p/bf871522ea20

思路一:科研分析

测完了基因组,会得到大量的数据,最有价值的分析就是通过与参考基因组的比对,来找出不一样的地方,得到VCF文件(储存序列变异的文本文件格式,tab分割)。另外,并非所有与参考基因组不一样的地方都是有意义的,还需要根据一系列的数据库来注释找到variation 。

通常一个人的全基因组测序数据可以挖掘到四百万个SNVs(和参考基因组不一样的单碱基位点),还有五十万的indels(insertions or deletions),这些信息都被存储在VCF文件中。一开始我们只能知道20号染色体上14370这个位点的G变成了A,仅此而已。但VCF其实很多,比如,我们发现G变成了A,那么这个位点是在某个基因上面吗?如果是,在基因的外显子还是内含子?它的变异有没有改变这个基因的功能呢?有没有影响它的转录和翻译呢?还有没有其他正常人也是这个位点变异呢?如果有,是哪些人种呢?有没有癌症病人也发现了这个变异呢?如果有,是什么癌症呢?~是吧,蕴藏的信息量巨大,而这些信息的挖掘需要依靠变异位点注释数据库

这些变异位点注释数据库主要包括:

dbsnp(ncbi提供的最权威):https://www.ncbi.nlm.nih.gov/projects/SNP/

ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/

ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/

ExAC(Exome Aggregation Consortium)[broadinstitute提供的外显子联盟]:http://exac.broadinstitute.org/

ftp://ftp.broadinstitute.org/pub/ExAC_release/current

Cosmic癌症突变信息集【需要学术邮箱注册】

TCGA:最大的癌症基因信息的数据库,搜集的是TCGA计划里面总结的各个癌症somatic mutation【样本的变异文件和它有交集,就不是什么好事】

1000genomes【千人基因组计划】  :包括5个大人种,共25个小人种的基因型数据,结果会得到一定程度上的祖缘分析结果

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/

ESP(Exome Variant Server)
http://evs.gs.washington.edu/EVS/

国家级数据库
UK10K 英国一万人基因组:https://www.uk10k.org/
GoNL(Genome of the Netherlands) 荷兰人:http://www.nlgenome.nl/
https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release6.1/
SSMP(Singapore Sequencing Malay Project) 马来西亚
SSIP(Singapore Sequencing Indian Project) 印度

流程

数据下载、质控、过滤QC-》比对alignment(bwa)-〉sam转bam并排序sort-》标记PCR重复,并去除-〉产生需要重排的坐标记录-》根据重排记录文件把比对结果重新比对-〉最终的bam文件转为mpileup文件-》variation calling(bcftools+freebayes+gatk+varscan)-》annotation-statistics/visualization-》snv,indel,cnv,sv

其中将测序数据与参考基因组进行比对(alignment)环节对计算资源要求较高,比对的速度取决于cpu的配置以及软件,一般8线程一秒钟也才能比对1000条双端测序reads。

质控用的软件:fastqc、multiqc【一次同时生成多个数据质量报告】、fastp

过滤用的软件
trim galore【和fastqc出自一家,可以和fastqc结合使用,用来清洗原始数据】
trimmomatic【专门清洗illumina测序数据】
fastp:国内出的软件,简单易懂【仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能,而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右;支持多线程】

为什么要做质控、过滤这个事?

常用的二代测序基本都是illumina的边合成边测序技术。怎么合成?靠的是DNA聚合酶是碱基链延伸,我们大家长时间工作都会疲惫,这个酶也一样,合成超过一定长度的链错误率就会升高。不管怎样,结果出来了,你拿到数据怎么知道测的合不合格呢?

这就需要质控。另外还需要了解,不同测序平台都有测序错误偏向性(比如illumina平台对reads的5‘端的前几个随机引物碱基有一定的偏好性,因此碱基分布图中前端波动较大)
有问题就解决~一般需要去除低质量碱基和接头

比对、排序

BWA(Burrow-Wheeler Aligner):李恒开发的使用最广的NGS数据比对软件,

为什么要做比对这个事?

本来好端端的短序列read都十分有序的躺着基因组中,有一天你拿来测基因组,但经过DNA建库和测序后,原有的平静被打破,不同read之间的顺序关系也混乱不堪,因此你没办法判断两条read谁前谁后,这时你只能把他们当成初始read1、初始read2;

但是比对软件给了你希望,他可以将一大批read一个一个与参考基因组比较(这里的比对策略一般有overlap、k-mer),再按顺序排列,整齐划一的队伍才好管理!

说到比对,不知你是否想到了我们最常用的ncbi blast?你每次提交一个序列,结果就会给你一堆对应的其他序列,看他们相似性。这就是比对的过程:你提交的是一个字符串,比对库就是大的字符串合集,因此,比对就是搜索最相似的字符串的过程。但是利用blast的动态规划算法,比对基因组的reads,那是一个十分缓慢的过程(你可以回想一下提交一条序列去blast需要多久,而一般基因组测序会有6亿条150bp左右短序列),因此,这里的比对也要特殊优化。

BWA为什么是一个优秀的比对软件呢?因为他采用了BW(Burrow-Wheeler)这一套压缩算法,先对参考基因组进行构建索引。这里可以假设一下,你拿着10个书名,去图书馆借书,到了之后,有两种方法可以拿到这10本书:一是从第一排开始一本一本找;二是根据图书馆图书查找系统,准确定位。我们这里的参考基因组就是一个图书馆,我们要先为他打造一个查找系统,就是index索引。BWA就是使用(BW)块排序压缩的算法完成这个工作

Samtools:同样由李恒开发,用作数据格式转换、比对、排序

BWA得到的bam没有顺序么?为什么要排序?

fastq文件中reads在基因组上随机分布,也就是说fastq文件中的reads之间是没有顺序的,而上一步比对仅仅是是将不同fastq文件中的reads定位到参考基因组,定位完就输出bam文件了,并没有自动识别reads的前后位置并重新排序。因此,在初步得到的bam文件中,每一条比对记录都是没有先后顺序的。

但是呢,后来不管是要IGV可视化还是要去重复,都需要bam中的记录有顺序,还是那句话“整齐划一的才好管理!”

寻找变异位点:bcftools、GATK、freebayes、VarScan

注释用到的软件:VEP,ANNOVAR, SnpEFF

思路二:临床流程

我们得到了许多变异位点,那么这些不同的地方是什么意思呢?这就需要和公共疾病数据库比对进行整理,注释那些不一样的地方。OMIN,clinVAR,HGMD,GWAS。大部分疾病评估是依据GWAS数据库对变异位点进行注释从而评估个体化疾病风险;用药建议是根据PharmaGKB网站;遗传病风险则是HGMD数据库。

变异与突变是不同的!

变异只是产生人种多样性的原因, 有了变异我们才能不一样;而那些跟疾病相关的变异,通常才叫做突变。一般,在正常人的数据库里面出现了5%的变异就可以认为没什么大的危害

变异分成4种,即snv、indel、cnv、sv,大部分情况下只能分析到SNV。【另外3个要么不准确,要么有点难度】


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
从零开始完整学习全基因组测序(WGS)数据分析:第4节 构建WGS主流程 | Public Library of Bioinformatics
【直播】我的基因组(七):从整体理解全基因组测序数据的变异位点
微生物DNA测序数据找变异位点
你不知道的小路---测序数据上传
NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正
bulk RNA
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服