打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
生物信息分析:从入门到精(fang)通(qi) 第0期 生信分析是个什么玩意儿?

生信小白

老板最近说,要搞搞高大上的全基因组测序,让我去做测序数据分析,可我都不懂哇...

这不就是生物信息分析嘛,搭建集群,搭建流程,跑跑数据...

生信猿

生信小白

听说你很厉害,可以教教我吗?

当然可以啦,那我们得好好交流一下。

生信猿


生信小白

那你能跟我讲讲生信分析到底是个啥玩意儿吗?

那我先跟你捋捋如何读取生命的密码吧。且听我慢慢道来...

生信猿

Q

如何读取生命的密码?

DNA序列承载着控制生物性状的遗传信息,DNA是长链大分子,你以看看我身上穿的这件衣服,是一个小的DNA片段。DNA有四种碱基A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)。

人类基因组有30亿个碱基对,可以理解为这是一本由30亿个ATCG字母构成的“书”。

如何从这本书中翻译出生命的奥秘呢?目前主流的方法是使用二代测序来测整个人全基因组。按照经验,一个标准的人全基因组测序原始数据可以达到100GB。

二代测序技术是将DNA的长链分子随机打断,然后用化学方法一批批地将小片段DNA扩增和读取出来。

我们可以这样简单理解:

测序相当于将生命之“书”投进碎纸机,变成了一条条碎纸片段(序列打断),每个片段一般只有几百个字母。由于碎纸片段实在细碎繁多,可能遗漏某些重要片段,所以通常会把碎纸片复印(聚合酶链式反应,PCR)多份,再进行扫描(基于荧光标记dNTP的光学检测),把这些碎纸片段的字母读取出来。

拿到这些扫描后的片段数据(短序列),我们需要用计算机去处理(生物信息分析),尽可能拼回原来完整的书,并寻找书中独特的词(基因变异)。然后去查字典(变异数据库),看看究竟这些词表达什么意思(信息注释)。

典型的生物信息过程包括:首先去掉质量不高、破损严重的短序列数据(质量控制 Quality Control/Filtering),然后完成基因组比对/组装( Mapping/Assembly),进而寻找基因变异(Variant Calling)。

从大体量的数据中,找到基因突变信息,这就是生物信息分析的工作。

生信小白

听你这么一说,我大致明白生物信息分析是在做什么了,但我应该如何上手呢?

别急,一步步来嘛,干我们这行的,没点“家伙”怎么行?

生信猿

Q

生信分析的工具有哪些?

生物信息的工具有很多,主要是:bwa,samtools,picard,GATK,bedtools,bcftools,vcftools,FastQC,MultiQC,VEP等等,GATK是目前被广泛使用和认可的分析软件 。

通常来讲,一个成年人的变异大概有两百多万个,但对于特定的疾病,可能只有几个或几百个有意义的,突变的寻找有如大海捞针。幸运的是,我们并不是漫无目的地寻找,我们可以借助一些公开的数据库,来过滤掉不相关的信息。

生信小白

你这讲解深入浅出,我觉得老板交代的任务已经完成了一大半!


不着急,这只是一个开始噢,后面还会分享更多干货给你噢~



文章来源于:GeneDock



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
cDNA基因文库的构建
里程碑:我们终于完成了对人类基因组的完整测序
第二代测序技术(东拼西凑的课程论文)
功能基因组学研究利器——Hi-C
将生物的“暗物质”带到日光下
科学家改良基因组组装工艺流程
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服