打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
生信小白学习系列:如何进行基因组组装?(1)

随着测序的发展,越来越多的生物体被进行基因组进行测序,这些测序的reads,再被用于组装或者其它相关的研究。基因组序列组装是一个研究的起点,如果你研究的物种没有参考基因序列,就无从找到该生物有的基因,进行基因的功能分析,然后开展下游的群体遗传,结构差异等等一系列非常有趣的研究。所以说组装好参考基因组是基因组研究的最基础的事情之一。接下来,希望通过网上一些教程,和大家熟悉了解一下如何进行基因组组装。

首先先让我们从大的picture来回顾一下,基因组组装的相关知识。

基因组组装的目的与其成功的决定因素

目的:

  • 获得该生物体完整的基因组序列

  • 注释蛋白质编码序列(注释(结构注释和功能)非常重要,了解知道蛋白质的功能是解决生物学问题的基础)

组装成功的决定因素:

  • 被测序物种的基因特性(下个小节会讲)

  • 测序的样品质量

  • 测序技术的限制(短序列:短,组装碎片化;长序列:费用较高,错误率高)

  • 使用的组装软件的合适性

组装中会遇到的“硬问题”

一般来说生物体的基因组越简单越好组装,像细菌真菌都比较好组装。那么影响组装的硬问题有哪些呢?

多态性

  • 二倍体,甚至多倍体 (物种的基因结构复杂,染色体有多个拷贝,基因组重复)

  • 生物体杂合性高

  • 有些物种非常小,你需要收集多个个体才能取得足够的DNA去测序去组装出基因组。

重复序列

  • 重复序列往往会“迷惑”组装的工具 

具体例子如下图:

假如reads S和T 在橙色的片段都具有一长串A的碱基,那么组装工具将会很难识别,纠结这两个片段是拥有两个相同copy的重复序列,还是他们本来就是overlap的可以连接起来。这样会造成组装的错误。

这里也顺带简单介绍一下常见的重复序列:

  • SINEs ( Short interspersed nuclear elements)

一般长度为500bp左右,人类的基因组大概还有1.5Mbp的这种短的重复片段。

  • LINEs (long interspersed nuclear elements)

一般长度为1Kbp左右,人类的基因组大概还有1.5Mbp的这种短的重复片段。

  • 大片的重复

可以长至40Kbp或者更多

测序的质量

  • 不同的测序技术有不同的优缺点

  • 测序的深度(有些regions没有被很好覆盖到)

  • 测序时候含有的污染(人的,细菌,真菌病毒等)都会影响组装。据统计,10%的已经在文献中发表的基因组,都还含有污染。

水平的专业性

需要知道如何安装组装的工具,了解组装工具的工具原理,并且调试组装的相关参数让你组装结果得到最优化,还有选择合适的组装工具,都需要一定的专业水平。

主要的组装算法

重叠序列相连

简单来说这种算法就是将所有的reads拿出来,相互比对,找到重叠的reads,然后构建长的连续的contigs,最后再将contigs组在一起形成scaffolds。这个过程可以基于下图来进行总结:

De Bruijn 图 或者 k-mer 方法

主要的步骤包括:

  • 将reads切成长度不同的片段(这里叫k-mers)

  • 基于这些k-mers的组合,构建De Bruijn 图

  • 构建序列基于重叠的k-mers

  • 基于已经构建的序列片段,选择合适的片段,构建整个基因组的序列。

大概的过程如下图:

我该选用哪个组装的工具?

目前已经开发了很多不同的组装工具,根据你的物种或者测序技术,可以相应的选择不同的工具,一般来说我们可以这样选择:

  • 如果你组装的是原核生物基因组,那么可以使用SPAdes,通常该工具比较适合小的基因组。

  • 如果你组装的是真核生物基因组:

  1. 只使用短序列的reads进行组装:推荐使用MaSuRCA

  2. 只使用长序列的reads进行组装:推荐使用Canu或者Falcon

  3. 混合使用短序列和长序列的reads:推荐使用MaSuRCA

  4. 杂合度高的物种推荐使用Platanus

上面只是简单通用的推荐,当然如果你是专家,你可能还会使用一些更加个性化的工具方法。

这期介绍就到这里了,希望大家有所收获,组装并没有我们想像中那么难,后面会继续给大家带来组装的实战还有评估等等的教程,敬请大家关注点赞。

参考资料:

1.https://isugenomics.github.io/bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html2.https://environmentalmicrobiome.biomedcentral.com/articles/10.1186/1944-3277-10-18


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
动植物De novo 测序知识大讲解
De novo 测序基础知识
180 植物基因组解读计划,欢迎进入水果王国!
从头测序工具大全,从此测序研究不外包
宏基因组鉴定病毒流程中需要的生物信息工具
IDBA-UD:组装非均匀覆盖度的宏基因组和单细胞数据
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服