打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基因组中是否存在未被DNA测序覆盖的区域(学徒翻译)

原文链接:https://medium.com/musings-of-scientist/how-well-do-we-know-our-reference-genome-6a72ab4aa76e  

如果基因组是一幅风景,你可以通过NGS创建该景观的地图,那么这幅地图肯定会有一些白色区域。换言之:一些基因组区域不能很好地被NGS技术测序的DNA所覆盖。在此,我们将解释这一点的重要原因。

重复DNA序列

重复DNA序列(例如串联重复序列)在许多物种中广泛存在。大约50%的人类基因组由重复序列组成(1)。重复是序列比对和组装程序的挑战,因为它们导致非常相似的短读取。它可以比作一个大拼图,其中一些拼图块可以放在几个地方。因此,重复会在比对和组装中造成歧义,反过来,它也会在解释结果时产生偏差和错误(1)。

G/C偏差

四种碱基(ACTG)在基因组中通常分布不均匀。具有高和低GC含量的DNA区域难以扩增,因为与具有混合碱基含量的DNA区域相比具有更高的稳定性。在这些情况下,DNA聚合酶易产生伪影。这些影响扰乱了大多数协议所需的扩增步骤。因此,来自具有高/低GC含量的区域的片段的表现不足,导致读取覆盖率低且不均衡(图1)。

一个常见的例子是恶性疟原虫,一种疟疾病原体。其基因组的一些编码区具有70%的AT含量。因此,直到最近,才有可能对寄生虫的基因组进行测序。目前的项目试图通过使PCR(扩增)产生的假象最小化或放弃扩增步骤(2)来改善这些区域的测序。

图1:在各种扩增条件下的全基因组碱基组成偏差曲线,线性尺度。 图片来自(3)。

碎片偏差

如该文(https://www.ecseq.com/support/ngs/is-there-a-bias-after-dna-fragmentation)所述,DNA片段化是一个非随机的过程,特别是对于机械剪切方法。这导致各种基因组区域的不均匀覆盖,并且可导致欠/未覆盖区域。

总结

这些实例表明,使用NGS进行准确的DNA测序还存在许多技术难题需要解决。有时可以通过调整样品制备(例如DNA片段化)或测序过程本身(如恶性疟原虫所述)来减少问题。此外,为项目考虑不同的测序技术总是一个好主意。

之前发布了学徒招募,广受关注,得到了各路好友的大力宣传,大家对我是如何带学徒的细节比较感兴趣,所以简单介绍一些。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Cas9加纳米孔测序,CATCH你感兴趣的区域
赛福基因公开课第四节《高通量测序(NGS)数据分析中的质控》
【专题】第二代测序技术漫谈
测序技术的前世今生—Nature纪念DNA测序40周年
2019:二代测序在肺部感染性疾病中的应用(综述)
高通量测序在临床分子诊断中的应用与展望
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服