打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
科研 | The ISME Journal:草地土壤细菌群体重组特征和基因特异性选择影响

编译:微科盟周之超@UW-Madison,编辑:微科盟木木夕、江舜尧。

微科盟原创微文,欢迎转发转载。

导读

土壤微生物多样性通常从群落组成的角度进行研究,但对物种内的遗传异质性研究现在比较少。对于许多高丰度难培养的土壤微生物,克隆性增殖干扰、基因特异性选择和重组的相对影响尚不清楚。本文研究了从同一片草地上采集的19种高丰度菌种的全基因组种群遗传变异情况。基于种群结构的基因组分析是通过宏基因组分箱所得到的共同基因组来进行的,其中一对短读长序列代表了每个群体中一个细胞的一段基因组序列。研究发现超过一半的种群中基因组的核苷酸相似度与局部的地理位置显著相关,而对于大多数种群来说,样品内的核苷酸多样性通常和整个草地群体的核苷酸多样性一样高。参与代谢物生物合成和细胞外转运的基因在多个菌种中具有较高的核苷酸多样性。微生物群显示出不同程度的同源重组率,在全基因组基因座中经常检测到重组变异(7-36%)。在多个种群中,研究者鉴定出了具有异常高的等位基因空间分化现象、较少重组事件、高比率的非同义与同义变异之比、以及较低核苷酸多样性的基因。这些现象说明了这些基因变异在近期受到了选择性扫除。综上所述,这些结果表明,重组和基因特异性选择通常会导致一些被低估的土壤细菌谱系的遗传变异

论文ID


名:Soilbacterial populations are shaped by recombination and gene-specific selection across a grassland meadow

草地土壤细菌群体重组特征和基因特异性选择影响

期刊The ISME Journal 

IF:9.180

发表时间:2020.4

通讯作者:Arjun Chakrawal

通讯作者单位:斯德哥尔摩大学自然地理系&博林气候研究中心

名词解释

Selective sweep(选择性横扫)说的意思就是由于某一位点受到强选择后,其周围的位点的多态性因受改位点牵连而发生多态性降低的现象。

可以这样理解:某个位点发生突变,突变后的位点因对物种在特定的情况下有利或者受到了人为的选择,那么该突变位点在群体中的频率必然提高,但是其附近和它处在同一个单体型或者block的其他的多态位点同样跟着受到了选择,频率发生了提高,也就是该单体型内的其他多态位点的某一多态形式比率大大提高,从而降低了整个周围区域的多态性。

导读

土壤微生物群落在陆地生态系统中起着关键的生物地球化学作用。在一公顷温带草原土壤中,可以有1000公斤以上的微生物生物量和相应的微生物种群规模。最近在对土壤中16SrRNA基因的多样性方面取得了进展,这对于理解微生物群落组成是有用的,然而这一技术无法识别种群内的大多数遗传变异。此外,许多最常见的土壤微生物,如高丰度的AcidobacteriaVerrucomicrobiaGemmatimonadetes门细菌,在纯培养物收集方面和基因组数据库中的代表性不足甚至极度缺乏,即使在纲或门的水平上也是如此。然而,基于宏基因组解析的微生物基因组使得我们易于获取这些很少培养但广泛存在的土壤细菌的全基因组特征。因此,研究基于宏基因组解析的微生物基因组中的序列变化可以用来检测等位基因频率的变化,并由此推断在自然种群中遗传漂移、自然选择和同源重组这三大进化力的作用情况。

       对于不同的微生物物种,同源重组的重要性会显著不同。参考基因组分析表明,同源重组经常发生在全球和局部的细菌群体中。例如,某些温泉蓝细菌种群接近随机交配,其重组非常频繁,以至于每个细胞是等位基因的非连锁随机混合物。在其他类似的海洋弧菌中,重组度很高,但对生态位分化非常重要的大量等位基因共同遗传,可能由于选择压力而连锁在一起。土壤中的黄斑链霉菌菌株也被发现接近于自由的随机交配。相比之下,从一系列土壤样本中分离的Myxoccocus xanthus菌株有着显著不通但菌系高度克隆,这意味着这些菌株之间的重组非常低。然而,尽管以上菌株经常被分离培养,但与基于未分离培养的研究相比较表明,这些分类群在土壤中相对罕见,远低于未分离培养的AcidobacteriaGemmatimonadetesVerrucomicrobiaa的丰度水平。这些很少培养但高丰度的土壤细菌谱系的重组度尚未被研究,但潜在重组可能是广泛的,因为土壤中这些细菌有着高细胞密度,它们可以通过转化、结合或细胞外囊泡摄取DNA来促进遗传物质的共享。

       当重组率低或选择极强时,几个克隆菌株竞争,直到一个或多个有益的等位基因被高度选择,导致单个克隆基因型丰度增加,甚至横扫到固定。然而,当重组解除群体内基因变异的连锁时,有益的等位基因可以通过基因/位点的特异性效应,独立于基因组背景在群体中选择性横扫。一项基于宏基因组解析的微生物基因组研究中观察到在淡水湖环境中一个Chlorobium种群在9年期间内进行了一次单克隆横扫,而所研究的大多数其他细菌种群检测到异常低的单核苷酸多态性位点,这一观察被解释为基因特异性选择性横扫的证据。然而,作用于重组群体中的基因座的阳性选择也会留下额外的基因座特异性信号,包括更高的连锁不平衡(等位基因之间的强关联)和群体之间不同的等位基因频率。在土壤微生物种群中,基因特异性横扫与全基因组克隆菌株竞争和替换在很大程度上是未知的,同时这些进化过程可能发生的空间尺度也是未知的。

       在此之前,我们对加利福尼亚北部安杰洛海岸牧场保护区的一片草地的土壤进行了一次大规模的基于宏基因组解析的微生物基因组研究,建立了896个在种水平上去重的微生物基因组的数据集,并报道了群落组成。草地土壤为~45%粘土、~45%淤泥和10%砂粒的砂质壤土混合物,pH值在4.6~4.9之间。该场地土壤矿物学特征主要是蛭石,其次有斜长石和碱长石以及少量磷灰。土壤被归类为Holohan-Hollowtree-Casabonne复合物的UlticHaploxeralfs类型,在30厘米的深度上,体积密度为~2.0g/cm3,阳离子交换容量为每100g土壤17至19meq,C:N比值为10-12,总C浓度为10mgg1至18mg g1。这片草地以一年生的地中海草为主导。这片草地已经成为降雨修正气候变化研究的一部分,持续了17年之久,并在植物多样性和生产力、无脊椎动物食草动物和捕食者、真菌群落、土壤有机质、代谢组学和蛋白质组学等方向上进行过多项研究。通过对这片草地上19种高丰度菌的种群基因组学分析,我们发现了其菌群具有高样本内核苷酸多样性,种群内遗传结构往往在局部空间尺度上发生变化,不同物种的同源重组程度不同,以及部分由选择驱动的基因特异性种群分化等特征。

材料和方法

1 采样、基因组测序和宏基因组组装

        在本分析中使用的采样方案、本地土壤特性和研究设计在之前的研究中已经描述了。在10-20、20-30和30-40厘米的深度收集了60个土壤样本,分别位于6个间隔5米、直径10米的地点的中心附近。抽样地点在空间上排列在包含两个地点的地块上,每个地块中的两个地点中有一个收到了额外的春季降雨。在秋季降雨之前和之后的2个月内收集样本,每地点10个样本(图1a)。简单地说,首先使用PowerMax Soil DNA isolation kit (MoBio Laboratories)分离套件从每个土样中取10克土壤中提取DNA。然后在JGI的IlluminaHiSeq2500测序平台上利用2×250bp paired read读长对宏基因组文库建库并测序。用BBduk对读长超过200bp的reads质量过滤。宏基因组使用IDBA_UD组装,单个基因组的获取如之前文献所描述的那样使用基因组覆盖差异度分箱方法获得。

2 基因组去重、筛选和比较

        先前从研究地点获得的10,538个基因组先使用dRep去重,二次聚类阈值设定为-sa 0.97,然后通过CheckM过滤,最后得到一个去重的物种水平(97% ANI)基因组集用来做read覆盖,其中基因组的完整度>70%、污染度<10%。利用之前所描述的评分算法来选择每个物种聚类的代表性基因组,使其具有最高的CheckM完整性和最低的污染度。在此次分析中,我们使用了19个物种级基因组聚类,其中至少有12个重复的基因组达到>80%的完全度和<10%的污染度,它们都从不同的样本中独立组装和分箱出来。这19个具有代表性的基因组中的每一个都是由>10万个reads组成的,而且从所有的60个样本中可以为每个群体分配数百万个reads。由于用于DNA提取的10克土壤样品中的微生物种群由比测序多一个数量级的细胞组成,大多数read pair很可能来自种群中独特的细胞(或DNA分子)。从每个样本中组装的每个基因组在大约都有10×覆盖度,但每个群体的全草地覆盖度为224×至908×。

       ORF框通过Prodigal预测,通过USEARCHagainst Uniport、Uniref90、KEGG、PFAM(基于HMM的蛋白质注释)和antiSMASH4.0数据库来注释。用来分析ANI矩阵与环境数据关系的PERMANOVA测试是通过Rvegan实现的(使用adonis2function,参数“by”设定为“margin”)。多维尺度图是利用Rsmacof包中的mds函数绘制的,其中ndim参数设置为4。对于蛋白质家族富集度统计的超几何测试是通过R对用HMMER注释的PFAM特征来进行统计的。

       基于为每个物种群体组装的重复基因组,进一步地从代表性基因组中去除可能的污染。泛基因组分析是通过Roarypipeline对每个物种的基因组集分析来实现的,以识别跨基因组的蛋白质聚类。在每个基因组集中,如果发现其中有不少于50%的蛋白质聚类分布小于25%数目的基因组的contigs时,这些contigs就会被视为潜在的污染而删除(通常每个基因组移除少于20个contigs,通常这些contigs也很小)。因此,在本分析中使用的最终的contigs只包含每个物种中从多个样品里被可靠地组装和被独立分箱出来的contigs。生物体DNA的相对丰度是通过用覆盖到每个样本中每个基因组的reads数除以每个样本的reads总数来计算的。

3 Read覆盖、SNP calling和核苷酸多样性

       所有宏基因组reads的覆盖都是使用Bowtie2进行的,除了插入大小参数设定为-x1000之外其余都使用默认参数,覆盖的对象是从环境中获得的所有的664个去重基因组所建立的索引数据库,同时该数据库还包含我们所研究的19个物种的代表性基因组。我们只使用能特异性覆盖到代表性物种的reads进行分析。得到的BAM文件中read的过滤是使用自定义脚本filter_reads.py进行的,该脚本可在codeavailability下的链接获得。然后,我们用以下标准来过滤覆盖文件中的reads:(1)同一个pair的reads覆盖距离在同一scaffold1500bp长度以内(最大可能的端到端的插入大小);(2)readpair与参考序列的相似度百分比至少为96%,readpair至少其中一个的mapqscore>1,表明这是索引中此readpair的最佳覆盖点。我们进一步比较了以96%ANI r2为标准的所算出的基因的核苷酸多样性与以98%ANI r2为标准的基因的多样性,并发现了很强的相关性(译者注:ANIr2指的是readpair与参考序列的相似度百分比,说明使用96%相似度为标准和使用98%相似度为标准过滤reads最后计算得到的gene的核苷酸多样性相差不大)。然后,在每个种群中以>5%的频率来计算SNP,其中reads来自所有的样本,同时使用一个简单的零假设模        型来验证可靠性,在此模型中我们假设SNP的错误发现率为<~106

       对于所有的种群多样性指标,我们使用了可复制的自定义python脚本(可在codeavailability下获取)来计算来自所有过滤过的跨样本的read覆盖结果。每个指标解释如下。对于我们19个物种中每个代表性基因组,我们分析有至少50%基因组覆盖和至少5×覆盖度的样本中的数据。在1140个样本基因组(19个基因组×60个样本)比较中有586个通过了这一最低要求。在SNP或连锁分析中Phred分数小于30的read碱基对不被使用。核苷酸多样性是通过计算两个测序reads在一个位点上的差异的预期频率得到的,方程pi=1−(A2+C2+G2+T2),其中A、C、G、T代表每个核苷酸的观察比例。这等价于在每个基因组位置单独计算的定义,其中每个样本至少覆盖5×次,然后跨基因取平均值。样本read的覆盖以重复的样品、样块和来源和草地上所有的样品为组来汇集到一起,并在每组汇集样本上重新计算核苷酸多样性。对于下游分析,我们区别分析所有样本的核苷酸多样性(全草地水平上,图3)和三个样块内的核苷酸多样性(样块水平上,图5)。为了量化改变测序覆盖度对计算核苷酸多样性的影响,我们重新计算了每个基因组的核苷酸多样性,其中在每个基因组位置我们进行subsampling。我们发现由于低测序覆盖度而导致的核苷酸多样性的偏差最小超过50×,而我们的样块水平和全草地水平的覆盖度往往远高于这一覆盖度。当采样水平只有5×覆盖度时,核苷酸多样性的偏差更大,但与样品之间观察到的生物变异相比,这种偏差很小,我们的许多单独的土壤样本超过10×覆盖度。

       SNP是通过计算全草地水平上过滤reads的所有种群集得到的。我们基于0.01%的错误率(Phred30错误率作为标准)构建了一个简单的零模型,并模拟了简单sampling以构建在不同覆盖度的基因组位置上错误SNP计数的估计率。如果一个有可替代的等位基因的位置,其在零模型中的给定覆盖度下计数的假阳性率为~106,并且最小等位基因频率(MAF)为5%,我们计为SNPs。由于全草地水平覆盖度最少为224×(最大可达908×),可能只有MAFcutoff是Phred30错误率的严格cutoff。通过使用自定义的BioPython脚本和Prodigal注释的基因结果,SNPs被认定为同义或非同义得SNPs。

4 连锁不平衡、固定指数(FST)和选择测试

       连锁计算是通过对所有由至少30个readpairs跨越的分离位点的覆盖reads来进行的。用之前文献所描述的公式计算R2和D’连锁参数。每个群体的重组与突变率(gamma/mu)相对比率是用mcorr包计算的,其方法是针对所有样本之间的过滤reads的同义第三位置密码子位点来计算。我们分析了19个基因组中的10个,因为这些基因组具有模型拟合的正态分布,而且bootstrapping均值在gamma/mu最终估计的2×范围内。FST(一种衡量两个群体等位基因频率差异的方法)是在两个被比较的样块之间分离的位点上计算的(对于所有三个样块的比较),我们使用Hudson方法如所建议的那样,在scikit-allel中计算。为了计算FST,一个位点必须在每个样块中覆盖度至少为20个×,并且在一个样块中覆盖度在两个标准差范围外的的基因被排除在分析之外。然后使用平均值的比率来确定每个基因的平均FST。Two-sample Wilcoxontest被用来确定高分化基因座的平均联系是否与每个物种的基因组平均不同,并使用R的two-samplet-tests来确定高分化基因座的平均核苷酸多样性是否与基因组平均不同。我们也利用Benjamini–Hochberg方法对多个假设进行了修正。

结果

细菌种群中的基因组相似度按空间尺度而变化

        从一个未去重但高质量过滤的3215个高质量基因组组成的数据集,我们计算了所有成对的全基因组平均核苷酸相似度(ANI)和排列覆盖度(大致类似于共享基因程度;图1b)。我们观察到来自草地的所有基因组的成对ANI在约为96.5%-97%区间处急剧下降,类似于最近报道的细菌物种划分的阈值。共享基因含量则逐渐下降。我们使用97%的ANI标准将基因组分成类物种群体,发现一些类物种群体包含几十个接近完整的基因组草图,其中每个基因组是独立地从不同的样本中组装起来的。为了关注宏基因组数据中最丰富的种群,我们选择了物种簇至少含有12个基因组的,并且有80%>完整度,<10%的污染度进行种群遗传学分析,从而从19个广泛的物种种群中获得了最终的467个基因组(312个基因组估计有>90%完整度)。这组细菌物种包括许多常见报告的高丰度的来自ChloroflexiAcidobacteriaVerrucomicrobiaCandidatus Rokubacteria门的土壤细菌,它们在全球的土壤中都有很高的丰度,但研究很有限。这一数据集中的大多数物种在分类等级上可能是新颖的,其中一个可能代表了一个新的候选门,之前初步命名为Candidatus ANGP1。根据对整个草地上每个种群的相对DNA丰度的测量,这些细菌是土壤中最丰富的物种,尽管没有一个物种贡献了样本中DNA的>1%(图1c)。

图1 草地概况和种群DNA相对丰度。(a)位于加利福尼亚州门多西诺县安吉洛海岸山脉保护区的草地鸟瞰图(39° 44′ 17.7″ N, 123° 37′ 48.4″ W)。(b)对从草地土壤合成的基因组进行比较的平均核苷酸相似度(ANI)和排列覆盖度(近似于共享基因含量%)的成组状图。c在本研究中分析的19个细菌种群在每个样本中的相对DNA丰度,按采集样本的实验图组织,按样本深度从左到右排序。

        对于19个全草地种群中的每一个,我们测试了采样点来源是否可以预测组装基因组的遗传相似性(PER MANOVA;FDR≤5%;adjusted P ≤0.05)。此外,我们还测试了从相同土壤深度获得的基因组是否比从不同深度收集的基因组更相似。我们发现,19个种群中的12个中,基因组的遗传变异与取样图显著相关,19个种群中5个种群内的遗传变异与取样深度显著相关(图2a)。每个种群的基因组核苷酸相似度矩阵的MDS表明与土壤来源和深度都有明显的联系(图2b)。由于每个样本的基因组组装反映了每个群体中最丰富的序列变异,这意味着大多数群体的主要等位基因频率在草地上各不相同。虽然局部空间异质性已被证明高度解释了土壤中的微生物群落组成,但在这里我们证明了在某些个体物种的遗传变异中也存在空间模式。

图2 物种内遗传差异的空间差异。(a)由样点来源(红色)和采样深度(蓝色)解释的公共基因组的基因相似度(ANI)变异百分比。(b)每个物种内基因组间遗传差异的多维尺度排列(MDS),对于所有12个种群,采样点解释了遗传差异变异的显著部分(PERMANOVA;FDR=5%;P<0.05)。前两个轴被绘制,一个种群中单独组装的基因组由一个点表示,基因组根据采样点着色,点的形状表示样本深度。

在全草地水平和土壤样本内群体核苷酸多样性高

        为了评估整个草地上每个种群的遗传变异性,我们计算了该种群在每个采样点上的测序reads的每位点核苷酸多样性。宏基因组研究有时会使用reads与参考序列的平均相似性或SNPs/MBP的总数作为遗传多样性的指标。我们选择测量核苷酸多样性,因为它对覆盖率的大变化不太敏感,它可以计算单个位点和基因或窗口的平均值,而且它不仅考虑SNP的数量,而且考虑它们在种群中的频率。我们发现19个不同群体的每基因核苷酸多样性值范围很广(图3a)。由于核苷酸多样性对覆盖度的变化不太敏感,我们可以用它来跟踪核苷酸多样性在分布在草地上的地点之间的变化。我们通过每个物种覆盖reads的集合计算核苷酸多样性,其中reads集合分为从相同的地点和土壤深度、采样点内,地块内,乃至整个草地水平(图3a)。虽然在草地尺度上的核苷酸多样性往往比样本尺度高,但许多种群在一些样本中的核苷酸多样性与整个草地上的核苷酸多样性相当,这表明在某些情况下,在土壤中高核苷酸多样性即使在厘米尺度范围内仍然存在。

        在几乎所有的种群中,核糖体基因始终具有比基因组中的平均基因低的核苷酸多样性,与这些基因强烈保守和在高清除选择压力下有关(图3a)。在Chloroflexi和一个Acidobacteria物种中,用antiSMASH注释的参与小分子生产的生物合成基因,其核苷酸多样性明显高于基因组平均值,而在一个Gemmatimonadetes物种中,其核苷酸多样性却低于基因组平均值(Welch two-sample t test;P<0.05)(图3a)。检查所有基因核苷酸多样性大于平均2.5个标准差的不同基因,我们发现小分子生物合成和细胞外分泌的蛋白质家族比基因组平均值明显过丰富(超几何测试;P<0.05)(图3b)。短链脱氢酶和外膜beta-barrel结构域在几个类群的高多样性基因中显著丰富,然而多个转座子家族在Acidobacteria基因组中多样化。在研究的AcidobacteriaGammaproteobacteriaGemmatimonadetes物种中,分泌系统蛋白质也在高度多样化。

图3 19个高度丰富的细菌种群的核苷酸多样性。(a)每个群体的平均每基因核苷酸多样性分布,在不断增加的抽样尺度上进行测量。分别标记为所有基因(红色)、核糖体基因(蓝色)和生物合成基因(绿色)(除Candidatus ANGP1 6837和Dormibacteraeota ANG 750外的所有含有这些基因的物种)。不同颜色的线连接每个点在不通尺度上分布的均值。(b)在与平均基因组频率相比高多样性基因中富集的蛋白质家族基因的核苷酸多样性。每个基因都是由PFAM数据库中的蛋白质家族排列的点,点的大小与基因的长度有关。

同源重组是常见的,但种群离随机交配平衡很远

       通过宏基因组数据测量readpair 跨越的SNPs的连锁不平衡,我们可以来测量同源重组对群体中观察到的遗传多样性的影响。当重组发生在种群内时,基因组上两个位点之间发生重组事件的机会随着它们之间的距离而增加,从而产生一个称为连锁衰减的特征信号。给定~200bpread和readpair内距离中位数为383bp,95百分位为500bp,我们可以可靠地评估每个种群中从772bp(中位数)到846bp(95百分位)距离的SNP的基因组连锁关系。与自然细菌种群可以经历广泛的同源重组的预期一致,我们观察到随着两个多态性位点之间的基因组距离的增加,连锁不平衡度量r2的衰减(图4a)。利用复合包mcorr,我们可以估计在19个种群中的10个种群中重组对同义第三位密码子位点上的突变的中性比率。虽然这些相对比率的估计置信区间很大,而且各种物种之间的置信区间各不相同,但它们都在文献报道的对于许多已知的高度重组物种的范围之内,但一般都低于据认为正在接近随机交配的S.flavogriseus种群的比率。

       在遗传多样性较低的群体中,同义变体和同义变体之间的r2明显高于与其他非同义变体之间的r2(图4c)。这之前在温泉Cyanobacteria中也观察得到,并被解释为轻微有害的非同义变体连锁度降低,因为其中继承双有害单倍型(来自一对变体)的重组体被选择清除掉。在较高遗传多样性的群体中,这一比率向非同义位点(r2N)与同义位点(r2S)相比具有较高r2值转移(图4c)。最近的一项研究报道在Neisseriagonorrhoeae中,相似的正rN-rS比值作为正平衡选择的标志;在这里分析的19个种群中,有6个种群的基因组平均r2N/ r2S比值大于1(图4c),也表明这些群体中非同义变体的耦合连锁程度更大。随着核苷酸多样性的增加r2N/ r2S比值的增加(线性回归拟合;R2=0.29;P=0.009)表明,随着多样性的增加,有益比轻微有害的非同义SNPs的比值也增加。

       虽然r2通常被用作用以识别是否存在重组的信号,但是r2值<1可以在有无重组发生时都有可能。例如,两个双等位基因位点的四个可能的单倍型(一对变异体)中的三个可能是由于谱系差异而发生的,在其中一个位点发生突变之前。作为连锁平衡的另一种度量,D′仅<1,如果观察到一对双等位基因位点的所有可能组合,这只能发生在重组或反复突变的存在的情况下。一般来说,我们发现一个种群的平均D′与平均r2线性相关(图4d)。研究由距离<~1kb的SNP对的分布表明,4种可能的单倍型中有3种是最常见的,但也检测到所有四种可能的双等位单倍型组合(D′<1),占每个群体所有位点对的7%至36%。四种SNP组合中最不常见的观测频率也高于基于测序误差的预期,尽管从连锁平衡来看,如平均D′值在0.8以上的观测频率远低于预期。尽管如此,D′<1在基因座的广泛出现,以及所有种群中基因组距离的连锁衰变信号,为种群内同源重组过程提供了坚实的证据,尽管生物体之间有不同程度的差异。

       鉴于最近同源重组的证据,我们在基因组中寻找能够赋予自然能力的基因,例如含有所有三个功能结构域的ComEC基因和含有与参与DNA摄取和重组相关的额外基因的鉴定位点。我们发现,具有多个相邻操纵重组相关基因的ComEC同源基因的存在与D′的最低值密切相关(图4d)。因此,自然能力(适应周围环境的能力)很可能是一种常见的机制,可以促进大量土壤细菌的同源重组。

图 4 种群内连锁不平衡的变异率。(a)在具有最低核苷酸多样性(顶部)和最高核苷酸多样性(底部)的群体中位点对的连锁衰变r2值。每个方框都是在该距离上的成对双等位位点的r2值平均数,方框的面积与进入计算平均值的成对双等位位点的数量成正比。单倍型(位点对)按照每个配对SNP突变的预测功能分箱(非同义:N,同义:S)。(b在同义第三位密码子位点上计算的全草地水平的相对重组对突变率,Lin和Kussell先前报告的值和Doroghazi和Buckley报告的Streptomyces Flavogensis值标记为红色。(c)核苷酸多样性与r2N / r2S之间的关系。图4c显示了跨物种非同义-非同义与同义-同义对突变连锁的平均比率和平均核苷酸多样性。每个点的大小代表该物种的平均D′值。图中给出了线性回归拟合结果(线性回归;R2=0.29;P=0.009)。(d) 19个被研究细菌群中平均r2和平均D′之间的关系。具有多个操作能力相关基因证据的基因组被标记为绿色。图中给出了线性回归拟合结果(F-statistic: 11.9, Adjusted R-squared: 0.38, P=0.003)。

基因特异性选择性横扫导致等位基因的分化

       在中性进化的局部种群中,随着种群规模的增大,核苷酸多样性也被预期单调性增加。因为我们没有看到核苷酸的多样性和相对丰度之间的关系(线性回归;P=0.88),纯中性的生长过程不能解释这些种群之间观察到的核苷酸多样性的差异。同样地,我们在19个物种中的14个中也没有观察到物种多样性和丰度之间的显著关系。除了核苷酸多样性最低的群体外,每个群体的非同义多态性与同义多态性的比率一直很低。这一趋势,也在湖泊宏基因组组学和全基因组比较中观察到,进一步表明净化选择已经消除了累积了更高核苷酸多样性的群体中的轻微有害突变(线性回归;R2=0.25;P=0.018)。除多样性最小的种群(Acidobacterium)以外的所有物种中,非同义变异也比同义变异具有更高的D′值。此外,随着基因组范围的D′减少(更多的重组),非同义变体比同义(D′N/D′S)更多地联系在一起。随着观察到的重组事件数量的增加,非同义连锁比同义连锁有所增加。这种效应与随着多样性的增加非同义变异的选择增强一致:对于非同义SNP,纯化选择和正选择都会增加D′。

       土壤生态系统具有异常的异质性,环境因素可以在毫米距离内发生变化,这可能是由于地面植物生产力、土壤地球化学、植物分泌组成和土壤颗粒结构的变化所引起的。虽然很难区分在空间尺度上非生物参数的改变所带来的影响,但在我们的研究设计中,我们可以研究等位基因频率是如何在尺度上变化的。我们计算了每个物种组别每个基因在三个草地地块的等位基因频率之间的配对FST值(固定指数)(图1b)。对于大多数群体,平均基因的FST值很低(<5%),与大多数等位基因在地块之间分布一致。对于少数群体,平均基因FST值始终>10%,表明在全基因组的大多数位点上存在遗传结构与地理分布相关联的特征。因此,虽然全基因组主要公共等位基因的总变化通常通过草地地理分布来解释,但大多数单个等位基因很有可能在全草地水平上分布频率相似。

       当特定位点的特征是FST显著高于基因组的背景平均值时,它是群体特异性(在这种情况下,是由空间影响的)的选择性压力作用于该位点所表现的。为了识别FST异常高的基因组区域,我们扫描了一个含有5个基因的移动窗口,并测试了该区域的平均FST是否高于基因组平均值2.5个标准差。我们删除了本分析中覆盖度大于或低于平均覆盖度2个标准差的基因。为了定义FST值升高的基因组区域的长度,我们扩展检测成功的窗口,直到平均FST低于这个标准。这个测试最初确定了在一些微生物基因组中的48个FST升高的位点,尽管这些基因组的平均FST较低。为了进一步检验这些位点最近选择的证据,我们也查找了与在一个或两个地块的基因组平均值相比统计上显著平均增加了的连锁和核苷酸多样性的显著变化(图5a)。我们注意到纯化选择信号(以低N:S比率为特征)和基因覆盖度降低(可能表明部分种群的基因丢失)通常与基因区域的低核苷酸多样性相关,基于此,在宏基因组数据中识别基因特异性选择性横扫主要基于检测核苷酸多样性或SNP频率降低。虽然我们发现许多基因座具有不寻常的FST或核苷酸多样性的强烈变化,但严格的标准将其缩小到8个高FST基因座,与基因组背景相比,它们的连锁率显著增加(图5c)。与其基因组平均值相比,这些基因座在地块内的核苷酸多样性也有显著的变化(图5b,c)。所有这些位点显示核苷酸多样性减少,与一个或多个地块中的选择性横扫事件一致。这些基因座上的基因也比基因平均值有更高的N:S比率,可能与最近作用于有益的非同义突变的选择或稍微有害的非同义基因搭车者的局部积累现象一致。

       一些具有在全草地水平上最近差异选择证据的位点含有转运基因(图5c),这些可以表明在采样点之间吸收不同化合物的选择性压力。一个Verrucomicrobia种群也显示了一个选择性横扫发生在一个假定的禾烯(hopene)生物合成操纵子上,这个操纵子通常参与调节细胞膜的稳定性。在一个Deltaproteobacteria群体中,一个高度分化的位点编码于涉及双组分系统和组氨酸激酶的许多基因,可能与环境传感和反应有关。综上所述,这些多重基因组信号表明,基因特异性选择部分驱动了不同草地土壤群体遗传结构的差异。

图 5  草地内位点之间的高度分化的基因组位点。(a)六个细菌种群基因组中基因的FST值。每个点都是一个基因,点的大小取决于该基因中SNP的数量。图中所绘出的是该基因的平均FST。具有显著高于背景的FST的位点以红色突出显示,通过进一步过滤的位点在(b)中使用基因组特异性位点编号。(b)左:每个种群中高分化基因(红色圆点)核苷酸的核苷酸多样性。右:与每个种群的基因组平均(黑色)相比,高分化基因点(红色)的连锁不平衡程度。(c)高分化位点的基因图和注释(b中给出的基因组和位点号)。每个块表示一个开放读取框,块按照预测功能着色。


讨论

       开发土壤细菌种群遗传结构的连贯图像对于理解能够发挥关键生态系统和生态位特异性功能的基因的进化和分布至关重要。这样做是很困难的,因为最丰富的土壤细菌是很难培养的,而且当可能培养时,考虑到分离过程中对细胞施加的强烈选择压力,还不确定微生物分离物是否真的是一个种群的随机样本。在这里,我们展示了测序技术和软件工具的最新进展能够监测基因组定义的细菌种群中的异质性,以解决土壤中的这些问题。与先前发表的淡水湖微生物种群研究相比,我们观察到每个物种的多态性要多得多(4721到43225个SNP/Mb),尽管MAF的下限为5%。大多数种群的SNP/Mb率也高于对深海热液喷口微生物种群的宏基因组组装基因组的类似分析。核苷酸多样性在单个样本中是不均匀的,但往往仍然很高,这意味着在每10克土壤样本中经常遇到许多可替代的等位基因。

       本研究的结果表明,重组和基因特异性选择是最丰富的土壤微生物的重要进化模式,并能够在土壤中以米为单位的空间尺度来构建种群。即使在一个单一的草地上,我们的数据表明,每个物种可能有成千上万的组合遗传混合物,重组导致较难测量的不可简化的菌株谱系。我们能够计算出我们研究的一半物种的重组比突变相对比率,并将这些值与文献中报道的其他物种的值进行比较,将它们放置在其他已知的重组物种中。因此,优势土壤细菌种群的动态可以用“准有性”模型来部分描述。虽然我们只观察到这些动态在1-10米尺度上构建种群中的重要性,但土壤细菌种群的进化动态如何在其他时空尺度上发展仍然不确定。我们得出的结论是,通过考虑到土壤物种中大量未联系的等位基因多样性在形成局部基因含量和等位基因频率方面的作用,未来关于土壤微生物生态学的工作将会从中受益。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
自然选择理论过时了吗?
密码子使用偏好性量化方法研究
宏基因组分析自然生境下细菌-噬菌体长期共存动力学
揭示马铃薯及其野生群体的遗传多样性和马铃薯的起源、驯化过程
身体更干净,生命更脆弱?| 展卷
人类遗传病与生物进化
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服