Nature子刊: 从大量宏基因组数据中对病毒进行基因组分箱

Genome binning of viral entities from bulk metagenomics data

作者：Joachim Johansen, Damian R. Plichta, Jakob Nybo Nissen, Marie Louise Jespersen, Shiraz A. Shah, Ling Deng, Jakob Stokholm, Hans Bisgaard, Dennis Sandris Nielsen, Søren J. Sørensen, Simon Rasmussen

Nature Communications：2022/02/18

Despite the accelerating number of uncultivated virus sequences discovered in metagenomics and their apparent importance for health and disease, the human gut virome and its interactions with bacteria in the gastrointestinal tract are not well understood. This is partly due to a paucity of whole-virome datasets and limitations in current approaches for identifying viral sequences in metagenomics data. Here, combining a deep-learning based metagenomics binning algorithm with paired metagenome and metavirome datasets, we develop Phages from Metagenomics Binning (PHAMB), an approach that allows the binning of thousands of viral genomes directly from bulk metagenomics data, while simultaneously enabling clustering of viral genomes into accurate taxonomic viral populations. When applied on the Human Microbiome Project 2 (HMP2) dataset, PHAMB recovered 6,077 high-quality genomes from 1,024 viral populations, and identified viral-microbial host interactions. PHAMB can be advantageously applied to existing and future metagenomes to illuminate viral ecological dynamics with other microbiome constituents.

论文ID

原名：Genome binning of viral entities from bulk metagenomics data

译名：从大量宏基因组数据中对病毒进行基因组分箱

期刊：Nature Communications

IF：17.694

发表时间：2022.2

通讯作者：Simon Rasmussen

通讯作者单位：丹麦哥本哈根大学

DOI号：10.1038/s41467-022-28581-5

实验设计

结果

1 从宏基因组学数据中进行病毒种群分箱和组装的方法构架

我们使用VAMB来产生宏基因组bins，它的优点在于既能对微生物基因组进行分类，又能将各样本中的bins归入亚种或同种群。已有研究证明这种方法对于研究细菌和古细菌微生物组很有用，但它在病毒学研究中更有潜力，因为病毒的保守性差得多，更多样，由于没有像在细菌中发现的通用遗传标记，因此更难识别。同种特异性病毒基因组可用于直接识别和溯源同一样本队列中的病毒种群(图1a)。为了开发方法构架，我们采用两个基于Illumina鸟枪法测序的有成对的宏基因组和宏病毒组可用的数据集，其中2010年哥本哈根儿童哮喘前瞻性研究(COPSAC)数据集包括662个配对样本，Diabimmune队列数据集包含112个配对样本。这两个数据集都包含一个完成注释的病毒种类列表，分别为10021和328种病毒，我们将其作为训练和测试我们的方法的黄金标准。与COPSAC相比，Diabimmune宏病毒组的病毒富集程度较低(附图1)，因此，我们利用CheckV的平均氨基酸同源性(AAI)模型将宏病毒组中的基因组分为不同质量等级，即完整、高质量(HQ)、中等质量(MQ)、低质量(LQ)和未确定(ND)，以建立一个可比较的病毒数据集。

图1 从宏基因组数据中进行病毒种群分箱和组装的方法构架。a 从分箱的宏基因组中探索病毒的工作流程图。首先，在分箱的宏基因组上训练RF模型；使用参考数据库确定细菌bins，使用配对的宏基因组组装病毒序列确定病毒。将病毒和细菌标记的bins用作训练和评估RF模型的输入。来自任何宏基因组(如人类肠道、土壤或海洋)的bins都可以通过RF模型进行注释，以提取病毒bins序列，并使用专用工具(如CheckV)进一步验证HQ病毒。此外，可以在纵向数据集中探索宿主-病毒动态信息，以建立温和噬菌体和病毒对宿主泛基因组的贡献。b 对来自Diabimmune的病毒bins的预测结果计算AUC、F1分数和Matthews相关性。这些性能分数是根据训练过的RF模型的概率分数和各种病毒预测工具的病毒bins分数汇总计算而来的。对于除RF模型外的所有工具，如果所有重叠群的病毒评分(以平均值、中位数或contig长度加权平均值计算)高于阈值，则基因组被标记为病毒。viralVerify、Seeker、Virsorter2、Virfinder和DeepVirfinder使用的阈值分别为7、0.5、0.9、0.9、0.9。c 在Diabimmune或COPSAC数据集中以三种不同的完整性水平计算的从大量宏基因组中恢复的病毒基因组数量，评估为宏基因组的单个重叠群或病毒bins。用CheckV评估基因组的完整性，MQ≥50%，HQ≥90%，完整基因组定义为基于直接末端重复(DTR)或倒置末端重复的闭环基因组。d 相对于单重叠群评估，使用我们的方法在Diabimmune或COPSAC队列中发现的病毒基因组的百分比增加。e 与(b)类似，对训练过的RF模型和各种病毒预测因子计算预测性能得分，但基于CAMI模拟病毒基因组(包括细菌、病毒和质粒)的预测结果。

2 病毒分箱技术比单个重叠群层面的方法更有效果

宏基因组样本的分箱结果可能包含几十万个bins，因此我们首先开发了一个随机森林(RF)模型来区分病毒类基因组bins和细菌类基因组bins。RF模型利用分箱结果的聚类信息，并在样品特定的分箱结果中聚集信息，形成亚种聚类。在这一研究中，我们发现RF模型能够非常有效地区分细菌和病毒种群，在验证集上的曲线下面积(AUC)为0.99，Matthews相关系数(MCC)为0.91(图1b和附表1)。与单重叠群评估方法相比，RF模型的优势在于其他方法的AUC最高为0.86，MCC最高为0.16。这种性能上的差异可能是由RF模型在bin水平上的评估所解释的，其中一个病毒得分较低的序列不会导致对整个bin的错误预测。例如，与根据CheckV的单重叠群评估相比，我们在Diabimmune和COPSAC数据集中恢复的HQ bins分别增加了200(190%)和771(95%)(图1c，d)。基于CheckV的单重叠群评估，我们发现在COPSAC和Diabmmune数据集中，分别有97.7%和95.3%的HQ contigs被归入HQ bins，这意味着有一小部分的HQ contigs(高达2.3和4.7%)在分箱过程中丢失，造成基因组恢复的净增加降低，但这种影响可以通过单重叠群评估来恢复。最后，我们观察到，当使用两个数据集中的病毒bins时，每个病毒的病毒标志基因数量明显增多(T检验，双侧，t = 16.85，P < 0.0005)，而病毒基因组长度和病毒比例基本相当(附图2)。

3 病毒分箱技术在模拟病毒组数据中表现出色

然后，我们使用模拟数据集(包括两个纯病毒数据集和一个包含细菌、质粒和病毒的混合数据集)研究了VAMB的病毒分箱(binning)性能和预测性能。两个纯病毒数据集由80个crAss样病毒和50个从MGV数据库中随机抽取的小基因组(<6000 bp)病毒组成。为了建立混合数据集，我们将crAss样病毒和小基因组病毒数据集与另外150个随机病毒基因组、8个细菌基因组和20个质粒基因组相混合(见方法)。在混合数据集上，VAMB(144个bins)的表现(高召回率和＞0.9的准确率)优于MetaBAT2(134个bins)，对应于所有模拟病毒基因组的50%以上(144/280)(附图3a)。此外，我们发现VAMB在较低的召回率(>0.5)和不断提高的准确率水平下，复原bins的数量越来越多。对于质粒，这两个工具效率相当，以>0.5的召回率和>0.95的准确率对10/20个质粒进行了分箱(附图3b)。接下来，我们研究了病毒基因组大小和高度相似的病毒如何影响分箱性能。为此，我们对较小的病毒基因组(<6000 bp，n = 50)和同一家族的病毒(crAss-like，n = 80)进行取样。对于小病毒和同一家族病毒集，分别共有48/50和70/80个基因组以＞0.99的召回率和＞0.99的准确率被分箱(附图4ab)。在混合数据集中，VAMB以较高的召回率和准确率(F1>0.9)捕获了大多数小基因组病毒，这证实了小病毒易于分箱的特点(附图4c)，表明基因组大小对分选性能的影响较小。最后，为了进一步验证RF模型，我们比较了单个重叠群病毒预测工具在预测bin是病毒还是细菌方面的效果(图1e)。使用混合模拟数据集，与RF模型相比，单重叠群方法鉴别性能明显更低。例如，具有高AUC(高达0.98)的多个单株病毒预测工具显示出较低的MCC得分，这意味着在给定的阈值下预测不是非常准确(图1e和附图5，6)。然后，我们尝试优化每个单重叠群病毒预测工具的决策阈值(附图5，6)，这略微提高了MCC得分。例如，viralVerify在模拟数据上的AUC为0.98，表明它能有效地区分细菌和病毒基因组，但在细菌和病毒得分分布上存在重叠。因此，即使有一个优化的阈值，viralVerify显示的MCC为0.39。相比之下，RF模型的AUC(0.93)和MCC(0.87)均较高。因此，我们发现RF模型，其次是viralVerify，是混合微生物组装数据集中最适合的分箱方法。虽然RF模型将质粒错误地预测为病毒，但我们发现，在下游使用CheckV有助于做出最终的评估，因为质粒bin包含多个细菌起源的基因，通常被归类为 "NA "或被不太精确的HMM模型挑出(附图7)。

4 宏基因组分箱可以识别宏病毒组无法鉴定出来的病毒基因组

当用我们的VAMB和RF模型方法进行分箱时，我们在COPSAC和Diabimmune数据集中分别获得了4480和916个MQ或HQ代表性分箱的病毒bins。然后，我们将所有VAMB簇视为"病毒种群"，从而得到2428和534个至少具有1个MQ或更高的病毒bins的病毒群。在将从宏基因组数据集获得的病毒群与相应的宏病毒组进行比较后，我们分别在物种(ANI>95)水平和菌株(ANI>97)水平(图2a)上恢复了在宏病毒组中建立的17-36%和9-28%的HQ病毒(对应于527和2676个宏病毒组病毒群)。在宏基因组中恢复的病毒比例大大高于近期研究中的估计值(8.5-10%)。这很有意思，因为深度测序的宏基因组可能会捕获宏基因组中通常没有发现的多种低丰度病毒。此外，我们发现46-69%的HQ宏基因组病毒种群(对应于Diabimmune中的124个和COPSAC中的839个病毒种群)在宏基因组中没有发现，这表明很大一部分病毒组可能在病毒富集过程中丢失或者在诱导形式中没有体现，因为它们是整合的原噬菌体(图2b)。然而，我们也发现，在宏病毒组中有65-83%的HQ病毒种群未在宏基因组数据中发现(Diabimmune中共有197个，COPSAC中共有2589个)，这表明反过来也是如此。对于在COPSAC大量和宏病毒组中发现的病毒子集，我们估计病毒bins的平均完整性更高(T检验，双侧，T=34.02，CI=24.4；27.4，P=2.2e-16)(图2c)。总体而言，我们发现很大一部分肠道病毒种群可以从宏基因组数据中恢复，并且与宏病毒组数据相比，检索的完整性更高。

图2 宏基因组分箱可以识别宏病毒组无法鉴定出来的病毒基因组。a COPSAC和Diabimmune宏病毒组中的不同完整度病毒的比例，或全部用CheckV确定，这些病毒在同一队列的大量宏基因组的VAMB bins中确定。如果对齐部分至少为75%，且ANI>90、>95或>97.5，则我们将宏病毒组病毒定义为基于FastANI的VAMB bins的复原病毒。b使用CheckV确定的不同完整性水平上的病毒种群百分比，在宏病毒组(MVX)和宏基因组(MGX)中均可识别，或仅为其中一个数据集所独有。共享种群的最小序列覆盖率为75%，ANI大于95%。(1) MVX中的MGX：在MGX中发现的病毒种群在MVX中也发现的百分比。(2) MGX不在MVX中：MGX特有的病毒种群的百分比，即在MVX中没有发现。(3) MGX中的MVX：在MVX中发现的病毒种群也在MGX中发现的百分比。(4) MVX不在MGX中：MVX特有的病毒种群的百分比，即在MGX中没有发现。c 病毒基因组的完整性是基于宏病毒组和宏基因组中发现的n = 2646种病毒而估计的，这些病毒在CheckV数据库中具有相同的最接近的参考序列。d 来自大量宏基因组的病毒bins中与宏病毒组中最接近的病毒参考序列不一致的contig数。在大多数病毒bins中，所有contigs都与最接近的参考序列对齐。ANI，平均核苷酸同源性。

5 病毒分箱污染低

最后，我们想研究技术上的“分箱错误”和污染性重叠群的情况，因为这可能会夸大病毒基因组的大小，影响质量评估和下游分析。基于COPSAC数据集中与宏病毒组病毒高度相似的病毒bins(n = 1705)(见方法)，我们发现在91.4%的情况下，每个bin都不包含不相关的重叠群(图2d)。仅考虑多重叠群bins时(n=570)，我们计算出碱基对的平均bin纯度为97.4%，这意味着平均有2.55%的基因组没有与相应的MVX病毒对齐，这表明存在污染，或者说，在大量宏基因组数据集中有更完整的病毒。我们根据模拟数据进一步分析了污染程度，其中87.6%的病毒bins的准确率为1(附图8a)。对于多重叠群bins，我们计算出平均bin纯度为94.5%(中位数100%)，支持了真实数据的结果，即大多数bins的污染程度较低。总之，我们结合分箱和机器学习的方法提高了从宏基因组数据中识别和恢复病毒基因组的能力，并概述了直接从污染程度较低的人类肠道微生物组样本中分箱片段和完整病毒的可能性。

6 重组HMP2 IBD肠道宏基因组队列的病毒组

然后我们将本研究的方法应用于HMP2 IBD队列(包括27名健康对照、65名CD和38名UC患者)。这些样本是以纵向方式收集，每个患者有1-26个样本。重要的是，该队列中没有已有的宏病毒组学数据，使用我们的方法，我们能够鉴定队列中的细菌和病毒种群，并仅使用宏基因组学数据探索它们在IBD中的动态变化。从该队列中，我们恢复了577个完整、6077个HQ、9704个MQ(图3a)和122,107个LQ病毒bins，对应于263个完整、1024个HQ、2238个MQ和44,017个LQ病毒种群。与单重叠群评估相比，我们还发现基因组大小>200 kbp的较大病毒/巨型病毒的基因组完整性有所增加(附图9)。在所有的数据集中，我们观察到54个分箱的假定巨型病毒(补充数据1)。此外，我们还观察到，作为单个重叠群和病毒bins恢复的病毒具有相似的病毒长度分布模式，两者都与CheckV质量等级相关(图3b)。

图3 重组HMP2 IBD肠道宏基因组队列的病毒组。a HMP2中三种不同完整程度的病毒基因组的数量，以单个重叠群或来自宏基因组的病毒bins进行评估。基因组完整性的评估是用CheckV确定的，这里显示的是中等质量≥50%(MQ)，高质量≥90%(HQ)，完整=基于直接末端重复或倒置末端重复的封闭基因组。b HMP2中以来自宏基因组的单重叠群(n = 215009)或病毒bins(n = 138367)评估的四个不同完整程度的病毒基因组的序列长度分布(kbp)。c 基于同一VAMB簇内各bins之间的成对ANI基因组测定的ANI中值。ANI中值在0-25个bins的小型VAMB簇和300-400个bins的大型VAMB簇中均高于97.5。d 基于TerL的crAss样bins的无根进化树的Cladogram图。五个不同的VAMB簇进行不同颜色着色，说明了高度的单系关系。ANI，平均核苷酸同源性%；DTR，直接末端重复；ITR，倒置末端重复；Kbp，千碱基对。

7 病毒种群分类高度一致

然后，我们分析并发现我们的病毒种群的分类一致性很高，从MQ到完整病毒种群的簇内平均核苷酸同源性(ANI)的中位数为97.3-99.3%(附图11)。即使在有超过100个样本特异性病毒bins的病毒簇中，簇内ANI中值也始终很高(中位数=97.1-98.5%)(图3c)。但是，簇间ANI较低，在91.7-92.8%之间，更接近于属水平。因此，我们的方法能够在不同的样本中识别和聚类接近菌株水平的病毒基因组。例如，在HMP2数据集中，我们确定了50个不同的病毒种群，总共有916个MQ或更好的crAss样病毒bins。此时，病毒种群653对应于原型crAssphage噬菌体，占HMP2数据集中发现的916个crAss样基因组中的253个。然后，我们用所有这916个bins来构建一个基于TerL的系统发育树，发现根据其种群的病毒基因组的位置高度一致(图3d和附图12)。病毒种群653形成了一个单系分支，而所有其他crAss样bins中除一个bin外均为单系。因此，将crAss样基因组划分为分箱簇很可能代表了实际的病毒多样性。综上所述，这表明我们的无参分箱产生了分类准确的病毒种群，从而聚集了各样本之间高度相似的病毒基因组。

8 健康受试者的宏基因组病毒组是个性化且高度稳定的

一些宏病毒组研究报告了人类肠道中存在大量稳定的病毒。我们发现，在HMP2队列中，非IBD受试者的肠道病毒群是高度个性化且稳定的，这体现在非IBD受试者的样本与UC(T检验，双侧P = 0.017，t = -2.47，CI = -0.01;-0.13)和CD受试者(T检验，双侧，P = 0.023，t = -2.3，CI = -0.12;-0.01)相比，Bray-Curtis差异度更低(图4a，b)。此外，Price等人所定义的菌群失调样本可以用主成分分析(PCoA)明确分开，其中病毒组解释了4.2和3.4%的变化(图4c)。这一点通过对病毒(P < 10 - 3，R2 = 1.6%，F = 9.51，permutations = 999)和细菌丰度谱(P < 10-3，R2 = 3.0%，F = 11.97)的PERMANOVA分析得到证实，并表现出影响病毒组和细菌组的失调现象。α-多样性指标支持这一点，因为与UC和CD受试者相比，非IBD受试者的Shannon-多样性(SD)更高(T检验，双侧，P = 0.000155，t = -3.79和P = 7.9e-09，t = -5.81)，而菌群失调影响了每个患者组，导致SD明显降低。与此相应，病毒丰富度在UC(双侧T检验，P=1.44e-15，t=-8.09，CI=-12.40;-19.80)和CD(双侧T检验，P=<2e-16，t=-9.39，CI=-12.91;-19.50)患者中较低，而在菌群失调样本中进一步升高(图4d, e)。在细菌组中也观察到了这些病毒的α-多样性趋势，这表明在菌群失调期间，病毒遵循其细菌宿主的增加或减少(附图14)。事实上，在348种差异丰度病毒中，我们发现有250种可能是温和病毒，它们随着菌群失调的增加而增多(线性混合效应模型，FDR校正后P<0.005)。这一观察结果证实了早期的结果，即UC和CD中温和病毒增加。对病毒和预测的细菌宿主的纵向丰度曲线的进一步分析再次证实了同步扩展理论(附图15)。

图4 健康受试者的宏基因组病毒组是个性化且高度稳定的。a 3个非IBD(绿)、3个UC(黄)和3个CD(红)诊断对象的纵向病毒群组成。b 基于Bray-Curtis距离(BC)函数的不同受试者样本之间(第一部分病人间距离)和同一受试者样本之间(第二部分病人内距离)的箱线图。BC距离展示的是来自非IBD(n = 326)、UC(n = 323)和CD(n = 573)诊断对象的样本。此外，BC距离根据菌群失调(蓝色，UC=39个样本，CD=133个样本，非IBD=38个样本)或不失调(绿色，UC=284个样本，CD=425个样本，非IBD=286个样本)进行着色。c HMP2病毒丰度矩阵计算的Bray-Curtis距离矩阵的主成分分析(PCoA)。d 宏基因组得出的病毒种群的香农多样性估计值，并根据(b)中的图例进行着色。非IBD-健康对照，UC-溃疡性结肠炎，CD-克罗恩病。

9 从病毒种群和MAGs探索病毒-宿主相互作用

对宏基因组学数据进行分析的一个特点是细菌和病毒种群同时被分箱。因此，我们能够估计微生物群落中病毒和细菌的丰度，并使用MAGs通过计算方法探索病毒宿主范围。从HMP2数据集中，我们总共获得了3130和3819个接近完整(NC)和中等质量(MQ)的MAGs。基于MAGs中的CRISPR间隔序列，我们发现间隔序列命中了464个(45.3%)具有至少一个HQ代表序列的病毒种群。为了进一步扩展我们的病毒-宿主预测，我们在MAGs和病毒种群之间进行了“all-vs-all”的比对搜索，以寻找原噬菌体特征。然后，通过结合CRISPR间隔序列和原噬菌体搜索，我们将来自拟杆菌门(Bacteroidetes)、厚壁菌门(Firmicutes)、放线菌门(Actinobacteria)和变形菌门(Proteobacteria)的93.6%、74.4%、82.5%和65.0%的MAGs分别与至少一种病毒关联起来(附图16)。我们估计CRISPR间隔序列和原噬菌体特征的宿主预测准确度在物种水平上为94.5%和75.6%(附图17B)。因此，我们证实大多数肠道噬菌体宿主范围通常比较狭窄。属于粪杆菌属(Faecalibacterium)和拟杆菌属(Bacteroides)的MAGs似乎是病毒热点，因为99.7％至98.7％可能与一个HQ病毒bin相关，分别对应123和230个不同的病毒种群(图5a)。例如，在丰富的共生普通拟杆菌(Bacteroides vulgatus)中，我们观察到多个样品中的多种病毒随时间变化而出现一致的原噬菌体特征(图5b)。有趣的是，由于对crAss噬菌体的宿主范围还不太清楚，我们在数据库中分析了CRISPR间隔序列对MAGs的比对率。尽管我们可以将全部HQ病毒群的45.3%宿主注释为MAGs，但使用CRISPR间隔序列，916个crAss样bins中只有74个可以与我们数据集中的3306个拟杆菌bins中的任何一个相关联。尽管我们已经为998/3306(约30%)的拟杆菌bins组装了CRISPR阵列。当我们对包含580,383个细菌基因组的综合CRISPR间隔序列数据库进行类似的搜索时，我们可以将916个crAss样bins中的512个注释为拟杆菌。这些结果表明，在相同的环境中，从拟杆菌CRISPR-Cas系统中提取的CRISPR间隔序列并不经常以crAss样噬菌体为靶点。

图5 从病毒种群和MAGs探索病毒-宿主相互作用。a 细菌MAGs和病毒的关系。每个MAGs通过病毒与MAGs的序列比对(绿色)、CRISPR间隔序列比对(橙色)或两者(蓝色)与病毒bins相连。与MAGs属相关的不同病毒种群的数量，其基于以下任一情况：病毒与给定属内MAGs的序列比对、CRISPR间隔序列比对或两者都有。b 病毒与HMP2数据集中VAMB簇216(B. vulgatus)的所有MAGs相关。例如，在绝大多数存在B. vulgatus的样本中，病毒种群502与B. vulgatus相关。

10 分箱的病毒种群富含温和噬菌体中发现的蛋白

另一个有趣的话题是病毒-宿主的互补性，特别是噬菌体可以为宿主提供什么功能，以及病毒蛋白质组在不同宿主中有何不同。利用我们的病毒-宿主联系图，并通过对病毒蛋白序列的表征，我们将蛋白注释按其预测的宿主属分层排列。总体而言，与病毒结构相关蛋白如基底板、门户蛋白、衣壳蛋白、头部、尾部/尾部纤维以及病毒整合酶和Lambda-阻遏蛋白相关的注释蛋白高度富集(补充数据2)。例如，高达60%的病毒中发现了Lambda-阻遏蛋白，这表明我们的数据集富含温和噬菌体(图6a)。有趣的是，我们还发现了病毒编码的蛋白结构域，这些结构域具有介导病毒进入受体的功能，在感染拟杆菌和Alistipes的一组病毒种群中富集，如TonB plug和TonB依赖性受体结构域(PF07715和PF00593，Fisher精确检验，adj.P < 0.05，FDR校正)(补充数据3)。此外，TonB结构域还编码一个免疫优势表位，表明病毒种群在被其宿主表达时携带免疫原性进入受体。最后，逆转录酶(RT，PF00078)蛋白也大量存在，这与最近的结果一致，并且无论预测的宿主是什么，所有的病毒种群都存在(附图18A)。这些蛋白是噬菌体多样性产生区域中的已知模块，可引起特定病毒基因的高变异性。

图6 病毒蛋白和未知的宏病毒组。a 与四个细菌宿主属相关的HQ病毒的百分比；Alistipes、Bacteroides、Faecalibacterium和Roseburia。b 具有至少一个病毒标志基因的所有病毒bins的Virsorter2病毒预测得分。使用CheckV评估完整性，当完整性≥50%或高质量≥90%时，这些bins被分组为(1)HQ-MQ-ref(n = 45,983 bins)，(2)完整性低于50%的bins被注释为“未知”(n = 392,226 bins)，以及(3)对细菌宿主具有可靠的CRISPR间隔序列的“未知”bins被注释为病毒样(n = 43,695 bins)。c 细菌MAGs、HQ-MQ-ref病毒种群、“未知”和(b)中定义的病毒样种群的样本RPM分布。d HMP2中具有HQ基因组的罕见和高度流行病毒的RPKM丰度。每个点代表一个病毒种群，根据病毒科分类进行着色。e 与(d)相同，但有类似病毒的种群，如1338集群，表明许多病毒的丰度低，但高度流行。

11 探索未知(“dark-matter”)的宏病毒组

最后，我们研究了RF预测bins中与任何已知基因组都不相似的部分，即宏基因组“暗物质”，被定义为至少没有一个HQ或MQ病毒bins的种群。因此，这些种群是微生物组的一部分，而这些微生物没有被归类为细菌、古细菌和不相似的已知病毒基因组。由于“暗物质”数量众多(占所有RF预测的VAMB簇的97.6%)，我们怀疑其中许多是病毒片段或未知病毒。大于10 kbp 的“暗物质”种群与HQ-MQ病毒bin相比，至少有一个病毒标志基因的显示出更低的病毒预测分数，而CRISPR间隔序列靶向的bins呈现出显著更高的预测分数(T检验，双侧，CI = 0.05:0.067，P = 2.2e-16)，因此我们将其注释为“病毒样”(图6b和附图19)。在对这些组(HQ-MQ、病毒样、“未知”)的读长丰度进行分层时，我们发现它们分别解释了样本中总读长丰度的2.77%、2.04%和17.7%(图6c)。此外，我们发现，在不同疾病状态中，至少有40%的患者中检测到5%的HQ和3.7%的病毒样种群。例如，在41%的队列中观察到HQ病毒群簇653(图6d)。同时，在98%的个体中观察到1338的病毒样种群，但与所有参考基因组的相似性都较低(图6e)。然而，在将“未知”bins标记为病毒时应谨慎，因为这些“暗物质”bins可能不完整、受污染或含有其他类型的可移动遗传元件，而这些元件编码与病毒共享的蛋白质，如整合酶、聚合酶和毒素-抗毒素模块。

讨论

由于目前病毒组装过程面临的挑战，导致病毒基因组恢复不完整，因而病毒种群一直都难以研究。宏基因组数据集对于识别广泛的病毒，特别是毒力强大的病毒至关重要。然而，建立宏基因组数据集的不足和困难与大量宏基因组产生的事实相结合，提示我们需要更多的方法来有效提取其中的病毒组。本研究提出了一个改进的方法框架，直接从大量宏基因组数据集中探索宏病毒组。

利用我们的病毒和细菌关联图，我们希望将人类的肠道病毒种群与高度丰富的肠道细菌联系起来并进行研究。这些细菌不仅是高度丰富的肠道共生菌，而且也是病毒的感染宿主热点，正如我们通过将230个和123个病毒种群分别与拟杆菌和粪杆菌联系起来所显示的那样。病毒热点可以用其绝对数量和基因组测序深度等因素部分解释，这可能使CRISPR-cas系统的组装更加完整。这些联系中的很大一部分也是通过原噬菌体特征，即细菌和噬菌体之间共享的基因组元件建立起来的(图5)。原噬菌体特征可能是溶菌和合并感染率增加的结果，因为较高的微生物密度和噬菌体吸附率为多个噬菌体“捎带”高产宿主和交换遗传物质提供了有利条件。与其他结果一致，我们发现F. prausnitzii基因组中含有丰富的原噬菌体，并且能够为HMP2中99.7%的细菌bins注释一个原噬菌体。在HMP2队列中，我们确定了250种可能的温和有尾噬菌体目病毒，在肠道菌群失调加剧后以与细菌宿主同步的方式进行扩张。然而，还需要做更多的工作来概述复杂的病毒-宿主动力学，以解释在IBD中观察到的与菌群失调有关的病毒对细菌扰动的影响程度，如“Piggyback-the-Winner”或“Kill-the-Winner”的动态，并仔细计算相关关系。

基于病毒蛋白质组，很明显，在大量宏基因组中提取的大部分HQ病毒可能是温和病毒，因为我们在46%的病毒种群中发现了整合酶蛋白，在感染粪杆菌的60%的病毒中发现了Lambda-阻遏蛋白。这让人们预测，非富集的病毒群主要是感染样本中占主导的宿主细胞的病毒。有趣的是，我们从感染拟杆菌和Alistipes等拟杆菌门细菌的病毒中提取了数百个病毒蛋白质组，发现病毒编码具有免疫优势表位的蛋白质的例子，如TonB plug结构域(PF07715)和TonB依赖性β-桶结构域(PF00593)。最近的一项研究表明，常见的结构性噬菌体蛋白，如TMP蛋白也含有免疫优势表位，可通过交叉反应引起抗肿瘤免疫。因此，研究病毒生物通过免疫原性蛋白的水平转移和表达影响人类宿主-微生物群免疫平衡的程度是很有意思的。

迄今为止，宏病毒组研究一直是探索微生物组中病毒多样性的主要来源。现在，大量宏基因组中的病毒种群越来越多地被发现，本研究表明，通过在三个不同的队列中进行病毒分箱，可以识别出更完整的病毒基因组，最近一篇侧重于对测序病毒颗粒进行分箱的论文中也有类似的结果。我们的方法允许在三个队列中对病毒和细菌种群进行精确聚类，从而能够直接分析病毒与宿主的相互作用并发现新的多样性。我们相信，未来的研究可以极大地利用这种方法来进行病毒组分析，并研究病毒对控制人类健康的复杂微生物组生态系统的影响。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。