打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
科研 | SBB:基于扩增子、宏基因组序列预测微生物群落代谢特征


编译:橙,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

随着代谢组学技术的发展,尤其是以人类肠道中的微生物群落代谢组学为代表,为人们了解疾病患者体内被破坏的功能和稳态,分析不同调节途径之间的代谢差异,发现与疾病相关的潜在生物标志物,为深入了解潜在的致病机理提供新的途径。

然而目前某些特殊环境代谢组学产物较难大规模获取且成本昂贵,而扩增子、宏基因组测序技术则相对成熟。作者开发了一种预测微生物群落中潜在代谢物的计算方法,通过:

①识别预测微生物特征的最佳数据集

②量化代谢物预测精度,推断复合代谢组,并构建MelonnPan模型 (Model-based GenomicallyInformed High-dimensional Predictor of Microbial Community Metabolic Profiles)。

针对两个独立的人类肠道微生物组数据集,证明该流程成功得到超过50%的相关代谢物的群落代谢趋势,能够预测来自宏基因组数据的微生物群落代谢组学特征。此外珊瑚、小鼠肠道和人类阴道等环境的微生物预测结果显示出类似的准确性,与此同时作者提供了RTSI期望分数,用于指导该流程在其他环境样本数据中的应用。这种“预测性代谢组学”方法对于帮助研究者进行后续实验设计,解析特定环境群落的代谢潜力提供新的工具。

论文ID

原名:Predictive metabolomic profiling of microbial communities using amplicon or metagenomic sequences

译名:基于扩增子、宏基因组序列预测微生物群落代谢特征

期刊:Nature Communications

IF:11.878

发表时间:2019.07

通讯作者:RamnikJ. Xavier; Curtis Huttenhower

作者单位:美国哈佛-麻省理工学院Broad研究所

实验设计


宏基因组数据获取、分类和功能注释:收集健康和疾病患者粪便样本,进行DNA提取及宏基因组测序。主要包括使用Trimmomatic去除短序列,bowtie比对去宿主序列,MetaPhlAn2物种注释,HUMAnN2功能注释,并将预测蛋白与UniRef90蛋白数据库进行比对。

代谢组:使用四种LC-MS方法测定代谢产物,包括代谢物和脂质等。原始LC-MS数据使用Genedata Expressionist v9.0进行处理,用于化学噪声去除、RT比对、峰值检测和同位素聚类,并对数据进行过滤、转换和标准化。

通过拟合弹性网络模型进行交叉验证评估预测指标的良好程度,并应用MelonnPan模型,将基因与代谢物联系起来,与此同时将这些随机得到的预测良好的代谢物数据与原始数据得到的预测良好的代谢物数量进行比较,并基于主成分分析(PCA)得到的相似性计算新样本RTSI得分,进一步评估预测性能。

实验设计

1 MelonnPan算法

作者开发的MelonnPan算法结合物种分类信息及功能解析,可以从扩增子或宏基因组测序数据中预测代谢物特征。MelonnPan具有从未经鉴定的微生物中捕获信息的功能注释能力,并且对于该模型作者特别讨论了其在人类肠道微生物中的应用,对于其他环境的微生物数据则使用弹性网络正则化来识别哪些特征(分类或功能)对特定代谢物具有预测性。

主要过程包括:首先通过给定一个新的分类图谱(扩增子或宏基因组)或宏基因组功能图谱(即基因家族丰度),结合特征序列的子集来估计相关的代谢组,弹性网络模型回归系数用作预测算法中的权重。利用线性回归方程将系数值乘以序列特征丰度,获得测序数据和实验测量的代谢物丰度的信息(图1)该模型可应用于来自类似环境的微生物群落代谢潜力预测。

图1 MelonnPan预测模型从宏基因组数据预测微生物群落代谢特征(a)宏基因组数据与微生物分类信息拟合及弹性网络正则化回归确定微生物特征级并预测代谢物(b)通过序列特征系数,进行新样本代谢物特征预测

2 MelonnPan准确预测来自基因组的代谢物

作者使用两个独立的宏基因组和代谢组数据集,并模拟466种代谢物组合。经过滤、模型拟合和内部交叉验证之后,判断来自人类肠道数据MelonnPan模型的预测情况。预测结果表现良好的代谢物主要包括鞘脂(神经酰胺和植物鞘氨醇),脂肪酸(如二十二碳五烯酸和己酸)、B族维生素(泛酸)、胆固醇和胆汁酸衍生物(如胆石酮和胆酸),这些化合物被认为是调节宿主微生物代谢的重要信号分子。

图2 MelonnPan基于宏基因组序列预测代谢物特征(a)相关性大于0.3的代谢组,包括(b)107种标记的代谢物(c)胆甾酮(d)泛酸的预测效果。

微生物群落数据评估MelonnPan准确度

MelonnPan首先标记训练宏基因组中不存在的任何特征(微生物分类单元或基因家族),对于剩余的共同特征(训练样本和测试样本之间),基于主成分分析(PCA)通过寻找与解释大多数训练微生物群变化的主成分(PC)的最高相关系数,计算平均相似性得分RTSI。结果表明代谢物中代表性样品(高RTSI)和可预测代谢组之间存在很强的相关性。作者与类似工具MIMOSA进行比较,结果表明MelonnPan可产生更高置信度和更多预测良好的代谢物。

4 MelonnPanMelonnPan揭示有生物学意义的相互关系

通过富集分析确定代谢模型中最常见的类别,即在代谢物预测过程中显著地上调或下降的特征类别。MelonnPan列表中,有8个属的含量显著过高,其中在假黄酮提取菌、梭状芽孢杆菌、黄连球菌、厌氧菌、布氏杆菌、柯林斯菌、瘤胃球菌和厌氧菌中效果最强(图3a)。除属于放线菌门的柯林斯菌外,其余属均来自厚壁菌门。表明MelonnPan能够识别功能相关的基因家族与物种,甚至菌株特定的代谢联系,促进在更高的分类分辨率水平上进行生物学相关性的机制研究。Pfam数据库中没有被富集的单个Pfam家族,但在预测基因家族中,非特征蛋白结构域的显著过度表达(图3b)

图3 MelonnPan揭示具有生物学意义的功能关系。

预测代谢产物揭示患者代谢组的整体结构

为了证明MelonnPan能够在不直接测量代谢物的情况下获悉代谢谱中的生物变化,作者比较了来自被测代谢物代谢变化的前两个主成分,并将来自推断代谢物的预测变化叠加在同一个二维空间中。代谢物包括来自多种途径相互转化的化合物,包括胆汁酸和长链脂肪酸组,胆固醇,四吡咯衍生物,以及氨基酸、肽、嘌呤及其衍生物等代谢物的混合物。根据预测和测量的前50个独特代谢物簇的代谢物成分之间的斯皮尔曼差异,排序图显示了炎症性肠病患者微生物群中相似的整体结构,反映出测量的代谢化合物与预测的代谢潜力结果的接近程度(图4),表明即使没有全面的代谢组学分析,MelonnPan预测也可用于推断与疾病相关的代谢组分差异。

图4 主坐标分析(PCoA)揭示微生物群中预测和测量的代谢产物相似性分布。

预测人体和环境微生物代谢

作者将MelonnPan应用于三个成对的16S和代谢组学数据集。这些数据来自:
①与生态环境相关的珊瑚微生物群落
②阴道微生物群
③小鼠肠道的成对微生物和代谢样品。
通过16srrna基因扩增子(16S)测序,对每个数据集的样本进行分类组成分析,使用质子核磁共振谱(1H-NMR),靶向、非靶向LC-MS和气相色谱(GC-MS)代谢组学技术分别用于代谢组学数据集分析,结果进一步强调了MelonnPan在各种生态环境中用于微生物-代谢物关联性研究的可能性。

讨论


MelonnPan的应用表明微生物群落物种信息和功能基因中所包含的信息与代谢组分的含量有足够的相关性,可以预测微生物群落代谢潜力。这不仅对人类肠道研究有特殊意义,而且对于包括环境微生物在内的广泛生境有重要意义。作者对其他环境中的数据集进行了训练拟合,并提供估计新样本预测性能的RTSI指数,以指导后续不同来源数据集的代谢组学预测。

尽管该方法不能代替代谢组学分析,但它可以在宏基因组学研究中提供代谢潜力更大可能性。此外为了进一步研究物种丰度数据是否会导致预测偏差,作者对物种丰度数据进行了额外分析,将其作为MelonnPan模型的输入预测因子。尽管物种水平上预测因子表现相似,但不同群落中的菌株差异可能会显著影响代谢物预测的通用性。这强调了将基因水平层面作为预测因子的重要性,因为特定菌株的特定代谢以及其他表型相关性状(如抗生素抗性)可能无法单独从物种丰度数据中获得。

此外尽管MelonnPan可以用于人类肠道以外的其他环境中的预测,但应该注意的是,每个训练模型都是基于特定环境。因此,在人类肠道上学习的模型可以推广到其他人类肠道表型,但没有一个模型可以用于跨环境预测任务。因此,MelonnPan旨在作为一种假设生成工具,为随后的实验验证研究提供信息。未来的工作有可能关注菌株特异性基因集,甚至潜在的生物活性分类群之间的单核苷酸多态性水平差异,以进一步提高MelonnPan预测准确性。

对于该流程未来的研究可以通过①整合其他微生物指标类型,如多组学数据互相结合②利用纵向剖面进行动态时间剖面进行预测③采用更复杂的机器学习策略,如多变量或贝叶斯框架。从而使我们能够更好地理解微生物组学的动态,从分子水平走向微生物多组学研究。

评论

微生物代谢组学作为代谢组学的一个研究领域,通过GC-MS、LC-MS等平台对微生物在环境或生理时期内全部低分子量代谢产物同时进行定性和定量分析,进而研究微生物群落在外界环境发生变化后其代谢产物的变化规律,从了解微生物是什么,可能具备何种功能,实际发挥了何种作用,层层深入,这对于解释更深层次的环境微生物学研究提供了新的思路。

作者使用生物信息学方法构建了基于结合扩增子物种信息及宏基因组基因信息,可用于预测代谢潜力的MelonnPan包。这种“预测性代谢组学”方法对于帮助研究者进行实验设计,及特定环境群落的代谢潜力解析提供新的工具。例如作为研究者的一个预测工具,为发现更多未知的现象提供了更大及更为便利的工具,这对于认识复杂的微生物群落具有十分重要的意义。


你可能还喜欢

  1. 2019年度回顾 | 微生态环境微生物类微文大合辑

  2. 2019年度回顾 | 微生态人体/动物微生物类微文大合辑

  3. 2019年度回顾 | 技术贴合辑大放送



这些或许也适合你哦👇

  1. 最低250元!微生太扩增子(16S/18S/ITS)测序+分析服务!

  2. 福利大放送 | 宏基因组分箱 (Binning)基础与应用免费直播课程开课啦


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
我的生信之路3
iMeta文献观点:16s全长-功能预测更具优势
有声专栏-宏基因组专业词汇讲解——001宏基因组
宏基因组学技术与微生物群落多样性分析方法
CSBJ综述:微生物组数据挖掘方法的挑战与机遇
宏基因组找不出来的代谢通路,代谢组可以!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服