打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nat. Commun. | 通过超图学习来推断基因组规模代谢网络中缺失的反应
userphoto

2023.05.30 韩国

关注

今天为大家介绍的是来自Yang-yu Liu团队发表在Nature Communication上的一篇关于基因组代谢的论文。基因组规模代谢模型(GEMs)是预测生物体内细胞代谢和生理状态的强大工具。然而,由于我们对代谢过程的不完全了解,即使高度筛选过的GEMs也存在知识缺口(例如缺少反应)。现有的缺口填充方法通常需要表型数据作为输入来推断缺失的反应。在实验数据可用之前,现在仍缺乏一种快速准确的代谢网络缺口填充的计算方法。针对此问题,作者提出了一种基于深度学习的方法 CHEbyshev Spectral HyperlInk pREdictor(CHESHIRE),从代谢网络拓扑中推理缺失反应。作者证明了CHESHIRE在预测926个高质量和中间质量GEMs中人为移除的反应方面优于其他基于拓扑的方法。此外,CHESHIRE能够改进49个未经筛选过的GEMs对发酵产物和氨基酸分泌的表型预测。这两种验证表明,CHESHIRE是GEM筛选的有力工具。

作为生物体代谢的数学表达,基因组代谢模型(GEM)通过两个矩阵提供了全面的基因-反应-代谢物连接:将代谢物与它们的反应相关联的化学计量矩阵;将反应与它们对应的酶和基因相关联的反应-基因矩阵。GEM是预测生物体内代谢通量的强大计算工具。无论是单独使用或与高通量数据集成,GEM可以产生关于代谢反应原理和机制的深入理解以及可被实验验证或证伪的预测。最近,全基因组测序数据的快速增长引发了由自动重建流程生成的初步GEMs的激增。然而,这些初步模型存在知识空白,因此需要全面的手动筛选,例如找到由于基因组和功能注释不完整而导致的缺失反应。因此,未验证过的GEMs的质量对手动筛选所花费的时间、精细模型质量以及最终在生物医学应用中的实用性都有着深远的影响。

目前研究人员已设计许多基于优化的缺口填充方法,用于推断初步GEMs中的缺失反应。尽管它们的输入数据类型、目标和算法存在广泛差异,但它们通常遵循两个步骤:(1) 找到不能产生或消耗的末端同代谢物和/或初步模型预测与实验数据之间的一些不一致性;(2) 添加一组反应以解决末端代谢物和/或不一致性。基于优化的方法通常需要数据作为输入,以识别模型模拟数据不一致性。然而,对于非模式生物,实验数据并不容易获得,从而限制了这些工具的实用性。例如,大多数肠道微生物被认为是“不可培养的”,其功能仍然未知。即使对于可培养的生物,高通量表型筛选,也依赖于微生物提取物或基因修饰的分析,这可能变得复杂、耗时和昂贵。鉴于可培养生物及其基因组日益增多,急需仅根据基因组序列进行代谢表型的快速准确的in silico预测。尽管预测是理论上的,但下游的实验验证对资源要求更小。

一些基于拓扑结构的填充方法不需要表型数据作为输入,其中包括:(1) 基于通量一致性恢复网络连接的传统方法,如GapFind/GapFill和FastGapFill;(2) 利用先进的机器学习技术的最新方法,如神经超链接预测器(NHP)和基于团闭合的协调矩阵最小化(C3MM)。机器学习方法将GEM中缺失反应的预测视为预测超图上的超链接的任务。与每个链接连接两个节点的图不同,超图允许每个超链接连接多个节点。值得注意的是,代谢网络或任何生化反应网络都具有非常自然的超图表示:每个分子是一个节点,每个反应是一个超链接,连接其涉及的所有分子物种。

现有的基于拓扑结构的机器学习方法存在显著的限制。C3MM具有集成的训练-预测过程,其中在训练过程中包括从反应池中获得的所有候选反应。因此,它的可扩展性受到限制(即无法处理大型反应池),并且每次需要为新的反应池重新训练模型。虽然基于神经网络的方法NHP将候选反应与训练分开,但它使用图来近似超图生成节点特征,导致失去了更高阶的信息。更重要的是,这两种方法都只针对少数几个GEM进行了基准测试(缺乏全面的测试),并且仅在输入GEM中随机删除反应引入人工缺口的情况下进行内部验证(缺乏预测代谢表型的验证,即外部验证)。作者在这里开发了一种名为CHESHIRE(CHEbyshev Spectral HyperlInk pREdictor)的方法,以克服现有机器学习方法的限制。CHESHIRE仅需要一个代谢网络进行训练,并输出来自反应池的候选反应的置信度分数。

CHESHIRE结构

图1

CHESHIRE是一种基于深度学习的方法,利用代谢网络的拓扑特征预测GEMs中的缺失反应,而不需要来自实验数据的任何输入(除了基因组序列)。对于每个代谢网络(图1a),作者使用一个超图(图1b)来建模其结构,其中每个超链接表示一种代谢反应,并连接参与反应的底物和产物代谢物。CHESHIRE采用超图的关联矩阵和一个分解图(由现有或候选反应的超图构建而成)作为输入。前者包含布尔值,表示每个代谢物在每个反应中的存在或缺失。后者由正反应和负反应组成的完全连接的子图构成(每个子图表示一个带有所有代谢物连接的反应),在训练期间由正反应和负反应形成,在预测期间由候选反应形成(图1c,d)。正反应是存在于代谢网络中的反应,而负反应是虚假的(不存在的)并且为了平衡模型而创建的(通常称为负采样)。

CHESHIRE的学习架构包括四个主要步骤:特征初始化、特征提炼、池化和评分(图1e,f)。对于特征初始化,作者采用基于编码器的单层神经网络从关联矩阵中生成每个代谢物的特征向量。这个初始特征向量编码了代谢物与代谢网络中所有反应的拓扑关系的粗略信息。为了捕获代谢物-代谢物之间的交互作用,对于特征提炼,作者使用图卷积网络在分解图上对每个代谢物的特征向量进行精炼,将来自同一反应的其他代谢物的特征结合起来。对于池化,作者利用图特征提取方法从代谢物的特征向量计算出每个反应的特征向量,通过结合了两种池化函数,最大最小值函数和Frobenius范数函数,以提供代谢物特征的互补信息。最后,在评分方面,作者将每个反应的特征向量馈送到一个单层神经网络中,产生反应的概率分数,指示其存在的置信度。在训练阶段,使用损失函数将生成的分数与目标分数。

内部验证

图2

作者将CHESHIRE与最先进的机器学习方法NHP和C3MM进行了比较,因为它们已被证明在超链接预测方法中显示出优越的性能,除此之外还将Node2Vec-mean(以下简称NVM)作为基线方法。下面作者进行了基于人工引入缺口的两种类型的内部验证(见图2a)。对于给定GEM中的代谢反应,首先会被分为训练集和测试集,进行10次蒙特卡罗采样。所有基于深度学习的方法(CHESHIRE,NHP和NVM)都需要负采样反应。作者通过从通用代谢物库中随机选择代谢物来替换每个正反应中一半(如果需要则四舍五入)的代谢物,分别为训练集和测试集创建了1:1比例的负反应。在第一种类型的内部验证中,将训练集和测试集的正反应及其衍生的负反应组合起来,分别用于训练和测试。为了公平比较,作者还向C3MM的测试集引入了负反应。在第二种类型的内部验证中,每个步骤都相同,只是测试集不与其衍生的负反应混合,而是与来自通用数据库的真实反应一起使用。

在第一种类验证中,CHESHIRE在不同的分类性能指标中都取得了最佳表现,包括AUROC、召回率、精确度和F1分数(见图2b-e)。与整体第二好的方法NHP相比,CHESHIRE具有显著更高的精确度和召回率,表明CHESHIRE能够恢复大部分真实反应,而不牺牲区分真假反应的能力。为了进行第二类内部验证,作者使用使用基于属的和通用的BiGG反应池中进行了测试,其中90%用于训练,10%用于测试。前者每个GEM具有相对较小的大小(200-800个反应),而后者具有近17,000个反应。由于具有相似的生物化学机制的反应数量随候选反应池的增大而增加,因此松散的0.5阈值仍可能将数百或数千个候选项预测为缺失的反应。作者没有使用固定的截止阈值,而是添加了置信度分数最高的前25、50、100个和N个(N是人为删除的反应数)。作者发现,在这四个截止值下,CHESHIRE在两种类型的反应池中都实现了最高的恢复率(参见图2f-m)。值得注意的是,在添加属特异性反应池的前25个反应时,CHESHIRE识别了超过40%(平均值)的人为删除反应,明显优于其他三种方法(图2f; P <10−16,双侧配对样本t检验)。随着添加的反应越来越多,CHESHIRE的表现会下降,但仍然显着优于第二种方法C3MM在顶部N截止处的表现(图2i; P <0.05)。此外,预期地,使用整个BiGG通用反应池会削弱所有方法的恢复率。然而,CHESHIRE仍然比NHP和NVM实现了最佳表现(图2j-m; P <10−5)。

外部验证

图3

与使用人工删除反应作为基准的内部验证不同,外部验证通过比较基于CHESHIRE补缺后的GEM与未验证的GEM在表型数据预测方面的表现来测试其性能是否得到改善(见图3a)。这个测试具有生物学上的意义。毕竟,重建微生物GEM的主要原因之一是提供它们代谢表型的理论预测。简而言之,CHESHIRE是基于未验证的基因组的所有反应集训练的模型。候选反应(来自反应池,例如BiGG数据库)根据置信度和相似度得分进行排序。CHESHIRE返回的置信度评分量化了候选反应存在于基因组中的概率。相似度评分测量候选反应与基因组中所有现有反应之间的最大相关性。作者认为相似度较低的反应更有可能在功能上与现有反应互补,所有置信度得分≥ 0.9995的候选反应均按相似度得分(从最不相似到最相似)进行排名。然后将前200个反应添加到未验证基因组中以生成填补缺口的基因组。在给定培养基的情况下,将未验证的基因组和填补缺口的基因组的模拟表现进行比较,以进行验证。作者将模型应用于一个包括24种细菌生长在厌氧条件下产生的9种代谢产物的发酵数据。这些生物的未验证的基因组是使用最近的自动重建流程CarveMe重建的。与内部验证中使用的性能指标相同,但对于不平衡的数据集,AUROC被替换为AUPRC。作者比较了四个不同组的模型:从CarveMe重建的草案基因组(CarveMe),通过添加由CHESHIRE和NHP预测的前200个反应来填补缺口的基因组(CHESHIRE-200和NHP-200),以及通过从通用BiGG反应池中随机添加200个反应来填补缺口的基因组(Random-200)。

CarveMe模型对于预测发酵产物有很高的变异性。其中一个模型能够正确预测所有表型(F1 = 1.0),但另外14个模型无法预测任何表型(F1 = 0.0)。添加由NHP预测的前200个反应几乎没有改善表型预测,并且改善程度甚至比随机添加200个反应还要差(图3b-e)。相反,CHESHIRE-200显著提高了平均性能(图3b-e),特别是对于24个GEM中的11个的F1分数。

结论

作者提出了一种方法CHESHIRE,它使用深度学习技术,基于网络拓扑结构在反应和表型水平上解决GEM中的预测问题。它没有输入任何表型数据,因此不适合与化基于数据驱动的优方法直接进行比较。通过对大量微生物的GEMs进行内部和外部验证,作者严格检验了CHESHIRE的性能。与以前的缺口预测方法相比,CHESHIRE采用了超图的概念和先进的图卷积网络来准确学习代谢网络的几何模式,并预测缺失的代谢反应,而不需要来自任何实验数据的输入。最重要的是,CHESHIRE已在实际生物数据集上进行了验证。据作者所知,以前的基于拓扑的预测工作尚未进行过此类基准测试。

参考资料

Chen, C., Liao, C. & Liu, YY. Teasing out missing reactions in genome-scale metabolic networks through hypergraph learning. Nat Commun 14, 2375 (2023). 

https://doi.org/10.1038/s41467-023-38110-7

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
MetaGEM:直接从宏基因组重建基因组规模的代谢模型
根系分泌物中氨基酸作为信号调控植物微生物胡总的可能性?
干货| 你所要知道的宏基因组关联分析知识都在这里
在肿瘤基质中p62缺乏和ATF4诱导的代谢重编程产生联合削弱效应
代谢组学问答四十八式,准备好接招了吗?(一)
代谢组学在药物发现和精准医学中的应用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服