打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nat. Mach. Intel. | 基于图神经网络在单细胞ATAC-seq数据上推测转录因子调控网络
userphoto

2022.05.03 韩国

关注

本文介绍由北京卫生服务与输血医学研究所、北京放射医学研究所的Xiaochen Bo研究员团队和Hebing Chen研究员团队联合发表在Nature Machine Intelligence的研究成果。作者开发了一个名为DeepTFni的新计算方法,可在scATAC-seq数据上推测转录因子调控网络(TRN)。通过使用图神经网络,DeepTFni在TRN推测中具有出色的性能,且该方法适用于有限细胞数目情况。此外,通过应用DeepTFni,作者识别了组织发育和肿瘤发生中的枢纽TF,并揭示了混合表型急性白血病相关基因对TRN发生显着改变,而在信使RNA水平上仅存在中度差异。DeepTFni网络服务器易于使用,并为几种流行的细胞系提供预测的TRNs。

1

简介

数百个转录因子(TFs)之间的复杂调控关系通常被建模为TF调控网络(TRNs)。作为基因调控网络的核心子网络,TRNs是大多数生物过程和复杂疾病中细胞识别的基础。构建TRNs的主要方法是破译TF与其targets之间的相互作用。由于探索大型TF- target网络实验存在困难,因此计算网络推测方法被广泛应用于推测TRNs。考虑到TRNs的复杂性,因此单细胞分析变得可行。最近在单细胞RNA测序(scRNA-seq)数据上开发了几种方法,大部分假设于从共表达模式中提取调控信息,但这会引入假阳性。近年来,多项研究揭示了复杂生物过程中染色质可及性与转录调控之间的关系,并构建了基因间调控关系的综合图谱。此外,TRN推测极大地受益于整合bulk ATAC-seq和单细胞ATAC-seq(scATAC-seq)数据。

当前大多数方法将TRN推测视为一个简单的统计问题。然而,这类方法很难利用TRN结构的内在信息,而这些对于理解TFs与其targets之间的复杂关系至关重要。利用TRN结构的方法是将其视为一个图,其中节点对应于TFs,边对应于TF之间的互作;因此,TRN推测可以表述为链接预测任务。变分图自动编码器(VGAE)是基于图神经网络(GNN)的经典模型,在许多链接预测任务上取得了巨大成功。一种名为基因调控图神经网络(GRGNN)的方法最近在scRNA-seq数据上采用链接预测来推测TRN。

在这里,基于染色质可访问性数据在TRN推测中的应用前景以及GNN模型的出色性能,作者提出DeepTFni(http://deeptfni.sysomics.com/)在scATAC-seq数据上推测TRN。将TRN推测看作链接预测,DeepTFni旨在推测由知识不完整而导致TFs间互作的缺失。与将TRN推测视为转录产物反向工程任务的这个传统概念不同,DeepTFni建立了一种新方法,通过直接测量转录调控的可能性来推测TRNs。由于GNN的强大性能,DeepTFni在处理TFs之间的复杂关系网络方面具有优势,并可应用在仅有数十个细胞的情况。

2

结果

DeepTFni概述

作者用DeepTFni在scATAC-seq数据上进行TRN推测(图1)。它利用VGAE来学习图的潜在嵌入和整个拓扑。在整个工作中,TRN表示为无向图G{V,E},其中节点(V)表示TFs,边(E)表示它们的互作。DeepTFni的输入仅仅是一个scATAC-seq计数矩阵,而DeepTFni的输出是估算的TRN。

将TRN推测作为链接预测任务,DeepTFni工作流程由三个步骤组成。首先,作者构建了一个起始TRN骨架,它代表一个不完整的先验,由一组具有最大可能性的调控互作TF对组成。它作为:(1)提供信息的真实参考,以区分模型训练过程中是否存在新的TF互作;(2)评估过程中的ground truth。这一步从扫描可访问的TF基因启动子开始。TF-TF相互作用被定义为在一个TF的可访问启动子中出现的TF motif(图1a)。通过这种方式,作者构建了TRN骨架并使用初始邻接矩阵表示它(图1b)。其次,作者使用scATAC-seq数据计算节点特征。节点特征被定义为调节电位(RP)分数,它反映了在给定细胞中给定基因周围scATAC-seq峰的累积调节。第三,作者构建了VGAE模型(图1c)。它的编码器是一个两层图卷积网络,它的解码器执行一个内积跟着一个logistic sigmoid函数。编码器首先将初始邻接矩阵(TRN骨架)以节点特征矩阵作为输入,然后为每个TF节点生成潜在表示。接下来,通过解码器从潜在表示中重新建立TF互作。为了减少随机模型组件引起的不良影响,作者应用十遍预测策略来生成鲁棒的TF互作。输出是由重构的邻接矩阵表示的推测TRN(图1d)。

图1 DeepTFni 工作流程概述

DeepTFni实现了对TRN的准确预测

为了评估DeepTFni的性能,作者首先使用scATAC-seq数据和TF motif分析联合生成ground truth网络,其被称为TRN骨架。如前所述,DeepTFni旨在根据观察到的链接恢复TF之间缺失的链接。因此,作者从链接预测的角度评估DeepTFni。但通常作者不知哪些链接是缺失的。为了解决这个问题,一种常见的做法是将观察到的链接分为两部分:一部分用作已知信息来指导模型训练,另一部分仅用于测试,因此在训练期间被视为未知。在DeepTFni中,作者将TRN骨架的链接设置为观察到的链接,并将它们分为以上两部分。TRN骨架的已知部分作为新TF互作可以在其上生长的支架,通过检查未知部分的恢复结果,来评估DeepTFni推测新TF互作的能力。

作者将DeepTFni应用于人的外周血单核细胞(PBMC)的10X genomics scATAC-seq数据集上。保留了细胞数排名前四的细胞类型,并分别对每种细胞类型执行DeepTFni。验证集的损失迅速减少(图2a),并在不同细胞类型中测试准确度超过0.84。由于DeepTFni是一种半监督学习方法,作者接下来研究了它对初始值的敏感性。对于每种细胞类型,作者使用随机初始值运行20次DeepTFni。DeepTFni提供了高度可重复的结果(图2b)。

然后作者将DeepTFni与DeepWalk、GENIE3、GRNBoost2和SCENIC进行了比较。作者将DeepTFni和DeepWalk应用于人类PBMC scATAC-seq数据,然后将GENIE3、GRNBoost2和SCENIC应用于具有默认参数的人类PBMC scRNA-seq数据。使用AUROC、测试精度和精度召回曲线来评估算法。相比之下,DeepTFni具有最高的测试精度和AUROC(图2c)。在插补误差方面,DeepTFni具有最高的精度和召回率(图2d)。

转录因子调控网络定义了细胞类型特异性转录状态。每种细胞类型或稳定状态由活性TFs的特定组合定义。因此,通过检查预测TRNs的特异性,可以评估每种方法推测具有生物学意义TRN的能力。为此,作者首先计算了四种细胞类型中每个TF的互作次数(称为TF度),然后测量了每对细胞类型之间的TF度向量的相关性。DeepTFni推测的TRN显示出不同的细胞类型特异性(图2e)。DeepTFni从CD14+单核细胞中推测出一个极其复杂的KLF4调节网络,但KLF4在淋巴细胞中没有预测到互作(图2f)。通过检查scRNA-seq数据,作者发现KLF4在近80%的CD14+单核细胞中表达,但在不到10%的淋巴细胞中表达(图2g)。这一观察进一步证实了KLF4的细胞类型特异性。

总之,这些结果表明DeepTFni可以准确地从scATAC-seq数据构建TRNs,并且在预测性能方面和生物学可解释性方面均表现良好。

图2 DeepTFni与其他方法的性能对比

DeepTFni可以从有限数目的细胞中捕获TRN

当细胞数量足够大时,通常倾向于给出更有说服力的TRN预测,但在某些情况下,可能无法获得足够的细胞,例如,研究稀有细胞类型或新亚型。因此,处理有限细胞的能力对于TRN推测方法尤为重要。作者从两个方面测试了DeepTFni的这种能力:(1)预测TRN的鲁棒性和(2)细胞类型特异性。首先,就鲁棒性而言,作者比较了同一组内十个样本中每种细胞类型预测的TRNs。例如,当CD14+单核细胞的细胞数少于50时,预测的TRNs几乎不一致,但当细胞数超过100时,它们变得鲁棒(图3a)。在其他细胞类型中也有类似的结果。接下来,就细胞类型特异性而言,作者将来自不同细胞类型(固定细胞数目)预测的TRNs进行了比较。例如,当细胞数量相对较少时,预测的TRNs仅将CD14+单核细胞与其他细胞类型区分开来,但细胞在100个左右时,预测的TRNs在每种细胞类型之间有明显区别(图3b)。

为了进一步探索DeepTFni所需的细胞数,作者使用一系列间隔较小的细胞数将CD14+单核细胞数据随机抽样到16组中,并为每组重复抽样10次。然后作者将DeepTFni应用于这160个数据集中。推测精度随着细胞数量的增加而提高,并且在细胞数量超过80时变得稳定(图3c)。此外,相关性分析还表明,当细胞数量超过80时,TRNs是鲁棒的(图3d)。

除了细胞有限外,测序深度不足可能是另一个挑战。为了测试DeepTFni,将每个细胞的峰值计数从8000减少到800、1600、4000和6400来降低测序深度,分别为80、100、200、500、1000和4275个细胞组,并将DeepTFni应用于这些数据。性能随着测序深度的增加而提高,并且DeepTFni达到了相对令人满意的准确度,其中每个细胞的测序深度为4,000个峰值计数(图3e)。

总之,这些结果表明DeepTFni可以为只有少量细胞的细胞类型特异性TRN提供鲁棒的预测。

图3 DeepTFni可在少量细胞上捕获TRNs

结合scATAC-seq数据的基于图的模型至关重要

与过去的方法相比,DeepTFni表现出两个重要特征。首先,TRNs在DeepTFni中被视为图,其中节点代表TFs,边是TF互作。因此,TRN推测变成了链接预测问题,机器学习很好地解决了这个问题。其次,DeepTFni不依赖于共表达的假设,而是从反映基因调控的scATAC-seq数据中提取调控信息。

为了研究预测精度如何依赖于基于图的表示和单细胞表观基因组水平,作者构建了两个独立的基于图的模型:(1)从scATAC-seq数据中提取的RP特征的模型;(2)没有任何节点特征的模型。作者将这两个模型应用于PBMC数据集,发现没有任何节点特征的模型在所有细胞类型中精度都达到了0.7以上。添加RP特征后,精度提高了0.02-0.14(图4a)。为了进一步展示使用RP功能的优势,作者接下来比较了这两个模型的详细预测。通过计算Kullback-Leibler(KL)散度以量化两个分布之间的差异,从没有任何节点特征的模型(KL=0.003)到具有RP特征的模型(KL=0.1),差异增加了30倍以上(图4b);这表明RP特征可以极大地帮助DeepTFni区分正负链接。

由于过去推测TRN方法使用bulk RNA-seq或scRNA-seq数据作为输入,作者系统地评估了DeepTFni对scRNA-seq数据的可扩展性。作者构建了另外两个基于图的模型:(1)TF节点使用RNA特征;(2)TF节点同时使用RP和RNA特征。由于转录组信息不能像scATAC-seq数据那样提供局部TF相互作用,这些模型仍然使用从scATAC-seq数据中提取的局部TF互作作为输入。具有RNA特征的模型在所有细胞类型中的精度超过0.83,而具有额外RP特征的模型的精度为0.84(图4c)。这两个模型预测的大多数TF互作是高度一致的(图4d,e),表明RP和RNA特征为模型学习提供了相似的贡献。

总之,作者的结果表明,DeepTFni的性能植根于结合scATAC-seq数据的TRNs的基于图的表示,并且RP特征或RNA特征可以帮助提高预测精度。

图4 基于图的模型和染色质可访问性有助于TRN推测

对枢纽TF在MPAL中角色的新见解

核心调控网络对于发育性肿瘤至关重要,网络推测可以帮助揭示肿瘤发生的候选调控因子。作者将DeepTFni应用于先前发表的人类PBMC和混合表型急性白血病(MPAL)样本数据,以确定控制MPAL表型转换的核心TF。作者观察了三种模式来理解关键监管机构在MPAL开发中的作用。在第一种模式中,信使RNA水平的变化与网络规模的变化是同步的。作者观察到WT1被转录激活,其调控网络在MPAL细胞中变得更加复杂(图5a);据报道,在新预测的与WT1相互作用的94个TF中,有17个与白血病有关。第二种模式,网络规模单独变化。作者观察到CEBPG没有显着的转录减少,而其抑制因子CEBPA大多增加,而CEBPG的TRN经历了剧烈的收缩,32个CEBPG互作从PBMCs到MPAL细胞消失(图5b)。在第三种模式下,mRNA水平的变化与网络规模的变化是异步的。例如,据报道LEF1是白血病干细胞自我更新的关键因素。DeepTFni预测PBMC中没有LEF1互作,并推测出MPAL细胞中LEF1的复杂调控网络。然而,LEF1在MPAL细胞中被下调(图5c)。作者的结果表明,TRN对细胞状态转换更敏感,并且DeepTFni为癌症发展提供了新的见解。

图5 MPAL开发中Hub TF的三种模式

DeepTFni网络工具

作者开发了一个网络工具(DeepTFni,http://deeptfni.sysomics.com/),允许研究人员使用他们自己的scATAC-seq数据推测TRNs。用户提交scATAC-seq计数矩阵的文件格式需为.csv,并选择人类基因组参考这版(图6a)。单击“运行DeepTFni”,然后启动TRN推测任务。运行时间取决于初始邻接矩阵的大小。最后,推测的TRN邻接矩阵的输出以.txt格式下载。DeepTFni还为推测的TRN提供了在线可视化(图6b)。用户可以通过按度数降序过滤TF数量来选择要显示的网络大小。通过这种方式,用户可以快速获取感兴趣的TF的信息,并进一步识别重要的候选子网络。例如,作者提出了三个TRNs(图6c),在三种条件下从人类原代祖细胞角质形成细胞推测:未分化、中期分化和晚期分化。此外,作者提供了一个演示来帮助展示DeepTFni网络工具的工作原理。

图6 DeepTFni web工具

3

总结与讨论

在这里,作者展示了一个新的框架DeepTFni,基于图神经网络使用scATAC-seq数据预测TRNs。DeepTFni的基本假设是表观基因组调控关系,而不是共表达定义调控关系。通常,假设非常不同的方法很难进行客观地比较,因为scATAC-seq数据和scRNA-seq数据各自为GRN提供了不同的视角。出于这个原因,作者工作中的方法比较不太公平,因为竞争方法是在不同的原则下建立的。然而,作者认为这个假设更合适,因为表观基因组信息与转录过程直接相关,而转录组是转录调控、转录后修饰和RNA降解的共同结果。通过在scATAC-seq数据上实施基于图的神经网络,DeepTFni在TRN推测中展示了有前途的性能,并在以组织发育或复杂疾病为重点的研究中表现出广泛的适用性。随着scATAC-seq数据的快速生成,DeepTFni将为生物医学研究提供更多见解。

将TRN推测作为链接预测任务,DeepTFni采用变分图自动编码器从稀疏和噪声scATAC-seq数据中估算TF互作。在这里,作者专注于TRNs,对于未来的工作,将推广到不是TFs的基因。在这种情况下,图应反映从TF到目标基因的因果调节。此外,具有不同节点类型(如miRNA、lncRNA或非编码调控元件)的异构网络能够强大地呈现复杂的生物网络,例如lncRNA-miRNA互作、lncRNA-疾病关联,基因-表型关联。因此,这些异构网络上的GNN将有助于捕捉基因型和表型之间的全面关系。处理有向异构图的基于GNN的链接预测目前仍处于早期阶段。随着GNN技术的发展,如何更好地对基因调控网络进行建模将是一个悬而未决的问题并应得到广泛的回答。

参考资料

Li, H., Sun, Y., Hong, H. et al. Inferring transcription factor regulatory networks from single-cell ATAC-seq data based on graph neural networks. Nat Mach Intell 4, 389–400 (2022). https://doi.org/10.1038/s42256-022-00469-5

数据

https://support.10xgenomics.com/single-cell-atac/datasets/1.2.0/atac_v1_pbmc_10k

https://support.10xgenomics.com/single-cell-gene-expression/datasets/2.1.0/pbmc8k

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE139369

代码

https://github.com/sunyolo/DeepTFni

https://doi.org/10.5281/zenodo.6050543

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
单细胞多组学分析揭示肾透明细胞癌的调控程序
关于 ATAC-seq,你需要知道的 7 件事
转录因子和靶基因系列(一)转录因子调控哪些下游基因,有实验证据的线索
科研 |SCI ADV:平行单细胞转录组和染色质可及性测序揭示重编程轨迹的多样性
HACER:human增强子数据库
哪个蛋白质调控我感兴趣的基因?怎样筛选?基于分析或实验的可行方案V2.1
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服