bioRxiv | SIMBA:基于图嵌入的单细胞特征提取模型

本文介绍由哈佛医学院Pinello实验室Luca Pinello等人发表于bioRxiv的论文：SIMBA: SIngle-cell eMBedding Along with features. 该论文提出了 SIMBA，这是一种单细胞嵌入方法，可将单细胞及其特征（例如基因、染色质可及区域和转录因子结合序列）嵌入到一个共同的潜在空间中。通过利用细胞和特征的共嵌入，SIMBA 可用于细胞异质性研究、无聚类标记发现、基因调控推断、去除批次效应和多组学数据集成。SIMBA 可应用于 scRNA-seq、scATAC-seq 和多组学数据分析。

简介

单细胞多组学技术的出现允许对多个“组学”层测序，包括基因组学、表观基因组学、转录组学和蛋白质组学。这为更好地理解这些“组学”层和基于不同基因组和分子特征(包括基因、调控元件、转录因子和其他细胞成分)的细胞状态之间的相互作用开辟了道路。然而，随着单细胞多组学技术的发展，测序数据包含更多的模态和更高的分辨率，这给分析模型带来了极大的挑战。

在过去的几年里，已经开发了许多计算方法用于单细胞单模态分析(例如，scRNA-seq或scATAC-seq分析)。这些方法实现了一个通用的工作流，包含几个标准步骤，包括特征选择、降维、聚类和差异特征检测。除了单模态分析，许多多模态分析方法被提出，如批次校正和多组学数据集整合。这些问题与单模态不同，因此需要开发专用分析技术。虽然可能存在多种类型特征，但大多数现有方法不能直接利用特征之间的关系。此外，与单模态分析方法相似，多模态分析方法是基于聚类获得的细胞组识别标记特征，因此局限于聚类解决方案。

为了克服这些限制,作者提出了SIMBA，它将细胞和特征(例如,基因,峰或DNA序列)联合映射到一个共享潜在的空间，细胞和特性之间的关联可以根据它们的嵌入获得。通过将单细胞分析转化为多实体图嵌入问题，SIMBA可以在一个统一的框架中解决多种单细胞任务。对于每个任务，SIMBA构造一个图，其中不同的实体(即细胞和特征)被表示为图的节点，这些实体之间的关系被编码为图的边。SIMBA应用了一个多实体图嵌入算法，该算法利用了社交网络技术、知识图嵌入技术以及基于softmax的转换，将图的节点嵌入到一个公共的低维空间中。作者在多个scRNA-seq、scATAC-seq和多组学数据集中广泛测试了SIMBA，实验涵盖了多种单细胞分析任务，包括scRNA-seq分析、scATAC-seq分析、多模态分析、批次校正和多组学数据整合。

结果

2.1 模型概述

SIMBA是一种单细胞嵌入方法，支持单模态或多模态分析，将细胞及其相关基因组特征嵌入到共享的潜在空间，生成可解释的细胞和特征嵌入。这里所应用的图嵌入技术已经成功地对自然语言、社会网络和其他领域中以“知识图”表示的复杂信息建模。在文中，这些图编码了细胞调节的不同组成部分以及它们之间的关系。

SIMBA首先将不同类型的实体如细胞、基因、开放染色质区域和转录因子编码成一个单独的图(图1)，其中节点代表不同的实体，边表示它们之间的关系。然后使用无监督图嵌入方法计算节点的低维表示。这个图嵌入过程利用了PyTorch-BigGraph框架，该框架允许SIMBA扩展到数百万个细胞。由此产生的细胞和特征的联合嵌入不仅重建了细胞的异质性，而且允许以无聚类的方式发现每个单细胞的特征，将细胞类型的特征与非信息特征分离。事实上，实体嵌入之间的接近程度可以提供信息，以了解特征对细胞的潜在重要性，以及发现特征之间的相互作用。当多种类型的特征(如转录组和表观遗传特征)同时嵌入时，SIMBA为研究基因调控以及细胞分化和细胞类型形成的调控机制提供了一种直观的方法。

图1 SIMBA模型概述

2.2 对scRNA-seq分析

作者将SIMBA应用于10x Genomics的PBMCs数据集。首先使用UMAP可视化SIMBA获得的细胞嵌入。8种细胞类型，包括B细胞、巨核细胞、CD14单核细胞、FCGR3A单核细胞、树突状细胞、NK细胞、CD4 T和CD8 T细胞，都被清晰地分离出来(图2b)。接下来，应用UMAP可视化细胞和基因的SIMBA嵌入(图2c)。作为对照，还显示了两个基因GAPDH和B2M的位置，这两个基因不会与任何特定的细胞类型相关联。从UMAP可见, SIMBA能够嵌入major-cell-group特定基因的正确位置。相反，非信息性或非细胞型特异性基因，被嵌入在所有细胞群的中间。

除了使用UMAP可视化所有实体外，SIMBA还提供了一个特定的“条形码图”，显示细胞分配概率分布(图2d)。图2d中的条形码图提供了给定基因与每个细胞关联的概率，其中所有细胞的总概率为1。概率的不平衡表明基因与细胞亚群的细胞类型特异性关联，而均匀的概率分布表明基因非细胞类型特异性关联。图2d显示了四个基因的条形码图，在图2c中以红色突出显示。这些基因中有三个是常用的标记基因，用于在PBMCs数据集中识别亚群。SIMBA条码图通过显示细胞分配概率分布，是一种可视化基因表达模式的信息方式。

图2 使用SIMBA对10x BPMC数据集分析

2.3 对scATAC-seq分析

为了证明SIMBA提取的特征在scATAC-seq分析中的价值，作者首先将SIMBA应用于包含2034个人类造血细胞的scATAC-seq数据。如UMAP所示(图3b)，SIMBA能准确地分离不同类型的细胞。除了细胞，SIMBA还可以嵌入各种类型的特性。图3c中的UMAP根据它们的生物关系将峰值和序列信息嵌入在一起。值得注意的是，在每个已定义细胞类型的子群体中，这些突出显示的特性都有很高的细胞类型特异性得分(图3d)。

SIMBA分析确定了造血的关键主调控因子。如图3c所示，可观察到在UMAP中，之前报道的motif都嵌在它们各自的细胞类型附近。其次，SIMBA分析确定了一组无偏DNA序列，即k-mers，这是参与造血的重要TF结合基序，从而能够发现新的基序。可观察到这些k-mers被嵌入到它们相似的TF结合基序和相关的细胞亚群附近(图3e)。

为了进一步说明TF基序和k-mers嵌入的可解释性，作者用chromVAR计算了TF活性分数。如图3f所示， MEP细胞的GATA1 TF和k-mer在chromVAR检测中显示出高水平的活性。这些突出显示的特征还伴随着SIMBA条形码图，显示了每个特征被分配到不同单元的排序概率(图3g)。

图3 使用SIMBA对人造血数据集Buenrostro2018分析

2.4 单细胞多模态数据分析

为了证明SIMBA嵌入的实用性，作者分析了SHARE-seq标记的小鼠皮肤毛囊分化的细胞群。作者使用SIMBA评估特征的细胞类型特异性，包括基因、TF基序和峰。如图4b所示，与毛囊相关的基因(如Lef1和Hoxc13)最大值和基尼系数得分都相对较高。SIMBA的细胞类型特异性指标成功揭示了毛囊分化过程中重要的关键基因和调控因子。图4c显示了SIMBA嵌入的UMAP可视化和基于SIMBA度量图的信息特征。

作者基于SIMBA评估TF基序和基因的细胞类型特异性，并基于TF基序在共享SIMBA嵌入空间中的距离对所有潜在的主调控因子进行排名。SIMBA成功地识别了主要调控因子，如Lef1、Gata6、Nfatc1和Hoxc13(图4d)。基于这些顺式调控动力学假设，通过计算靶基因与各自的TF基序和基因之间的距离来推断靶基因。此外，还考虑了靶基因位点周围的峰以及这些附近峰中TF motif的存在(图4e)。SIMBA推断的TF Lef1和TF Hoxc13的前30个靶基因分别如图显示(图4f)。

图4 使用SIMBA对SHARE-seq毛囊数据集进行多模态分析

2.5 单细胞批次校正

SIMBA应用于由两个批次组成的小鼠图谱数据集和最近研究中常用的跨越多个批次的人类胰腺数据集。小鼠图谱数据集包含两个来自不同测序平台的scRNA-seq数据集。对于这两个数据集，SIMBA成功地校正了批效应，所产生的细胞嵌入按细胞类型聚类，这表明生物信号的保存和混淆技术协变量的同时消除(图5b-c)。

将SIMBA与专门为批次校正设计的方法进行了比较，包括三种性能最好的批校正方法，Seurat3, LIGER和Harmony。为了定量评价这批次校正的性能，生物信息的保存和批效应消除使用三个不同的指标:平均剪影宽度、调整后兰德指数和局部逆辛普森指数。作者观察到SIMBA在小鼠图谱数据集和人类胰腺数据集上都实现了良好的批校正性能(图5d-e)。

图5 使用SIMBA对scRNA-seq数据进行批量校正分析

2.6 多组学数据整合

为了便于评估数据集成性能，作者通过手动将多模态数据集分割为两个单模态数据集(即scRNA-seq和scATAC-seq)，创建了带有groundtruth标签的数据集。然后，作者将SIMBA应用于两个案例研究的集成分析，scRNA-seq和scATAC-seq数据集来自SHARE-seq小鼠皮肤数据集和10x Genomics人类PBMCs数据集。SIMBA能够在均匀混合两种模式的同时保持细胞的异质性(图6b-c)。SIMBA在这两个案例研究中的表现与两种单细胞数据集成方法（Seurat3和LIGER）相当或更好。作者首先通过检查UMAP可视化图对这些方法进行定性评价。对于SHARE-seq数据集，作者观察到三种方法在两种模式的混合细胞中表现相当好。对于PBMCs数据集，SIMBA在混合属于每个模态的细胞方面表现出明显的优势。接下来，作者通过四种不同的度量定量地评估了这些方法的集成性能。除了锚定距离、剪影指数和同一聚类中的分数等常用度量外，作者还开发了一个额外度量，锚定距离秩(ADR)，它表示匹配细胞间距离的归一化秩。SIMBA在两个数据集的每个度量上表现都良好，在ADR和聚类一致性方面表现最好(图6d)。

图6 使用SIMBA整合多组学数据

总结

SIMBA将单个细胞或特征作为节点编码到图中，并使用可扩展的图嵌入将细胞和特征嵌入到共享的潜在空间中。单细胞数据的图表示不仅能够捕获细胞之间的关系和特征(例如，基因表达或染色质可及性)，而且还具有捕获特征之间的层次关系的能力。在联合嵌入中，可以执行基于近邻的查询，以发现细胞类型特定的调节机制和这些机制中各自的特征。因此，SIMBA使多模态特征发现成为可能，并补充了目前的基因调控网络分析。

SIMBA已经在单细胞模式和任务中进行了广泛的基准测试，与目前为单独任务开发的最先进的方法相比，获得了可比或更好的性能。这些结果表明，SIMBA的基于图的框架具有广泛的适用性，因此无需通过多种分析工具将工作流拼接在一起。通过SIMBA能够探索细胞异质性和研究驱动细胞多样性，同时为新的非集群中心单细胞组学计算方法的发展奠定基础。

参考资料

SIMBA: SIngle-cell eMBedding Along with features. Huidong Chen, Jayoung Ryu, Michael Edward Vinyard, Adam Lerer, Luca Pinello. bioRxiv 2021.10.17.464750;

doi: https://doi.org/10.1101/2021.10.17.464750

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。