打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nat. Commun. | Cellcano用于单细胞ATAC-seq数据的细胞类型识别
userphoto

2023.04.30 韩国

关注

今天为大家介绍的是来自埃默里大学的一篇单细胞识别的论文。计算细胞类型识别是单细胞组学数据分析的基本步骤。由于优越的性能和高质量参考数据集的可用性,监督细胞分类方法在单细胞RNA测序数据中越来越受欢迎。最近在单细胞分辨率的染色质可及性分析(scATAC-seq)技术方面的进展为我们理解表观遗传异质性带来了新的见解。随着scATAC-seq数据集的不断积累,迫切需要为scATAC-seq专门设计的监督细胞分类方法。在这里,作者开发了Cellcano,一种基于两轮监督学习算法的计算方法,用于从scATAC-seq数据中识别细胞类型。该方法减轻了参考数据和目标数据之间的分布偏移,并提高了预测性能。在对来自各种数据集的50个精心设计的细胞分类任务进行系统性基准测试之后,验证了Cellcano不仅准确、稳健且计算效率高。

细胞分类在scATAC-seq(转座酶可接触染色质的单细胞测序检测)数据分析中是一个重要问题。然而,scATAC-seq数据具有一定的特性,使得细胞分类更加困难。scATAC-seq数据的稀疏度更高,这导致区分细胞类型的信号较弱。其次,与scRNA-seq不同,在scATAC-seq数据中特征空间并没有明确定义,这给提取有用信息带来了困难。因此,迫切需要为scATAC-seq细胞分类寻求特定的方法。

   现存的scATAC-seq细胞分类方法大多是无监督且基于先验知识的。在这项工作中,作者为scATAC-seq开发了一个计算细胞分类方法,名为Cellcano。Cellcano实现了一个两轮监督学习算法。它首先在参考数据集上训练一个多层感知器(MLP),并在目标数据中预测细胞类型。从预测结果中,Cellcano选择一些被认为预测良好的目标细胞(称为锚点)来形成一个新的训练集。接下来,Cellcano使用预测的伪标签在锚点上训练一个自知识蒸馏模型(KD模型),然后将训练好的KD模型应用于预测剩余非锚点细胞的细胞类型。通过广泛的实际数据分析,证明Cellcano在准确性、计算效率和可扩展性方面明显优于现有方法。

图1 模型框架

Cellcano将原始scATAC-seq数据的基因级汇总作为输入。Cellcano整合了ArchR 流程来处理原始数据,并获得参考和目标数据集的基因评分(详情见原文方法部分)。输入的选择经过仔细研究,结果表明,使用基因评分可以提供良好的预测准确性和计算效率(稍后部分的详细信息)。然后,Cellcano对参考基因评分应用F检验,以选择细胞类型特异性基因作为模型构建的特征。在获得所选特征的参考和目标基因评分后,Cellcano采用两轮监督细胞分类策略。在第一轮中,Cellcano使用参考基因评分训练一个MLP模型,并在目标数据中预测细胞类型。如果目标大小太小,Cellcano将停止并返回预测结果。当目标大小足够大时(例如,超过1000个细胞),Cellcano执行另一轮模型训练以提高预测结果。第二轮以选择锚点细胞开始。为此,作者首先根据第一轮预测的预测概率计算每个细胞的熵,然后选择熵较低的细胞作为锚点。假设熵较低的预测细胞更有可能被准确预测。作者使用锚点及其预测的细胞类型作为新的参考数据,训练另一个分类器来预测非锚点细胞。作者使用KD模型作为分类器,因为它在参考数据具有不完美标签时表现更好。第二轮的假设是,基于锚点(来自目标数据)训练的分类器可以比基于参考数据集训练的分类器更好地捕捉目标数据集中的数据分布,从而提高预测性能。

选择使用基因分数作为输入

由于scATAC-seq 数据可以用不同的特征空间表示,每个数据集的峰值都会有所不同,因此无法在新的目标数据中重用预先训练好的预测模型。在这项工作中,作者选择基因评分作为输入,因为它们定义明确且特征空间较小。从实际数据分析中,作者发现使用 ArchR 推荐的基因评分模型在 Cellcano(详见补充说明 3)中实现了良好的细胞分类性能。此外,使用基因评分作为输入的计算时间要短得多。考虑到计算和预测性能,最后决定将 ArchR 推荐的基因评分作为 Cellcano 的默认输入。

Cellcano锚的性质

Cellcano 根据第一轮的预测熵从目标数据集中选择锚定细胞(详见方法部分),并在第二轮中将其作为参考来预测非锚定细胞的细胞类型。锚定细胞的数量由用户指定为熵分位数的截止值。例如,当使用 0.3 熵分位数截止值时,目标数据集中的 30% 细胞将被选为锚定细胞。研究比较了在不同分位数截止值下(从 0.1 到 0.6,步长为 0.1)人类 PBMCs 细胞分类任务和小鼠脑细胞分类任务中锚定细胞和非锚定细胞之间的性能。结果表明,最终预测性能取决于锚定细胞数量和锚定细胞准确性之间的平衡。默认情况下,作者使用 0.4 作为熵分位数截止值。

Cellcano优于现有的有监督的scATAC-seq细胞分类方法

图2 Cellcano和方法的性能比较

将 Cellcano 与六种监督式细胞分类方法进行基准测试:Seurat、scJoint、Signac、EpiAnno、ACTINN 和 SingleR。使用不同的指标评估所有方法的预测性能,包括总准确率(Acc)、调整后的 Rand 指数(ARI)、宏 F1 分数(macroF1)、Cohen's kappa(κ)、中位 F1 分数(medianF1)、中位精确度和中位召回率。

在图2中,作者首先关注细胞分类方法。总共有七个使用不同参考资料的细胞分类任务,根据平均性能对箱线图进行排序。在七个细胞分类任务中,Cellcano 的平均准确率最高,达到 0.852(图 2a)。然后评估了其他 22 个人类 PBMCs 细胞分类任务的性能(图 2b),在考虑所有场景的情况下:两个系统(人类 PBMCs 和小鼠大脑)、50 个细胞分类任务以及七个指标,Cellcano 优于所有其他方法。为了进一步展示 Cellcano 中两轮过程的优越性,文中使用一个细胞分类任务(一个经 FACS 分选的人类 PBMCs 数据集作为目标,Satpathy 等人的 33 个 PBMCs 数据集中四个个体的组合作为参考)作为示例,通过 tSNE 和 UMAP 可视化每轮预测结果。预测细胞类型的正确性和置信度的提高表明了使用 KD 模型进行第二轮预测的优势。

剔除批量效应后,Cellcano的效果比预测的更好

Cellcano 两轮方法的一个关键优势是,在目标数据中使用锚点训练模型可以缓解参考数据和目标数据之间的分布偏移问题。分布偏移通常是由高通量数据中的批次效应引起的。这导致了一个问题,即两轮策略是否优于先去除批次效应再进行直接预测的方法。实验结果表明(详见附录),Cellcano 无需去除批次效应,并在预测准确性、ARI 和 macroF1 等指标上稳定地优于其他方法。这为使用大量数据集训练预测模型提供了可能性。总之,Cellcano 在各种场景中表现出优异的性能,并被证明是一种有效的细胞分类方法。

Cellcano在计算上具有高效和可扩展性

本研究评估了 Cellcano 的计算性能,并展示了所有细胞分类任务的运行时间。为了公平比较,将 Cellcano 和 EpiAnno 的训练时间和预测时间合并为总运行时间。当细胞数量较低时,Cellcano、Seurat 和 scJoint 的运行时间大致相同。然而,当细胞数量增加时,Seurat 和 scJoint 的运行时间可能是 Cellcano 的三倍。Signac 在预测人类 PBMCs 任务的细胞类型时比 Cellcano 慢 2 ~ 3 倍,而在小鼠大脑细胞分类任务中,其运行时间与 Cellcano 相当。所有其他方法比 Cellcano 慢 5 ~ 100 倍。ACTINN 作为一轮预测比 Cellcano 慢的原因是,ACTINN 使用所有基因进行训练,而 Cellcano 选择 3000 个基因作为特征。另一个优点是,Cellcano 是一种有监督的细胞分类方法,预先训练的模型可以在未来的预测中重复使用,这意味着在使用第一轮预训练模型作为输入时,运行时间可以进一步缩短。

结论

本文提出了一种针对单细胞ATAC-seq数据的双轮监督细胞分类方法Cellcano。实验结果表明,Cellcano不仅在预测性能上优于其他细胞分类方法和标签转移集成方法,而且在计算性能方面也具有优势。此外,Cellcano使用基因分数作为输入,实现了选择和使用锚点的策略,并且具有与其他模态数据连接的潜力。未来,该方法可以扩展到其他细胞分类场景,并可以使用多模态参考数据来进一步改进预测性能。总之,Cellcano为单细胞ATAC-seq数据的细胞分类提供了一种有效且具有潜力的解决方案。

参考资料

Ma, W., Lu, J. & Wu, H. Cellcano: supervised cell type identification for single cell ATAC-seq data. Nat Commun 14, 1864 (2023). 

https://doi.org/10.1038/s41467-023-37439-3

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
关于 ATAC-seq,你需要知道的 7 件事
小鼠的13个不同组织器官的超10万个细胞才85个亚群(单细胞ATAC路在何方)
一文读懂表观遗传学研究利器——ATAC-seq技术及应用丨深度长文
ScATAC-seq——原理及实验流程大起底
染色质调控区域的研究: 对CHIP-seq和ATAC-seq发展的深入思考
ATAC-Seq(染色体可及性测序)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服