打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nat. Methods | 一个可解释可推广的单细胞数据分析框架
本文介绍由德克萨斯大学生物信息学系和Lewis-Sigler基因组学研究所联合发表于Nature Methods的论文:An analytical framework for interpretable and generalizable single-cell data analysis. 该论文提出了一种新颖的“linearly interpretable”框架,它将线性方法的可解释性与非线性方法的表征能力相结合。在这个框架内,作者介绍了一种数据表示可视化方法GraphDR 和一种结构发现方法StructDR,它能够实现聚类、轨迹分析、表面估计和置信集推断。

作者将这两种方法应用于来自不同胚胎和组织的scRNA-seq 数据集。与PCA和t-SNE 不同,GraphDR和StructDR 生成的表征可以区分高度特异的细胞类型。此外GraphDR至少比常用的非线性方法快一个数量级。斑马鱼和非洲爪蟾胚胎的 scRNA-seq 数据可视化揭示了细胞状态的谱系分支。此外StructDR使用来自小鼠海马体的scRNA-seq数据鉴定了一个新的神经元群。
1

简介

单细胞基因表达和染色质分析技术极大地扩展了我们对细胞状态变异和异质性的理解。此外,单细胞数据集的数量正在迅速增加,通过跨数据集整合知识,为特定生物学和临床条件下的关键细胞类型和细胞状态提供了新发现。然而,由于多种原因,单细胞数据集的综合分析具有挑战性。

单细胞探索性分析方法,包括可视化方法和轨迹估计方法。这依赖于线性或非线性数据表示,对单细胞数据分析提出了重要的限制。线性降维方法(PCA和ICA)通过线性图对表示空间中的方向和距离进行统一解释。非线性表示,例如t-SNE或 UMAP,通常缺乏线性方法所具有的许多优点(可解释性和可比性)。对于轨迹估计,轨迹本质上是数据的专门非线性表示,现有方法缺乏分析易处理性,因此无法应用统计推断来分析所得轨迹的不确定性。

这些限制为大规模比较或整合数据集带来了障碍。然而,可解释和可比较的数据表示对于分析给定器官内不同区域的多种疾病状况至关重要。此外,为了大规模地识别越来越特异的细胞类型、细胞状态和轨迹,需要一种统计方法来区分信号和噪声,例如推断提取结构的置信度集。

因此,作者开发了一种新的“linearly interpretable”框架,用于单细胞组学数据的探索性分析,其中包括可视化和结构提取,例如轨迹估计。作者将拟线性表示定义为一组特殊的非线性表示,它们完全或近似地保留了线性子空间的可解释性,但在细胞状态表示方面优于线性方法。实际上,这种拟线性框架结合了线性和非线性方法的优点。作者开发了两种相互补充的不同拟线性方法:一种可解释的可视化方法GraphDR 和通用结构提取方法StructDR,它将聚类、轨迹和表面估计统一在同一框架中,并能够推断这些结构的置信度集。

2

结果

2.1 用于可视化单细胞数据的拟线性降维方法:GraphDR

作者开发了 GraphDR,这是一种基于图的拟线性数据表示和可视化方法,克服了单细胞数据中线性表示的局限性,同时保留了线性表示的优势(图1a)。作者通过考虑一类灵活的“拟线性”方法来实现这些特性。这类拟线性变换改进了线性方法,通过引入专门用于跨单元信息共享的非线性特征来保持可解释性。

GraphDR 应用了从基于图的优化问题解得的单元空间转换,该问题提供了在图中连接的单元之间的信息共享(图1a)。该图可以用高维输入数据中的细胞状态相似性构建,并在适当时结合实验设计。作为证明,作者首先将GraphDR、PCA 和 t-SNE 应用于两个不同的单细胞 RNA-seq 数据集,以此说明小鼠海马细胞类型和成熟小鼠脑细胞类型的发展轨迹(图1a)。GraphDR 生成的特征表示保留了子空间的可解释性,并解析了不同的细胞类型,(图1b-d)。因此,这种可解释性的增益是在不损失准确性的情况下实现的。此外,在七个单细胞数据集的大规模定量基准中,和几种当前最先进的非线性方法相比,GraphDR更能够区分细胞类型/状态(图1c-d)。
图1:GraphDR:可捕获单细胞数据的结构并保留可解释性和可转移性

2.2 单细胞簇、轨迹和表面结构发现的统一框架:StructDR

可视化方法提供了数据结构的直观和灵活的表示。然而,为了对细胞类型、细胞状态和发育轨迹进行详细分析,通常需要提取表面结构,例如集群和轨迹。识别细胞类型之间或沿分化轨迹差异表达的基因需要提取簇或轨迹结构。现有方法在其可以表示的结构复杂性方面受到限制。例如,不存在用于无监督表面或混合维结构发现的方法。此外,目前的方法不允许对不确定性进行统计推断,而这对于评估结论的稳健性至关重要。

作者开发了一种拟线性方法StructDR,它利用了非参数密度脊估计 (NRE) 方法。它将单细胞轨迹估计与新的复杂结构类型(例如表面)统一起来,并对这些结构的统计置信度严格估计(图2a)。作者发现 StructDR在对各种scRNA-seq数据集进行评估的轨迹估计方面提供了卓越的性能(图2b)。此外,StructDR提供的更丰富的结构表征能力能够捕获复杂的异质性,例如在细胞类型的不同细胞周期阶段分化细胞(图2c )。

图2:StructDR:基于密度的广义轨迹估计和推理框架

2.3 GraphDR 的可扩展性

GraphDR 还可以将实验设计信息合并到分析中。例如,作者通过在 GraphDR 的图构建步骤中对它们进行编码来合并时间和批次信息。具体来说,作者在相邻时间点之间或在同一时间点的两个不同批次之间连接最近的相邻单细胞。

作者将 GraphDR 用于表征复杂发育进程的单细胞数据集,并可视化了来自斑马鱼胚胎scRNA-seq数据集(图3)和非洲爪蟾胚胎(图4)的scRNA-seq 数据集。每个数据集的可视化揭示了从连续细胞状态中分化的谱系分支。这些数据表明,当前细胞规范的分支观点过于简单化,需要更复杂的范式。
图3:使用 GraphDR 可视化斑马鱼胚胎单细胞发育
图4:使用 GraphDR 可视化热带爪蟾胚胎单细胞发育

2.4 用于单细胞数据可视化探索性分析的交互式 3D 界面

交互性是探索性数据分析的基石。为了促进交互并使我们的工具可供广泛的研究人员使用,作者开发了一个交互式分析和可视化工具—Trenti。它作为开源 Python 包 Quasildr的一部分,实现了GraphDR和 StructDR方法。Treti 是一个功能丰富的单细胞组学数据探索性分析和可视化界面(图5)。除了支持作者介绍的所有分析之外,还包括其他软件功能,例如降维和聚类的集成、基因的交互式选择器,以及用户灵活的可视化调整。该界面具有交互式3D可视化功能,作者证明它在许多场景中比2D具有明显的可衡量优势。
图5:用于交互式单细胞可视化和分析的界面

3

总结

作者介绍了一种数据表示可视化方法GraphDR 和一种结构发现方法StructDR,它能够实现聚类、轨迹分析、表面估计和置信集推断。NRE允许估计单细胞数据密度脊位置的统计置信集,未来的工作可能会提供更灵活和更强大的功能。例如,目前只有诸如 PCA 提供的线性表示得到统计理论的充分支持,因为大多数非线性表示(包括拟线性表示)引入了依赖关系,从而使程序复杂化。“拟线性”方法的范围比上面讨论的算法要广泛得多,这为设计具有其他属性的拟线性方法打开了大门。这些方法还可能适用于单细胞数据应用之外的其他高维数据的可视化和探索性分析。

参考资料

Zhou, J., Troyanskaya, O.G. An analytical framework for interpretable and generalizable single-cell data analysis. Nat Methods 18, 1317–1321 (2021). 
https://doi.org/10.1038/s41592-021-01286-1

Quasildr:

https://github.com/jzthree/quasildr 
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
Genome Biology | 有此利器,可助你分析单细胞数据的基因
R语言贝叶斯MCMC:用rstan建立线性回归模型分析汽车数据和可视化诊断
今天来聊一聊流形学习在数据可视化中的作用
科研 | CURR OPIN BIOTECH:单细胞转录组学方法学和应用综述(1区IF:8.083)
单细胞RNA-seq数据分析最佳实践(中)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服