【干货分享】10x 单细胞转录组常见Q&A（四）降维聚类专题

各位老师好，本期为大家带来单细胞转录组标准分析之降维聚类。

单细胞研究的重点就是对细胞进行分群和鉴定，然而单细胞测序数据是一个高维的复杂数据阵列，通常涉及到庞大的细胞数量，以及每个细胞中的众多基因。因此，面对复杂的数据阵列，在聚类之前，一般采用 PCA 方法进行适度降维以降低计算量和噪音，然后用 Leiden 方法寻找降维空间中邻近细胞网络的模块。最后，采用tSNE 和 UMAP 两种非线性降维方法分别对单细胞群聚类结果作可视化分析展示。

Q：如何进行数据降维？

降维的过程其实就是去繁存简，每个基因对细胞来讲都是一个变化维度。数据特征维度太高，不但计算很麻烦，其次特征之间可能存在相关的情况，从而增加了问题的复杂程度，分析起来也不方便，所以需要尽可能保证真实差异的前提下减少维度的数量，PCA就是合理的方式之一，既可以减少需要分析的特征，也尽可能多的保留原来的数据信息。

步骤一：寻找高变基因

降维的过程依赖于基因表达量，因此挑选那些更能代表整体差异的基因进行降维分析是非常关键的，一般来说如果一个基因在细胞群体中变化幅度很大，它就是受关注对象，我们会认为是生物因素导致了这么大的差异，该基因即为高度变化基因（highly variable genes ，HVGs）。

Seurat包FindVariableFeatures函数，会计算一个mean-variance结果，根据基因表达量方差和均值筛选，以此获得高度可变的基因，一般默认采用前2000个高变基因进行后续降维分析。

高变基因示例图

步骤二：降维

主成分分析 (PCA, principal component analysis)PCA的本质是将n个特征减少到k个，保留那些对生物差异贡献很大的特征。通过数据压缩，减少后面分析会使用到的维度，减少分析难度的同时尽可能的保留原有数据的特征。

步骤三：选择合适的PCs

利用Elbow Point进行选择。Elbow Point作图后，一般选择斜率平滑的点之前的所有PC轴，加起来差异累计过90%就可以接受，根据后面聚类的结果可以重复调整。每个PCs都能捕获一些生物差异，而且前面的PC比后面的PC包含的差异信息更多，更有价值。

细胞聚类目的是根据细胞中各个基因表达模式的相似性（或距离）将一组细胞划分成具有生物学意义的亚群。Leiden算法是一种适用于scRNA-Seq数据集进行细胞聚类的算法。

Leiden聚类算法原理图

Leiden算法从单例分区（a）开始。该算法将单个节点从一个社区移动到另一个社区，以找到合适的分区（b），然后对其进行细化（c）。基于细化分区创建聚合网络（d），使用非细化分区为聚合网络创建初始分区。例如，（b）中的红色社区被细化为（c）中的两个子社区，在聚合之后，它们成为（d）中两个独立的节点，都属于同一社区。然后，算法移动聚合网络（e）中的各个节点。在这种情况下，细化不会改变分区（f）。重复这些步骤，直到无法进行进一步改进。

聚类之后的可视化，目前主要有tSNE和UMAP。两者都是在高维空间中寻找保持相邻关系的低维表示方法。

Q：tSNE和UMAP的区别？怎么选择？

一是计算高维距离时，tSNE会计算所有点之间的距离，通过Perplexity（困惑度）参数调整全局结构与局部结构间的软边界，而UMAP则只计算各点与最近k个点之间的距离，严格限制局部的范围；另一方面，两种算法在对信息损失的计算方法不同，tSNE使用KL散度衡量信息损失，在全局结构上存在失真的可能，而UMAP使用二元交叉熵，全局和局部结构均有保留。目前两种方法在文献中均有使用，可根据实际情况来进行选择。

本期专题分享到这里就结束啦。感兴趣的老师，请持续关注中科新生命10x 单细胞转录组常见Q&A，我们下期再见！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。