打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
scGPT: 基于生成式人工智能构建单细胞多组学的基础模型
userphoto

2023.07.05 韩国

关注

今天为大家介绍的是来自Bo Wang团队的一篇关于单细胞多组学的论文。生成式预训练模型在自然语言处理和计算机视觉等各个领域取得了显著的成功。特别是将大规模多样化的数据集与预训练的转换器相结合,已经成为开发基础模型的一种有前途的方法。文本由单词组成,细胞也可以通过基因进行表征。这种类比启发作者探索细胞和基因生物学基础模型的潜力。通过利用呈指数增长的单细胞测序数据,作者首次尝试通过对超过1000万个细胞进行生成式预训练来构建单细胞基础模型,展示了生成式预训练scGPT有效地捕捉了有关基因和细胞的有意义的生物学洞见。此外,该模型可以轻松进行微调,以在各种下游任务中实现最先进的性能,包括多批次整合、多组学整合、细胞类型注释、基因扰动预测和基因网络推断。

生成式预训练模型最近在许多领域取得了前所未有的成功。这些基础模型可以轻松地适应各种下游任务和场景。更有趣的是,与从头开始训练的特定任务模型相比,它们在多个任务上展示出了更好的性能。这显示了它们在这些领域具有任务无关和深入理解知识的强大证据。尽管基础模型在其他领域取得了成功,但目前基于机器学习的单细胞研究发现相对分散。由于测序能力和研究问题的范围限制,每项研究中使用的数据集的广度和规模也往往有限。这就需要一个在大规模数据上进行预训练的基础模型,以实现对单细胞生物学的全面理解。在此项研究中,作者通过对超过1000万个细胞进行生成式预训练,首次尝试构建了一个单细胞基础模型,即scGPT。作者证明了预训练模型在基因和细胞层面捕捉到了有意义的生物学洞见。在零样本学习中,预训练模型能够在未见过的数据集上揭示有意义的细胞簇。通过在少样本学习设置中进行微调,模型在各种下游任务上取得了最先进的性能,包括批次校正、多组学整合、细胞类型注释、基因扰动预测、伪细胞生成和基因网络推断。作者预见预训练基础模型的采用将进一步增进我们对细胞生物学的理解,并为未来的发现奠定基础。

模型总览

图 1

单细胞测序可以捕获个体细胞水平的遗传特征。例如,单细胞RNA测序(scRNA-seq)可以测量基因表达水平,从而揭示细胞的身份、状态和功能。最近的细胞参考图谱,如人类细胞图谱,包含来自不同器官和组织的数百万个单细胞,提供了对细胞异质性的无与伦比的表征。作者引入了scGPT作为单细胞领域的生成预训练基础模型。核心模型采用了堆叠的Transformer层和多头注意力机制,可以同时学习细胞和基因的特征表示。图1A展示了一个包括预训练和微调两个阶段的工作流程。在预训练阶段,作者从CellXGene门户网站收集了超过1030万个来自血液和骨髓细胞的scRNA-seq数据用于训练。作者引入了特别设计的注意力掩码和生成式训练流程,以自监督的方式训练scGPT模型,共同优化细胞和基因的表示。在训练过程中,模型逐渐学会根据简单的细胞或基因表达提示生成细胞的基因表达水平。在微调阶段,研究人员可以将预训练的模型应用于新的数据集和特定的任务。

scGPT通过基因表达建模从多样的单细胞数据中学习细胞和基因的表示。为了促进基因表示的学习,作者采用基因表达预测(GEP)作为生成自监督目标,以自回归的方式从已知的标记中迭代预测未知标记的基因表达值。为了增强细胞表示的学习,作者设计了基于细胞建模的基因表达预测(GEPC)目标,模型从细胞表示中预测基因表达值。这在基因表达谱和细胞异质性之间建立了直接的联系,使得在scGPT框架内可以进行联合优化。此外,scGPT的特征式架构可以轻松扩展到多种测序模态、批次和干预状态。scGPT作为一个强大的单细胞特征提取器,可以在之前未见过的数据集上发挥作用。在基准实验中,scGPT优于最近的方法,并在所有下游任务中取得了最先进的结果。这证明了预训练的好处以及所学知识在不同应用场景中的可转移性。通过提供一个稳健且统一的框架,scGPT使得单细胞研究人员能够轻松地在相关研究中利用预训练的基础模型。

将多个单细胞RNA测序(scRNA-seq)数据进行批次校正的整合

图 2

在单细胞测序数据的聚类和可视化中,当存在来自多个数据集或测序批次的批次效应时,面临着重大的挑战。通过采用微调工作流程,scGPT框架有效地解决了这个挑战,通过引入定制的微调目标,成功纠正了批次效应,同时保留了数据中固有的真实生物学信号。scGPT在批次校正后保持集成数据的生物差异方面取得了最先进的性能。作者在两个集成数据集Immune Human(10个批次)和PBMC 10K(2个批次)上对scGPT与三种流行的集成方法scVI、Seurat和Harmony进行了基准测试。如图2A所示,在Immune Human数据集中,scGPT成功地将所有CD4+ T细胞、CD8+ T细胞和CD14+单核细胞的批次集成到各自的聚类中,而Seurat在这些细胞类型中产生了一些对应于测序批次的亚聚类。scGPT还成功将单核细胞源性树突状细胞与CD16+单核细胞分开,而scVI和Harmony两者之间这两个聚类有明显的重叠。此外,在PBMC 10K数据集中,scGPT是唯一能清楚地将其他细胞类型与注释的聚类分离开来的方法。相比之下,scVI、Seurat和Harmony都将此其他细胞类型与CD14+单核细胞和CD8 T细胞混淆。这种不准确性在图中以其他细胞类型的蓝色点在橙色和红色聚类中散布的形式可见。scGPT的优越聚类性能也体现在生物保留分数上,其中scGPT的AvgBIO分数为0.812,比Seurat和Harmony高5%,比另一种深度学习方法scVI高10%。在图2C中,scGPT在所有细胞类型聚类指标中都表现出竞争力,这归功于其生物保留性。考虑到生物保留性和批次校正性能,scGPT在总体指标中也排名靠前。

细胞类型注释

图 3

细胞类型注释是在聚类之后的单细胞分析中至关重要的一步,它解决了测序组织中的异质性问题,并为进一步研究细胞和基因功能提供了基础,以获得生物学和病理学的见解。虽然已经有了几种细胞注释方法,如cellAssign、singleR和Chetah,但它们通常需要在模型输入之前进行降维,这可能会导致信息丢失。相比之下,scGPT的Transformer模型可以直接以无偏的方式接受基因表达数据作为输入,并对整个高变基因集进行全面的分析。这种方法提供了更高的可靠性和改进的细胞类型分类准确性。针对细胞类型注释任务,作者使用交叉熵损失对预训练的scGPT模型进行了微调,以便根据新的参考数据集的真实标签进行训练。以人胰腺细胞的hPancreas数据集为例,作者在参考集上训练了scGPT模型,并在不同的查询集上验证了分类性能。图3的A和B面板显示了通过真实标签与预测的细胞类型着色的细胞特征,scGPT模型展现出高达96.7%的准确性得分的忠实预测。该模型在预测大多数细胞类型方面也表现出较高的精度,除了参考集中细胞数量极低的稀有细胞类型(见图3C)。

干扰预测

表1

最近的测序和基因编辑技术已经促进了高通量实验,使得对多个基因扰动下细胞反应的探索成为可能。这种方法在揭示新的基因相互作用和推进再生医学方面具有巨大的潜力。然而,潜在基因扰动的巨大组合空间很快超出了实验可行性的实际限制。为了克服这个限制,可以利用scGPT来利用已知实验中细胞反应的知识,并推断出在未知情境下的反应。对于扰动预测任务,我们使用Roohani、Huang和Leskovec预处理的两个扰动数据集进行评估:(1) K562白血病细胞系的Pertub-seq数据集, (2) Norman Perturb-Seq数据集。作者对scGPT、GEARS方法和多层感知器(MLP)基准进行了性能比较。结果表明,scGPT在八个评估指标中有七个指标的相关性最高。值得注意的是,在原始scRNA-seq数据中,大约50%的基因表达计数为零。因此,作者认为评估差异表达基因,特别是表1中的DE列,提供了更有说服力的证据。值得注意的是,scGPT在前20个差异表达基因的变化(Δ)的相关性方面表现出显著的改进,这可以说是关键的指标。

scGPT极大地促进了多组学整合和多模态表示学习

图 4

单细胞多组学(scMultiomic)数据一次性提供了多个遗传调控视图,包括表观遗传学、转录组学和翻译活性。它为增强特征和细胞表示学习提供了丰富的机会,超越了基因表达。然而,挑战在于如何可靠地聚合来自多个视图的细胞表示,同时保留生物信号。scGPT框架可以轻松扩展到集成多个测序数据模态。scMulti-omic数据中的每种组学类型(例如基因表达、染色质可及性和蛋白质丰度)类似于NLG中的不同语言。类比地,scGPT支持从不同测序模态联合优化多组学标记。该框架还允许通过扩展"词汇表"无缝添加新的测序模态到现有的预训练网络中。在基准实验中,与现有的最先进方法相比,scGPT在细胞表示学习和多组学批次集成任务中展现出出色的性能(参见图4)。

基因特征用于基因调控网络推断

图 5

转录因子、辅因子和靶基因之间的相互作用构成了基因调控网络(Gene Regulatory Network, GRN),介导着重要的生物过程。现有的GRN推断方法通常依赖于静态基因表达的相关性或伪时间估计作为因果图的替代。通过基因标记的生成式训练,scGPT隐式地编码了这些关系在其基因特征中。因此,可以应用基scGPT展示了从其基因特征网络中分组功能相关基因并区分功能不同基因的能力。在图5A中,作者展示了经过预训练的基因特征网络中人类白细胞抗原(Human Leukocyte Antigens, HLA)抗原的相似性网络。在零样本设置下,scGPT模型突出显示了两个与两个经过充分研究的触发不同免疫反应的HLA类别对应的聚类,即HLA类I和HLA类II。HLA类I抗原HLA-A、C和E被CD8+ T细胞识别以介导细胞杀伤,而HLA类II抗原HLA-DR、DP和DQ被CD4+ T细胞识别以触发更广泛的辅助功能。对于在免疫人类数据集上进行微调的scGPT模型,作者探索了与该数据集中存在的免疫细胞类型特定的CD抗原网络(见图5C)。预训练的scGPT能够将CD3E、D和G基因识别为编码T细胞激活的T3复合物,将CD79A和B识别为B细胞信号传导,将CD8A和B识别为HLA类I分子的共受体。通过微调的scGPT进一步突出了CD36和CD14之间的关联,它们是单核细胞和巨噬细胞的标记物。这证明了scGPT从预训练中学到的知识的泛化能力,并提取了与手头数据集相关的具体信息。

结论

在本文中,作者提出了scGPT,这是首个利用从超过1000万个单细胞数据中学到的预训练transformer的基础模型。自我监督的预训练范式结合了越来越大规模的训练数据,创造出了强大的语言模型。这些成功案例启发了作者将相同的预训练范式应用于单细胞领域,目标是使用预训练的transformer来解码复杂的生物相互作用。transformer模型自然地支持同时学习基因和细胞的特征表示,类似于自然语言生成中的单词和句子特征表示。这些技术优势为将细胞过程的不同方面一起建模提供了坚实的基础。作者通过全面的实验证明了预训练的好处。它展示了在未见过的数据集上进行外推的强大能力,在零样本实验中呈现出有意义的细胞聚类。所学习的基因网络也反映了已知的基因程序及其功能角色。这些能力使作者对预训练模型有了信心,它不仅仅是记忆了大规模单细胞数据的模式,还合成了这些模式。我们还观察到预训练模型在多个下游任务中通过迁移学习持续发挥作用。

参考资料

scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI Haotian Cui, Chloe Wang, Hassaan Maan, Bo Wang bioRxiv2023.04.30.538439;doi: 

https://doi.org/10.1101/2023.04.30.538439

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
最新6.5分SCI,单细胞识别marker构建模型预测免疫治疗疗效,故事讲的顺,文章好接收!
单细胞+机器学习+预后模型生信思路,一篇基于单细胞技术探讨肿瘤(T细胞耗竭)的经典文章!!
单细胞入门-听一篇Cell报告
单细胞多组学数据分析最佳实践(2023典藏版)
热点综述 | 跨模态单细胞分析的最佳实践
北大学者将Transformer模型带入单细胞分析领域,能给出多层次的生物学解释,软件包与指导手册均已开源
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服