打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
一篇零代码的富集分析流程文献(中)

大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!


文章真长,未完待续。说明一下,文章中的数字是参考文献编号,本来带有超链接但是公众号推文是无法显示的,全篇好多,实在是懒得删除了,如果觉得阅读体验太差,可以看下简书的原文(原文链接在上一篇的文末)。

title:Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap

使用g:Profiler,GSEA,Cytoscape和EnrichmentMap对组学数据进行通路富集分析和可视化

这个文章发表在nature protocols。在生信星球公众号聊天窗口回复“121”可获取文献pdf。

Box3 Multiple testing correction

在典型的通路富集分析中使用的重复统计检验将意外产生一些极显著的P值。为了纠正这种情况,多重检验校正方法系统地降低了从一系列检验中得出的每个P值的重要性。在该流程中,g:Profiler和GSEA自动对P值应用多重检验校正。最常用的method是BH-FDR(或只有FDR)34。它基于降压程序,使用未校正的P值阈值和检验次数估计富集通路上的错误富集通路的评分。例如,假设100个通路的P值<><>P值乘以进行的检验的数量,设好显著性临界值(例如,如果已经检验了100个路径,则P值0.001将变为非显著的Q值0.1)。该技术确保选择至少一个错误富集通路的概率低于校正的临界P值。对于差异基因表达和通路富集分析,Bonferroni校正通常被认为过于保守,因为可以容忍一些假阳性结果。重要的是,Bonferroni和BH-FDR都假设检验是独立的,而由于基因重叠和串扰,通路通常不是独立的。因此,BH-FDR对通路分析的估计可能是不准确的,但实际上它们仍然可用于过滤和假设生成,因此是常规使用的。

stage1:使用组学数据定义感兴趣的gene list

基因组规模的实验产生原始数据,必须对其进行处理以获得适合于通路富集分析的基因水平信息(补充流程1和2)。特定的处理步骤适用于特定的组学实验类型,并且可以是标准化的,因此要么可以直接执行,要么就不适用,在这种情况下,数据处理可能需要高级计算技能。标准处理方法可以用于已建立的组学技术,由生成数据的核心设备执行数据处理会是最方便的。

从组学数据中定义gene list有两种主要方式:list或ranked list。某些组学数据自然地产生gene list,例如通过外显子组测序鉴定的肿瘤中的所有体细胞突变基因,或者在蛋白质组学实验中与诱饵相互作用的所有蛋白质。这样的列表可以使用g:Profiler直接输入通路富集分析(step6A)。其他组学数据自然产生排名列表。例如,可以通过全基因组CRISPR筛选中的差异基因表达评分或灵敏度对gene list进行排序。一些通路富集分析方法分析通过特定阈值(例如,FDR调整的P)过滤的分级gene list值<0.05和倍数变化> 2)。替代方法,例如GSEA,旨在分析所有可用基因的ranked list,并且不需要阈值。全基因组ranked list适合使用GSEA输入通路富集分析(step6B)。部分(非全基因组)排序的gene list应使用g:Profiler分析

例如,我们描述了卵巢癌样本中原始RNA-seq数据的分析,以定义排序gene list7。对reads进行质控和过滤(例如去除低质量碱基)并比对到全基因组范围的参考转录本,以对每个转录本比对到的reads进行计数。reads计数在基因水平上汇总(对每个基因计数)。通常,可获得多个实验条件(两个或更多个,例如治疗和对照)中的每一个的多个生物学重复(三个或更多个)的RNA-seq数据。不同样品对应的每个基因的reads计数进行标准化,以去除样品之间不必要的技术性差异(例如,由于测序lane或每测序获得的总reads数的差异)26,27,28。接下来,检验每个基因的reads数是否在样品分组之间存在差异表达(例如,处理与对照)(RNA-seq和芯片数据分别对应补充流程1和2)。R包如edgeR 29,DESeq 30,LIMMA / VOOM 31,32和Cufflinks 33等,用于RNA-seq数据标准化和差异表达分析。差异基因表达分析结果包括:(i)描述差异表达显著性的 P值; (ii)相关 Q值(又称校正后的 P.值,是对所有基因的多重检验进行校正(例如,通过使用BH-FDR程序34(box3)); (iii)表达变化的效应大小和方向,上调的基因是阳性的,在列表的顶部;下调的基因是阴性的,在列表的底部,通常表示为log-transformed fold-change。然后依据一个或多个值对gene list进行排序(例如-log10 P值乘以log-transformed fold-change),进行通路富集分析研究。

stage 2A:使用g:Profiler的gene list的通路富集分析(step6A)

在g:Profiler和类似的基于网络的工具的默认分析流程35,36,37,38,在固定的目的基因列表中搜索基因显著富集(即过表达)的通路,而不是搜索基因组中的所有基因(step6A)(box4)。使用Fisher精确检验计算通路富集的P值,并应用多重检验校正(box3)。

g:Profiler还包括一个有序的富集检验,它适用于按评分排序的多达几千个基因的列表,而其余的基因组中基因缺乏有意义的排序方式。例如,可以通过cancer driver预测方法6的评分对显著突变的基因进行排序。该分析重复修正的Fisher精确检验,输入递增的较大的基因子列表,并返回每个通路的富集P值最强的子列表39。g:Profiler搜索基因集的集合,包括基因本体论(GO)术语,通路,网络,调节基序和疾病表型的基因集合的集合。可以选择主要类别的基因集来定制搜索。

使用Fisher精确检验或相关检验的通路富集方法需要定义背景基因以进行比较。所有注释的蛋白质编码基因通常用作默认值。如果实验直接测量所有基因的子集,将导致P值的不适当膨胀和假阳性结果。例如,设置自定义背景对于分析来自靶向测序或磷酸化蛋白质组学实验的数据非常重要。好的定制背景会分别包括测序仪panel中所有基因或所有已知的磷蛋白。

stage2B:使用GSEA对ranked gene list进行通路富集分析(step6B)

ranked gene list的通路富集分析使用GSEA软件14(step6B)(box4)。GSEA是一种无阈值方法,可根据其差异表达排序或其他评分对所有基因进行分析,无需事先进行基因过滤。GSEA特别适用于基因组中的所有或大多数基因(例如,RNA-seq数据)可排序的情况。但当只有小部分基因可排序时(例如,在鉴定显著突变的癌症基因的实验中)(stage2A;步骤6A),GSEA不适用。

GSEA主要搜索其基因在ranked gene list的顶部或底部富集的通路。例如,如果最顶端的差异表达基因参与细胞周期,这表明细胞周期通路在实验中受到调节。相反,如果细胞周期基因在整个ranked list中随机分散,则细胞周期通路可能没有受到明显的调节。为了计算通路的富集评分(ES),GSEA逐个检查ranked list的顶部到底部的基因,如果基因是通路的一部分则增加ES,否则降低ES。对这些计算的总和值进行加权,以便放大顶部(和底部)排序基因的富集,而没有放大排序在中间的基因的富集。ES评分是计算总和的最大值,再相对于通路大小标准化,得出归一化的富集评分(NES),反映了list中通路的富集。正NES值和负NES值分别表示列表顶部和底部的富集情况。最后,基于排序计算并校正P值以进行多重检验以产生FDR Q值,其范围从0(高度显著)到1(不显著)(box3)。从ranked gene list的底部开始进行相同的分析,以鉴定在列表底部富集的通路。使用FDR Q值的阈值(例如,Q <0.05)选择所得到的通路并使用nes进行排序。此外,gsea分析的“leading>

GSEA有两种确定ES的统计显著性(P值)的方法(基因集排序和表型排序)。基因集排序检验需要ranked list,并且GSEA将观察到的通路ES与重复分析随机取样获得的同样大小的基因集(例如1,000次)获得的评分分布进行比较。表型排序检验需要所有样品的表达数据(例如,生物学重复)、“表型”的样品分组(例如,病例与对照;肿瘤与正常样品)。将获得到的通路的ES与通过在所有样品随机打乱并重复分析(例如1,000次)获得的评分分布进行比较,包括ranked gene list和获得的通路的ES。对于具有有限变异性和生物学重复的研究(即每种条件下2至5次),推荐基因集排序。在这种情况下,差异基因表达值应该在GSEA之外计算,使用包括方差稳定的方法(例如edgeR),DESeq和LIMMA / VOOM)并在通路分析之前导入GSEA软件。表型排序应使用大量重复(例如,每种条件至少10次)。表型排序方法的主要优点在于,与基因集排序方法相比,它在排序期间维持具有生物学上重要的基因相关性的基因集的结构。该流程仅涵盖基因集排序,因为它适用于通路富集分析的最常见用法。表型排序需要消耗大量计算资源,并且对于当前版本的GSEA,需要定制编程以分别计算数千个表型随机化的ES和差异表达统计。对于高级用户,我们为此程序提供补充流程(补充流程4).

默认情况下,GSEA桌面软件搜索MSigDB基因集数据库,其中包括通路,已发表的基因特征,microRNA靶基因和其他基因集类型(box2)。用户还可以提供自定义数据库作为基于文本的GMT(Gene Matrix Transposed)文件,其中每一行定义一个通路,包括名称,标识符和它包含的gene list。GMT文件中的基因ID必须与输入gene list中的基因ID相对应。

stage3:通路富集分析结果的可视化和解释(step7-13)

通路信息本质上是冗余的,因为基因通常参与多种通路,且数据库包括具有许多共有基因的一般和特定通路(例如,'细胞周期'和'细胞周期的M期')来分级地编组通路。因此,通路富集分析通常突出显示相同通路的几个版本。将冗余通路折叠成单一的生物学主题可以简化注释。我们建议使用可视化方法(如EnrichmentMap,ClueGO等)来解决此类冗余问题。 “富集图”是表示丰富路径之间重叠的网络可视化(图1),而“EnrichmentMap”是指创建可视化的Cytoscape应用程序。如果通路共享许多基因,则通路显示为与线连接的节点。节点根据ES着色,边线根据连接通路共享的基因数量确定大小。网络布局和聚类算法自动将类似的通路按照主要的生物学主题分组。EnrichmentMap软件将包含通路富集分析结果的文本文件和包含原始富集分析中使用的通路基因集的另一文本文件作为输入。通路ES(过滤节点)和通路(过滤边缘)之间的连接可以交互式探索(step9A(xii和xiii)和9B(xiii和xiv))。多个富集分析结果可以在单个富集图中同时可视化,在这种情况下,每个富集在节点上使用不同的颜色。如果任选加载基因表达数据,点击通路节点将显示该通路中所有基因的基因表达热图。

EnrichmentMaps有助于识别目的通路和主题。首先应确定主题,以帮助验证通路富集分析结果(阳性对照)。例如,分析癌症基因组数据集,可能会鉴定出与生长相关的通路和癌症的其他标志物。其次,将先前未与实验环境联系起来的通路作为潜在的发现,进行更深入的评价。应首先研究具有最大ES的通路和主题,然后逐渐减弱信号(step12)。第三,更详细地检查感兴趣的通路,检查通路内的基因(例如,表达热图和GSEA前沿基因)。此外,如果图标可用,基因表达值可以用PathVisio等工具从 Pathway Commons,Reactome ,KEGG 47或WikiPathways 等数据库添加到通路图上。如果该图不可用,可以使用STRING或GeneMANIA等工具与Cytoscape 一起定义通路基因之间的相互作用网络,用于添加表达值。这有助于可视化鉴定在实验中改变最多(例如,差异表达)的通路组分(例如,单基因或整个信号级联)。此外,可以用EnrichmentMap后分析工具整合miRNA 52或转录因子53的基因集,搜索富集通路的主要调节因子。最后,可以发表通路富集分析结果以支持科学结论(例如,两种癌症亚型的功能差异),或用于假设生成或实验计划以支持新通路的鉴定。http://www.pathwaycommons.org/guide/提供了更多通路丰富分析实例和核心概念的更深入解释。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
转录组文章的常规套路
转录组测序如何发高分文章
转录组结果如何挖掘关键基因——你不得不知的“套路”
基于NCBI基因表达综合数据库筛查胃癌关键基因和信号通路的分析
Cbl-b如何参与黑素瘤发病?
浅谈GSEA分析和KEGG富集分析的异同
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服