打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
揭秘差异基因功能富集分析

通过差异分析,我们可以知道不同分组间是否存在差异,存在差异的是哪些基因。再进一步,需要探究这些基因的表达量出现差异是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。

为了探究上述问题,我们首先需要知道基因参与的生物学过程,这个依赖于我们对生命活动的已有认知,比如常见的KEGG数据库,就存储了基因对应的通路信息。

其次,我们还需要一点统计学手段,差异基因的数目是成百上千的,每个基因又参与多个生物学过程,直接将所有差异基因的功能汇总,会得到非常多的信息,由于数量庞大,所以看起来是杂乱无章的,没有任何规律可言,所以需要借助统计学手段,去挖掘差异基因集中在哪些生物学过程,也就是我们常说的富集分析。

从上面的解释可以看到,富集分析有两个核心

1.基因的注释信息

基因参与的生物学过程,也称之为基因的功能注释,这部分信息主要依赖已有的数据库,常见的数据库包括GO, KEGG, wikipathway, reactome等。

需要注意的是,不同数据库覆盖的基因数目是不一样的,以human为例,一共2万多个蛋白编码基因 , 其中有KEGG pathway注释的只有6000多个。

由于已有认知的缺陷,这个是无法避免的问题,只能通过不断的探索研究来更新和完善数据库中的内容。

所以在富集分析时,会集合多个数据库来分析,最常见的就是GO和KEGG数据库,近年来reactome用的也越来越多。其实,只要是你感兴趣的功能数据库,都可以拿来做分析。

2. 统计方法

如何研究差异基因集中参与的生物学过程,需要借助统计学手段,常见的方法包括以下两种:

  1. 费舍尔精确检验

  2. GSEA

费舍尔精确检验的核心就是得到如下所以的2X2的表格,


DGEGenome
in pathway1940
not in pathway2816800

从两个角度将基因进行分类,是否为差异基因,是否位于待研究的通路上,就可以得到上述表格了。第一列之和为差异基因的总数,第二列之和为非差异基因的总数。

在用这种方式进行分析时,通常会选择一个log2FD的阈值,挑选显著差异的基因,这种一刀切的过滤手段去除了一些可能的关键基因,其次,如果你的差异基因没有对应的pathway注释,那么在富集分析时,会被直接丢掉,以上两点是这种方法的缺陷。

GSEA又称之为基因集富集分析,这里的基因集指的就是数据库中的基因集合,比如pathway中的某条通路对应的所有基因,所以这种方法的研究对象和费舍尔精确检验是一致的。唯一不同的是,它的输入是所有基因,首先对基因进行排序,然后分析排序后的基因列表在某个通路下是否富集。

由于该方法不需要对基因事先过滤,所以不会丢掉某些差异基因,能够挖掘出的信息量也会增加,近年来也是越来越受欢迎。

在后续文章中,会详细介绍不同工具的使用方法。

·end·

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
为什么选择GSEA分析?和KEGG和GO分析有什么区别?
零代码功能富集分析(DAVID数据库、KOBAS数据库使用教程)
转录组测序常见FAQ
别搜啦!关于富集分析你想知道的这里都有!
一文教你如何掌握基因功能(GO)和信号通路(Pathway)分析
转录组学习八(功能富集分析)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服