一直都搞不清楚这两者的具体区别。
其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库。
建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别。
(抱歉之前没讲清楚,甚至有可能误导大家了)
以下以一个案例来详细说明两者的区别:
推荐一个没有任何基础的人都能使用的gene set注释工具
http://www.webgestalt.org/option.php
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 | GCLC TFPI HSPB6 TSPOAP1 ITGA2B OSBPL7 BAIAP2L1 NOS2 PAX6 CD4 PIK3C2A PRICKLE3 RGPD5 PLEKHB1 EHD2 RRAGD FAS PNPLA6 ATP6V1H RRM2B FSTL4 LAMA3 SYNE2 SLC2A3 PSD DGAT2 SEZ6 SLC6A16 CHI3L2 GSTO2 SEC61A2 TLE2 SLC9A7 ZMYND12 NGEF METTL22 RASGRP2 PITX1 GAL DRD4 PTPN3 MYO3B LNX1 ACAP1 PANX2 LLGL2 CLCN4 FMO4 TPD52 NMRK2 MAP2 RBFOX1 MYH7B RAPGEF3 RFX3 IGSF9B CROCCP3 OVGP1 SNX10 HSD17B2 HSD17B14 FTL MT3 LPCAT2 TESC LYZ GOLGA3 EFNB1 MYO15A ZFHX4 JAK2 ERMP1 HSD17B7P2 CATSPERG PICK1 ACR PVALB PROCR SGK2 EEF1A2 SIRPB1 MROH8 LIPG LAMA1 NOL4 GPR143 |
把以上gene copy到txt里,命名为gene.txt
选项如下:
提交。。。
结果如下:
这是一种GO的分析结果,可以看到我们的基因被归类到一个一个的叫GO term的东西里。
GO数据库是一个树状的结构,顶层有三个根节点,分别问:BP,MF和CC。(具体是啥百度一下即可知)
同样我们把 Select Functional Database 改成 “pathway”,选“KEGG”就可以做道谢通路富集了。
KEGG数据库是网状的,由很多张以下的图组成,都是人工注释的。
以上使用的都是ORA方法,还有一种著名的工具叫做GSEA (Select Method of Interest里选择)。
GSEA 还可以利用每个基因的 rank 信息,来做富集分析。
GO数据库的基础就是一个一个的GO term,它们是树状的结构,存在冗余。GO database的root node有三个,分别为BP、CC、MF。
KEGG就是人工注释的一张又一张代谢通路,是网状的。
我目前用的多的是GO数据库的BP子库,KEGG用得比较少 。
前者是功能注释,即每个基因可能参与哪些pathway terms 或者 GO terms,没有阀值的。
后者是功能富集,即基因集(多个基因)可能显著的集中在哪些功能上面,例如选择P<0.05.得到的结果都是显著性富集的pathway terms或者GO terms。
GO
GO是Gene ontology的缩写,GO数据库分别从功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述,即对基因产物进行简单注释,通过GO富集分析可以粗略了解差异基因富集在哪些生物学功能、途径或者细胞定位。
Pathway
Pathway指代谢通路,对差异基因进行pathway分析,可以了解实验条件下显著改变的代谢通路,在机制研究中显得尤为重要。
GO分析好比是将基因分门别类放入一个个功能类群的篮子,而pathway则是将基因一个个具体放到代谢网络中的指定位置。
2018年3月16日更新
参考:
联系客服