在先前的文章中,本宫介绍过如何用Cytoscape构建蛋白质互作网络(见如何用Cytoscape提升文章档次?),其中在最后一部分讲的是通过STRING数据库构建一串基因的蛋白的互作网络图,然后在Cytoscape里编辑成下图的模样。
最近有童鞋问本宫,图是画出来了,然而并不知道怎么使用这么一张图。
这里的话,就这么一个问题,本宫将自己的一些想法和大家说一说。其实,之所以不知道怎么用,是因为只知道如何做,却不知道为何要这样做。最近有不少公众号都讲了一些不做实验就能发文章的套路,这些套路中主要用的就是生物信息学分析的方法,这其中包括GO,KEGG,蛋白质互作网络(PPI network)等。
首先我们来看一篇按常规套路出牌的文章,“Identification of genes and pathways associated with pancreatic ductal adenocarcinoma by bioinformatics analyses”(IF=1.4)。
常规套路:下载别人已经完成的芯片数据,分析筛选差异基因,构建蛋白质互作网络,GO和KEGG分析。另外本文利用TAG(肿瘤相关基因)和TSG(肿瘤抑制基因)数据库对差异基因进行了肿瘤相关性的注释。
套路和方法是有了,那么为何要这么做?如何根据得到的结果阐述一些结论性的东西?这里本宫把套路中的东西进行了剖析。
1、筛选分析差异基因
为何要分析筛选分析差异基因?
因为在实验组(比如说癌组织)和对照组(比如说癌旁组织)中这些基因的表达量出现了差异,而疾病是由这些基因差异表达引起的。
筛选差异基因的常用参数是什么?为何要用这些参数?
p-value和fold change(FC)是常用的两个参数。p-value<0.05表示芯片测出来的样本间基因表达差异有统计学意义;而FC指的是两组样本中基因表达量的相对倍数关系,通过这个参数我们可以了解哪些基因在疾病中是有较大变化的,发生较大变化的基因很可能与疾病的发生有着重要联系。(但是由于级联反应的存在或者某基因在对照组中表达量极低接近于0时,那么FC会出现巨大变化,但这巨大变化可能并没有什么生物学意义,这里推荐小张之前写的GSEA是个什么鬼(上)?,GSEA是个什么鬼?(下))
2、GO和KEGG分析
GO和KEGG分析的意义和作用是什么?
GO和KEGG包括这篇文章里用到的TAG和TSG,都是对差异基因进行注释。为什么要进行注释?因为筛选的差异基因可能有很多,那么到底哪个基因比较重要,哪个基因更可能与疾病相关?通过GO和KEGG分析,我们通过了解该基因已有的信息,把预测的尺度放得小一点,那么预测的准确性相应得就会提高一些;另外通过功能注释,我们还可以了解到这个基因可能是在疾病发生过程中的哪个环节产生了作用。
举例来说,一个差异基因如果GO注释表明,它与细胞凋亡相关,那么这个基因可能通过抑制肿瘤细胞的凋亡起到促癌作用,那么在对这一个基因进行进一步研究的时候,我们就有了方向—凋亡相关。所以,在这一类文章中,我们在进行结果展示的时候,不光光是罗列相应的TERM和注释,更重要的是根据已有的数据,提出自己的合理推测,并通过文献查阅,了解更多的信息,来把自己预测的和别人做过的串联起来,构成更加系统的假说。
3、PPI网络分析
PPI网络分析有什么作用?
我们先来看一下文中所用的图
咳咳,先不论颜值什么的,先看内容。图中的参数有两个,一个是表达量上调还是下调,分别用红色和绿色标记;一个是Degree,数值越大,Node越大。
在这里,Degree指的是这个Node和多少个Node连接,连接的Node越多,就表明这个基因越是处在调控网络的一个中心地位,表示这是一个Hub基因。现在的研究越来越注重于调控网络的研究,因为基因的表达往往牵一发而动全身,但这其中总有一些基因是Key gene,我们分析的目的就是为了找出Key gene,然后进行后续研究。
之前的Cytoscape作图里讲的是用EXCEL的COUNTIF函数计算的Degree的值,这里介绍Cytoscape的一个APP,叫CentiScape,在Cytoscape里Apps菜单里选择App Manager可以下载到。
利用这个APP我们可以算出PPI网络的很多拓扑信息,包括Degree。
在Discussion部分,结合GO、KEGG和PPI网络分析的结果,来说明我们是如何挑了这么些个差异基因,并且它们在疾病发生过程中是如何起作用,起到了什么作用,再排除别人已经研究过的,那么我们最后筛选出的结果是多么的novel,多么值得研究啊!
可惜~~
我没有钱接着往下做了~~~~~~~
跪求国自然准予资助那些热爱科学,奉献科学的有志青年啊!
联系客服