GEO数据库里面的表达量芯片数据处理,主要的难点是表达量矩阵获取和探针的基因名字转换,搞定后只需要一定的生物学背景对数据进行合理的分组后就是标准的差异分析,富集分析。主要是参考我八年前的笔记:
因为都是标准的代码,所以每次有学徒和实习生我都会让大家两次十几个数据集,凑成为了一个合辑:《1000个基因芯片表达量矩阵数据处理》:
- 11.TNBC数据分析-GSE27447-GPL6244
- 10.TNBC数据分析-GSE76275-GPL570
- 9.mmu-macrophages-GSE69607-GPL1261
- 8.HNSCC数据分析-GSE6631-HG_U95Av2-GPL8300
- 7.HNSCC数据分析-GSE13399-GPL7540
- 6.HNSCC数据分析-GSE33205- GPL5175
- 5.HNSCC数据分析-GSE107591-GPL6244
- 4.HNSCC数据分析-GSE2379-GPL830-GPL91
- 3.ccRCC数据分析-GSE53757-GPL570
- 2.ccRCC数据分析-GSE14672-GPL4866
- 1.ccRCC数据分析-GSE66270-GPL570
因为这些年学徒和实习生积累的素材实在是太多了,全部发公众号不现实,本身代码倒是很简单,大量的图表排版反而是工作量不小了。
所以,我们有必要组建一个表达量芯片数据处理交流群,我们会分享一套万能代码,它理论上可以支持GEO数据库的至少5万个表达量芯片数据集,从下载表达量矩阵到后续差异分富集分析一条龙,而且输出大量图表和一个网页报告!
但是它并不是傻瓜式的,仍然需要你会R语言,需要生物学背景去修改分组形式,需要人为判断芯片的探针对应基因的关系,其它的图表,比如火山图,热图,GO和KEGG数据库富集图,GSEA图就是自动化的啦。已经是目前我们能想到的最小化干预了。
以GSE16515为例
- GEO链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515
- 芯片平台:GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
- 平台链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570
- 样品信息:16个正常样本与36个胰腺导管腺癌(PDAC)样本
- 文章标题及链接:FKBP51 Affects Cancer Cell Response to Chemotherapy by Negatively Regulating,Akt.Cancer Cell. 2009 Sep 8; 16(3) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2755578/
分组后查看是否合理:
简单的差异分析:
简单的差异分析简单的数据库注释:
每一个图表都有背后的统计学原理,也有各自美化的代码,但是都不在我们的万能代码里面哦。