打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
让天下没有难处理的表达量芯片
userphoto

2022.06.29 广东

关注

GEO数据库里面的表达量芯片数据处理,主要的难点是表达量矩阵获取和探针的基因名字转换,搞定后只需要一定的生物学背景对数据进行合理的分组后就是标准的差异分析,富集分析。主要是参考我八年前的笔记:

因为都是标准的代码,所以每次有学徒和实习生我都会让大家两次十几个数据集,凑成为了一个合辑:《1000个基因芯片表达量矩阵数据处理》:

  • 11.TNBC数据分析-GSE27447-GPL6244
  • 10.TNBC数据分析-GSE76275-GPL570
  • 9.mmu-macrophages-GSE69607-GPL1261
  • 8.HNSCC数据分析-GSE6631-HG_U95Av2-GPL8300
  • 7.HNSCC数据分析-GSE13399-GPL7540
  • 6.HNSCC数据分析-GSE33205- GPL5175
  • 5.HNSCC数据分析-GSE107591-GPL6244
  • 4.HNSCC数据分析-GSE2379-GPL830-GPL91
  • 3.ccRCC数据分析-GSE53757-GPL570
  • 2.ccRCC数据分析-GSE14672-GPL4866
  • 1.ccRCC数据分析-GSE66270-GPL570

因为这些年学徒和实习生积累的素材实在是太多了,全部发公众号不现实,本身代码倒是很简单,大量的图表排版反而是工作量不小了。

所以,我们有必要组建一个表达量芯片数据处理交流群,我们会分享一套万能代码,它理论上可以支持GEO数据库的至少5万个表达量芯片数据集,从下载表达量矩阵到后续差异分富集分析一条龙,而且输出大量图表和一个网页报告!

但是它并不是傻瓜式的,仍然需要你会R语言,需要生物学背景去修改分组形式,需要人为判断芯片的探针对应基因的关系,其它的图表,比如火山图,热图,GO和KEGG数据库富集图,GSEA图就是自动化的啦。已经是目前我们能想到的最小化干预了。

以GSE16515为例

  • GEO链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515
  • 芯片平台:GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
  • 平台链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570
  • 样品信息:16个正常样本与36个胰腺导管腺癌(PDAC)样本
  • 文章标题及链接:FKBP51 Affects Cancer Cell Response to Chemotherapy by Negatively Regulating,Akt.Cancer Cell. 2009 Sep 8; 16(3) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2755578/

分组后查看是否合理:

 

简单的差异分析:

简单的差异分析

简单的数据库注释:

 

每一个图表都有背后的统计学原理,也有各自美化的代码,但是都不在我们的万能代码里面哦。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
GEO芯片数据转换器使用案例
GEO(Gene Expression Omnibus):高通量基因表达数据库
比GEO2R更好用的GEO数据分析工具
R语言GEO数据挖掘01-数据下载及提取表达矩阵
手把手教你那篇2.5分不做实验的文献是怎么做差异基因分析的
使用tinyarray包简化你的GEO分析流程!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服