打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
GEO数据库及应用场景介绍

NCBI于2000年发起的基因表达汇编(GEO)计划。致力于建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。

GEO主要包含各种芯片数据,也有少部分测序数据,与TCGA的差别在于TCGA只包含人的数据,而GEO是多物种的,GEO上有各种平台的数据,而TCGA只有测序数据,芯片数据的数据量较小,而TCGA的测序数据数据量较大。

 

GEO提供的数据类型

Series: 多个样本连接成一个完整的研究数据集,并提供了整个研究的描述,包括对数据的描述,总结分析。目前共有96445个研究。

Platforms: 用户提交给GEO数据中涉及到的芯片/测序平台,目前GEO上包含了18300种平台的数据。

Samples:用户提交给GEO的样本数据,目前平台上共有2439709个样本

DataSets: GEO工作人员根据用户提交的数据整理后得到的数据集,类似于TCGA的level4数据,目前共有4348个。

Profiles:GEO工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表单情况。

 

GEO数据检索

GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们检索都是DataSets数据。

比如图中红色标记处都是可以各种定制化设置条件以检索自己想要的内容。

以寻找带有预后信息的胃癌数据集为例。


GEO数据检索胃癌数据

胃癌关键字有:gastric carcinomagastric cancerStomach CancerSTAD

临床信息关键字:ClinicalSurvival

检索数据结果注意

1、数据平台

2、样本量

3、数据集关联研究

简单看数据描述信息,做到心里有数,比如这套数据集用来做了什么,从Summary里面可以看出大概。


GEO数据下载

检索到数据集之后面临的是怎么下载数据,GEO数据是可以直接在线下载的,非常简单,同时GEO提供了多种数据的下载格式,主要有四种形式:

1SOFT格式的数据

2MINIML格式的数据

3、矩阵形式的数据

4、芯片原始数据


GEO数据下载格式

1SOFT格式和MINIML格式的数据下载的是一个压缩包,解压之后里面有各个样本的单独的表达数据,还有平台的注释数据以及样本信息,其中样本信息是XML文件,其他为TXT格式的数据。

2、矩阵格式的数据下载后是一个压缩包,解压之后是一个TXT文件,可以使用Excel打开,样本信息都包含在里面。

3、无论是哪种数据,矩阵中的信息都是探针的,下载后需要重新处理。

4GEO国内访问比较慢,在下载数据时经常会断或者会存在数据丢失。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
转录组不求人系列(二): 公共数据库数据挖掘
GEO二代测序表达数据下载数据库
数据挖掘课程能带给你什么收获
3到11分文章解读(肿瘤免疫浸润挖掘方向)
手把手教你多套GEO数据集合并
大数据时代最全的医学公共数据库合集整理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服