打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
我的图书馆

GEO数据库里面的数据种类比较多,经常我们用的这个数据集和其他数据集有区别,所以就导致碰到这种这样的问题。后台经常收到大家的疑问,今天统一做一个交流吧。


1、这个数据集为什么没有GEO2R分析工具?

有时候我们在找到数据集,然后看了分组之后,觉得这个数据和我们想要的挺符合的。想分析的时候,发现没有GEO2R这个工具。

例如下面这个:

这个就涉及到GEO2R的使用目标了。GEO2R只适用于表达谱芯片分析。但是GEO数据里面,并不止是包括表达谱芯片数据。还包括一些二代测序的数据。而二代的数据是不能这么简单的分析的,这也是为什么我们在第一次介绍GEO的时候就说,现在常规的容易入门的数据分析类型还是表达谱数据。

一般我们在GEO检索结果的时候,如果可以用GEO2R分析的,都会显示。

2、GEO2R能进行多组分析嘛?

有时候我们发现一个数据集,里面包括多个不同的分组。而且我们还都感兴趣。那能进行进行多组分析嘛?

这个GEO2R里面是考虑多多组之间的分析的,我们只需要在制定分组的时候,制定自己想要的分组就行了。

只不过呢,在结果当中,我们就看不到类似logFC的计算量了。其实从统计上来说在的话,两组我们用的是非参,两组以上就是方差了。统计方式不对返回的结果就不一样了。所以结果当中会包括一个F值。

3、如果有两个数据集能一起分析嘛?

我们经常在找自己课题相关的数据的时候,经常能找到好多数据集。统计学上说,样本量越大结果越准确嘛。那能融合到一起用GEO2R分析嘛?答案是,不能。。。。

由于GEO2R是基于GEO数据库设计的,所以并没有提供上传数据分析的功能,所以这个时候就不能融合到一起来进行分析了。另外呢,就算我们有别的分析方法,比如知道如果用R语言来进行分析的话,也不能单纯的把数据集下载下来然后融合到一起分析的。因为不同数据集在做检测数据的时候,当时检测的时候温度,环境,机器的状态等因素不同,所以就导致两者之间可能存在一定的整体的偏差。我们称这种叫做批次效应。如果不去掉批次效应就硬融合到一起。那结果往往会出现很大的偏差。

所以也就是因为不能简单的进行硬融合,好多在找到相同数据集的时候,但又不想去进行去批次的操作的时候,都选了去交集的分析方式。这个也算是有一定道理的。毕竟既然两者个数据集之间是又偏差的。但是那我自己数据集内做出来的差异基因,然后再取交集就可以了吧。这也是为什么很多文章里面会有Venn图:手把手教你画不一样的韦恩图

如果确实想融合多个数据集分析,但是又不会处理批次效应的话。那推荐我们NetwordAnalyst(https://www.networkanalyst.ca/)这个数据库可以帮我们去掉批次效应来进行差异分析的。

4、为什么GEO2R分析后不显示基因名

有很多表达谱芯片我们在分析之后,都可以在分析结果里面看到相对应的基因名。

但是有时候我们在分析完一些芯片的结果之后,并没有看到基因名。例如下面GSE111762这个数据集。我们分析后是这样的:


结果里面只显示了另外一个ID和序列。

这是因为,我们在使用GEO2R进行分析的时候,其实是分两部分的

  1. 基于原始数据ID的差异表达分析。

  2. 分析完之后吧ID号和注释文件进行匹配。如果有基因名那就匹配上了。如果没有那就显示其他的芯片。

对于这个数据集,我们如果去看他们的注释文件的话(GPL15314)。会发现里面就是这样显示的:


5、如果没有基因名怎么办呢?

类似没有基因名的文件,可能是这个芯片在一定时间内有专利保护。人家可以不放出基因名的。这种情况的话~

  1. 有可能是GEO注释文件老了。可能这个芯片已经发出新的注释文件了,那这个时候就可以试着去公司网站上找找看。有的话,那最好了。

  2. 如果没有,还确实想要分析这个数据的话,可以试着基于序列来进行blast。寻找相对应序列在blast之后对应的基因是什么。这样也是一种自己注释基因的方式。不过呢,一个芯片有60000+条序列,如果只是用ncbi的blast这个网页工具。。。有可能就还没注释完网页就崩了。这个时候还是建议离线的blast工具好一些

  3. 如果连基因序列或者每一个探针对应的基因位置信息都没有的话。。。。那还是放弃吧。换别的吧。。。

5、差异分析后没有差异的结果怎么办

有可能在分析某一个数据集的时候,我们在做完GEO2R差异表达分析之后,然后发现没有差异基因。这个时候其实首先应该考虑的是:

  1. 自己的实验分组对不对?是不是自己本身的实验分组就有问题?

  2. GEO2R是基于芯片的矩阵数据来进行分析的,就是下图的这个数据。这个数据也是作者自己上传的,那作者上传的时候有可能就会过滤掉一些数据了。比如说有差异的那些结果。当然见过更厉害的,整个矩阵文件里面就没有数据。。不过毕竟自己的数据嘛,人家怎么做都是应该的。这个时候要是还想分析的话,可以试试下载更加原始的文件,也就是Supplementary file。不过这个东西就不能用GEO2R来分析了,就只能自己去找分析工具了,比如R语言。

6、甲基化芯片能不能用GEO2R分析

有时候我们在进行甲基化相关数据检索的时候,发现在甲基化数据下面也是有GEO2R的分析选项的。

这个其实也是可以用的,只不过分析的结果是基于某一个cg探针的结果。由于甲基化是是单一cg的影响可能不会那么大,所以都推荐说整体来评估一段区域的的甲基化改变情况。如果我们是为了找某几个cg来当作标志物的实话其实可以这样来做。但是如果是要评估甲基化整体的影响话,推荐还是正规的方法。目前比较推荐的还是R语言当中的CHAMP包来进行一个系列流程的分析。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
6种免疫细胞的850K甲基化芯片和转录组测序数据资源
GEO多套数据如何合并进行分析?(之二)
如何快速学习GEO数据挖掘?
(收藏)GEO芯片数据下载,矩阵提取,基因分析,差异miRNA分析,miRNA靶基因预测,GO、KE...
GEO数据库甲基化芯片挖掘发SCI是怎样炼成的
一键分析芯片信号通路的神器
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服