生信没入门？一招让你简单粗暴学会GEO数据库

GEO数据库中的数据是公开的，很多的科研工作者会下载其中的数据自己去分析，其中差异表达分析是最常见的分析策略之一，为了方便大家更好的挖掘GEO中的数据，今天给大家介绍一个免费工具, 可以方便的进行差异分析。

多个GEO数据联合分析

一、芯片数据下载及注释

1.在注释平台中，包含有genesymbol，直接进行常规的转换，转换方法与之前的转换方法相同。

2.利用probe2symbol，将探针ID转换为genesymbol。

3.某些测序数据里，不包含有genesymbol注释，但是包含有genebank ID，我们可以先将探针ID转换为GB ID，再将GB ID转换成genesymbol。

4.接下来，将GB ID转换成genesymbol，需要文件为gb2symbol.pl以及GB ID注释文件。直接运行gb2symbol程序，即可将GB ID转换成genesymbol，并生成genematrix2文件。

二、多个GEO数据整合

1.将ID转换完成的两个芯片文件名字各自改为芯片的GSE号码，并记住每个芯片中样本总数，正常样本数和肿瘤样本数，因为后续整合芯片及差异分析需要用到这些信息。

2.接下来中cmd中运行合并代码。首先输入perl，调用perl程序，然后输入文件名称，文件输入顺序不能出错，因为关系到合并后样本排序。

3.运行完成后，在文件夹中会出现merge文件，即合并后的表达数据。

4.在获得合并后的表达文件后，由于不同平台，不同芯片的测序方式，需要对整合后的芯片表达数据进行批次矫正。批次矫正中需要用到sva包和limma包，需要修改运行路径，样本数目及正常组和疾病组的样本数目。

5.运行完成后，在文件夹中会获得一个芯片的文件，名字为normalize.txt。即矫正后的表达矩阵。

三、整合后数据的差异分析

1.接下来，就可以对整合后的数据进行差异分析了。同之前对单个芯片进行差异分析一样，需要修改运行路径，样本数目，logFC和adjustP可以自行设定。

2.运行完成后，即可获得差异基因情况，文件和单芯片差异分析一样，包括diff，up，down，火山图等文件。

BRB工具进行GEO数据差异分析

今天介绍一个好用的工具：BRB-ArrayTools

https://linus.nci.nih.gov/BRB-ArrayTools/

这个是TCGA官网上附带的一个工具，需要下载安装

安装后会添加到Excel上，在Excel加载项中可以直接使用

1.打开后，我们直接输入GSE85841登录号E85841

2.单击后在下面的界面中选择Next：这样数据就导进来了

3.这里我们可以设置最小阈值，默认值是10；标准化方法是quantile，我们选择默认

4.这里可以设置差异的倍数，默认的是1.5倍

5.我们直接选择默认后单击OK就好了，共有24387个基因符合条件

6.然后选择注释方式

用默认的：Annotatedata with Bioconductor packages

7.再选择基因symbol和物种即可，这样注释就好了

8.接下来我们进行比较：

9.这样我们就能看到结果了，这里既有FDR，Pvalue，又有倍数，还有基因的信息

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。