GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,今天给大家介绍一个免费工具, 可以方便的进行差异分析。
1.在注释平台中,包含有genesymbol,直接进行常规的转换,转换方法与之前的转换方法相同。2.利用probe2symbol,将探针ID转换为genesymbol。3.某些测序数据里,不包含有genesymbol注释,但是包含有genebank ID,我们可以先将探针ID转换为GB ID,再将GB ID转换成genesymbol。4.接下来,将GB ID转换成genesymbol,需要文件为gb2symbol.pl以及GB ID注释文件。直接运行gb2symbol程序,即可将GB ID转换成genesymbol,并生成genematrix2文件。1.将ID转换完成的两个芯片文件名字各自改为芯片的GSE号码,并记住每个芯片中样本总数,正常样本数和肿瘤样本数,因为后续整合芯片及差异分析需要用到这些信息。2.接下来中cmd中运行合并代码。首先输入perl,调用perl程序,然后输入文件名称,文件输入顺序不能出错,因为关系到合并后样本排序。3.运行完成后,在文件夹中会出现merge文件,即合并后的表达数据。4.在获得合并后的表达文件后,由于不同平台,不同芯片的测序方式,需要对整合后的芯片表达数据进行批次矫正。批次矫正中需要用到sva包和limma包,需要修改运行路径,样本数目及正常组和疾病组的样本数目。5.运行完成后,在文件夹中会获得一个芯片的文件,名字为normalize.txt。即矫正后的表达矩阵。1.接下来,就可以对整合后的数据进行差异分析了。同之前对单个芯片进行差异分析一样,需要修改运行路径,样本数目,logFC和adjustP可以自行设定。2.运行完成后,即可获得差异基因情况,文件和单芯片差异分析一样,包括diff,up,down,火山图等文件。今天介绍一个好用的工具:BRB-ArrayToolshttps://linus.nci.nih.gov/BRB-ArrayTools/安装后会添加到Excel上,在Excel加载项中可以直接使用1.打开后,我们直接输入GSE85841登录号E858412.单击后在下面的界面中选择Next:这样数据就导进来了3.这里我们可以设置最小阈值,默认值是10;标准化方法是quantile,我们选择默认5.我们直接选择默认后单击OK就好了,共有24387个基因符合条件用默认的:Annotatedata with Bioconductor packages7.再选择基因symbol和物种即可,这样注释就好了9.这样我们就能看到结果了,这里既有FDR,Pvalue,又有倍数,还有基因的信息
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。