如何让你挖出来的差异基因更有意义？

但是无论谁，挖出一堆数据后，也不知道到底有啥用是不是？并不能找出一个特别合适的基因，只能撞大运。

但其实在疾病中，各种基因是有相关的表达模式的。我们只要通过一些已经证实的疾病相关的关键基因，作为一个训练集（Training Group），寻找你挖出来的差异基因（测试集，Test Group）是不是和这些已经证实的基因在GO term或者Pathway上有相关性就行了。

可能你没听懂这个概念，好吧，举个简单的栗子。

训练集（Training Group）就像是考试前，你可亲可敬的老师给了你几套模拟题。你按照模拟题的知识点去复习，你复习的知识点就是测试集（Test Group），等考完出来的成绩就是最后测试集检测（Test）的结果，那基本也十拿九稳了。

那我们那里弄疾病相关的训练集（Training Group）呢？这个挺简单的，从文本挖掘里找就行了，之前不是就给你们介绍过p神器么？直接搜就有了：

比如，我搜了一个肠癌，然后确认。

点击结果里的“Gene”，那就是肠癌研究中出现频率比较高的几个基因了，也就是训练集（Training Group）。或者你可以想象这是模拟卷：

然后，用GEO2R随便挖一点肠癌中表达差异的基因：

就得到了我测试集（Test Group）所需要的差异基因了，这也就是你复习的知识点：

然后在这场考试（Test）中，把训练集（Training Group）和测试集（Test Group）的基因都bia进去。

选择一下两者需要关联的项目，其实有很多，比如疾病啊，GO term啊，Pathway啊之类的，甚至还有共有的miRNA等等：

接着就是出成绩的时候了：

GO分析会分析与训练集关系最密切的GO term中，富集到最多的测试集的。

同时，也能链接到共表达的数据库、miRNA的数据库等等……

也可以用图例来显示富集的趋势：

华丽丽的分割线

李莫愁博士：其实这是一种更简单的，让你芯片筛选出来的差异基因，再次筛选出更有可能参与到疾病过程的方法。也就是用已知的疾病相关的明星分子，作为校准，来进一步富集。当然，所有的这些挖掘，也只是一个初步，并不是说这样获得的基因就铁定能做为课题了。所有的可能性，都需要用实验来进一步认证的哦！p神器是什么自己去后台回复哈……还有这个工具的话，就回复“TopGene”就行了哈……好啦，今天就先策到这里吧。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。