但是无论谁,挖出一堆数据后,也不知道到底有啥用是不是?并不能找出一个特别合适的基因,只能撞大运。
但其实在疾病中,各种基因是有相关的表达模式的。我们只要通过一些已经证实的疾病相关的关键基因,作为一个训练集(Training Group),寻找你挖出来的差异基因(测试集,Test Group)是不是和这些已经证实的基因在GO term或者Pathway上有相关性就行了。
可能你没听懂这个概念,好吧,举个简单的栗子。
训练集(Training Group)就像是考试前,你可亲可敬的老师给了你几套模拟题。你按照模拟题的知识点去复习,你复习的知识点就是测试集(Test Group),等考完出来的成绩就是最后测试集检测(Test)的结果,那基本也十拿九稳了。
那我们那里弄疾病相关的训练集(Training Group)呢?这个挺简单的,从文本挖掘里找就行了,之前不是就给你们介绍过p神器么?直接搜就有了:
比如,我搜了一个肠癌,然后确认。
点击结果里的“Gene”,那就是肠癌研究中出现频率比较高的几个基因了,也就是训练集(Training Group)。或者你可以想象这是模拟卷:
然后,用GEO2R随便挖一点肠癌中表达差异的基因:
就得到了我测试集(Test Group)所需要的差异基因了,这也就是你复习的知识点:
然后在这场考试(Test)中,把训练集(Training Group)和测试集(Test Group)的基因都bia进去。
选择一下两者需要关联的项目,其实有很多,比如疾病啊,GO term啊,Pathway啊之类的,甚至还有共有的miRNA等等:
接着就是出成绩的时候了:
GO分析会分析与训练集关系最密切的GO term中,富集到最多的测试集的。
同时,也能链接到共表达的数据库、miRNA的数据库等等……
也可以用图例来显示富集的趋势:
李莫愁博士:其实这是一种更简单的,让你芯片筛选出来的差异基因,再次筛选出更有可能参与到疾病过程的方法。也就是用已知的疾病相关的明星分子,作为校准,来进一步富集。当然,所有的这些挖掘,也只是一个初步,并不是说这样获得的基因就铁定能做为课题了。所有的可能性,都需要用实验来进一步认证的哦!p神器是什么自己去后台回复哈……还有这个工具的话,就回复“TopGene”就行了哈……好啦,今天就先策到这里吧。
联系客服