打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
刷爆高分文章的WGCNA究竟是个啥?


随着测序价格下降,各位大牛们手头积累的测序数据越来越多,传统的两两比对分析不仅带来了复杂的比对组合,而且无法系统地反馈我们样本基因间的相互作用模式。这时候我们就不得不另辟蹊径,Weighted Gene Co-Expression Network Analysis(以下简称WGCNA)就是一个适合复杂样本的分析方法


WGCNA中文名译加权关联网络分析,小R觉得这个翻译有点生硬,还是英文来得比较直接。它是一种从测序数据中挖掘模块(module)信息的算法。在该方法中module被定义为一组具有相似表达谱的基因, 如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么我们有理由认为这些基因在功能上是相关的,可以把他们定义为一个模块(module)。这似乎聚类分析所得到结果有那么一点相似,但不同的是,WGCNA的聚类准则具有生物学意义,它是对基因间表达量的相关系数取n次幂,使得相关系数数值的分布逐渐符合无尺度分布可以将基因按照表达模式进行分类,将模式相似的基因归为一个模块module),而非常规的聚类方法,因此该方法所得出的结果具有更高的可信度。当基因module被定义出来后,我们可以利用这些结果做很多进一步的工作


co-expression network中,每一个基因在一个特定时间或空间的表达情况被视做一个点(node)为了得到基因间的关联情况,我们需要计算任何两个基因间的相关系数(Person Coefficient)i个基因和第j个基因的Person Coefficient,即两个基因的表达相似性。为了知道两个基因的表达谱是否具有相似性,需要人为规定一个阈值,只有当基因间的Person Coefficient达到这一阈值后(0.8)我们才认为这两个基因是相似的,否则则不相似。但是这种分析方法存在一个很明显的局限,即我们没有理由认为Person Coefficient0.8的两个基因与Coefficient0.79的两个基因是有显著差别的,但是以上算法却无法避免这一处境WGCNA采用了一种基于软阈值的判定方法很好地避免了这一问题。


网络的数学名称是图,在图论中对于每一个节点有一个重要概念,即:度。一个点的度是指图中该点所关联的边数。




如上图所示,如果不加以思考,人们很容易认为生活中常见的网络会是一种random network,即每一个节点的度相对平均。然而第二种图,即scale-free network才是一种更稳定的选择。Scale-free network具有这样的特点,即存在少数节点具有明显高于一般点的度,这些点被称为hub。由少数hub与其它节点关联,最终构成整个网络。这样的网络的节点度数与具有该度数的节点个数间服从power distribution。这为我们寻找最佳参数提供了理论依据。生物体选择scale-free network而不是random network是有它进化上的原因的,显然对于scale-free network,少数关键基因执行着主要功能,只要保证hub的完整性,整个生命体系的基本活动在一定刺激影响下将不会受到太大影响。


前面已经过基因间的相关系数的计算了,计算完相关系数之后理论上可以将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样做有什么好处呢? 上文中我们提到理论上表达模式相似的基因可能就会参与相似的通路,或有相似的功能。通过这样的分类,信息量就被简化了。原来是成千上万个基因,现在被分成了几十个模块。下图就是将基因分为不同模块的结果图,每种颜色都代表一个模块。




将模块划分好之后,我们如何找到最为关键的那个模块呢?下面小R给大家提供3种研究策略。


1.模块的功能富集

对各个模块都进行 KEGGGO等功能富集分析,找出与我们研究性状(比方说光合作用或形态建成等等)相关通路相关性最强的模块进行深入挖掘。

2.模块与性状之间的相关性

模块的本质上就是一群表达模式相似的基因的大集合。我们可以利用数学的方法,算出这群基因表达量的综合值来代表这个模块,将这个值叫做“模块特征值”。也可以这么理解,每个模块就是一个 “超级基因”,它的表达量是所有成员共同作用的结果。假设最初测序的样本是50只体重各异的小鼠, 而现在分析后得到30个“超级基因”,那么到底哪个“超级基因”值得我们后续研究呢? 答案很简单,计算这些超级基因与体重之间的关系,找到相关性高的那个“超级基因”就是我们后续要重点研究的模块。

3.模块与样本间的相关系数

如果我们研究的不是单一性状那该如何分析呢?比如,草莓花发育的12个时期,6个不同的花组织。我想知道在每个时期每个组织中发挥作用的“超级基因”,那该如何下手呢?这个时候我们就需要计算每个模块的特征值与样本间的相关性,来研究每个模块最喜欢在哪个样本中表达。以下图为例,每一行代表不同的模块,每一列代表不同样本。相关性由低到高用由蓝到红的颜色来表示。从图中我们可以直观的看出每个模块和各个样品间的关联结果,比如Lightgreen和样品Anther_7-8相关性最强。



通过以上三种策略,就可以保证找到与我们研究密切相关的模块,下一步,我们就要进入模块内部一探究竟了。上文中我们介绍了无尺度网络,它对于我们挖掘模块的关键信息有两个价值:


1.找到模块的核心基因(上文提到的hub

模块中的各基因成员在关系上并非是平等的。我们把处于调控网络中心的基因称为核心基因(hub gene),这类基因通常是转录因子等关键的调控因子,是值得我们优先深入分析和挖掘的对象。而周边那些打酱油的成员,优先级可以往后放一放;

2.利用关系预测基因功能

在网络中,被调控线连接的基因,其表达模式是相似的,我们可以认为它们有相似的功能。所以,在这个网络中,如果线条一端的基因功能是已知的,那么就可以预测线条另一端功能未知的基因也有相似的功能,这就为我们下一步功能验证未知基因打开了一扇窗户。




上图即我们根据模块内部各基因的信息制作的基因相关网络图,每个点代表一个基因,基因之间的连接线表示共表达关系。处于核心地位的转录因子用大圈表示。



这里我们只是科普了下这个分析策略,涉及大样本量转录组研究的老师,不妨尝试一下这个分析策略,轻松搞定你的大数据。百迈客研发团队已完成了WGCNA分析流程的最新升级开发,升级后增加了许多亮点分析内容。对这个方法感兴趣且想进一步了解的老师请与当地销售联系哟~


长按识别指纹加关注

为您的科研保驾护航

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
👏技术贴—WGCNA分析原理和应用!
肾透明细胞癌:WGCNA PPI 免疫浸润 预后分析
这篇3 分核心基因筛选,点个在看,我们复现这篇文章!
一文学会WGCNA分析
WGCNA原理及应用
生信分析学习笔记—之初探WGCNA
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服