前言
在进行代谢组和转录组联合分析的时候,经常需要计算基因表达和代谢物含量、基因与基因表达间的相关性系数,绘制想要的网络图、相关性热图等,虽然已经有些云平台可能会有相应的一些工具计算,但是最大的问题还是—"慢”,数据量稍微多一点的时候,需要刷新很久,而且得到的不一定是你想要的结果,反复试验,获取最佳结果,可能还得面对次数有限,继续付费等问题……有时候网络不好的时候,让人崩溃……..
然后你就会想不如自己分析,不仅可以得到原始的数据,还能个性化的绘图,但问题在于你需要安装R,需要安装包,随时可能遇到error,捣鼓一下一天又过去……
当你搞定了食材后,你又发现不知道哪个函数才能计算相关性,又是如何整理结果,又如何根据阈值筛选,走投无路的你默默的打开excel筛选,一列又一列….数据大了,处理起来还是一卡一卡的….不如不觉,一个上午又过去…..
基于此,我个人觉得,还是比较必要打包插件来依据表达量矩阵计算相关性矩阵,以及依据相关性矩阵结合阈值筛选直接获得cytoscape的输入文件,一方面可以节省时间,本地版多少比网页快;另一方面则是或许支持更多的数据进行分析(网页版数据多了可能直接罢工了);当然最主要是方便,鼠标拖拖点点,便可完成,而且还可以依据自己的idea个性化绘图,就挺快乐的。
下面简单介绍一下两个插件的搭配使用。
Obtain Correlation and P-value Matrix Base On Expression Matrix 插件
输入文件两个
推荐使用txt格式(文件后缀为’txt’,Tab分隔的文本文件),第一行为列名,其余行为标识符名称及其表达定量信息。
文件必须包含以下几列:
1.ID,该列列名及内容区分大小写
2.除了ID列外,其余列名称为样本名称,区分大小写,值为正数(整数或者小数)
注意:两个输入文件的列名需要保持一致
Algorithm
两种常用的相关性计算方法;pearson/spearman
设置工作目录
选择输出文件的文件夹即可
输出结果如下,两个文件,分别为相关性和对应p-value
rcorr_test_pearson_R_file.txt 部分内容
rcorr_test_pearson_P_file.txt 部分内容
我们可以接着浅做个基因和代谢物的相关性热图
除了基因和代谢物间的相关性可以计算,代谢物和代谢物,基因和基因之间也可以,只需要将输入文件1、2保持一致即可。
总的来说,第一个插件输出的是所有基因对或者代谢物对的相关性及p值情况。
但更多时候,我们更想要根据p值阈值筛选达到相关性阈值的强相关利用cytoscape进行可视化。接下来介绍一下第二个插件。
Prepare Input For Cytoscape Based On Correlation and P-value Matrix 插件
输入文件
相关性矩阵和P值矩阵,可直接由第一个插件生成
|Correlation_threshold| and |P-value_threshold|
阈值非负,如p值可设置为0.05,相关性可设置为0.8
设置工作目录
提供一个目录即可,输出结果会保存在提供的工作目录中。
All input 如下:
Result
点击start后,会自动跳转至工作目录,同时生成两个结果文件。
select_node_cor_threshold_0.8_p_threshold_0.05.txt
可直接作为cytoscape的输入网络文件。
生成结果如下
node_id_cor_threshold_0.8_p_threshold_0.05.txt
该文件把满足相关性和p值条件的node id 全部整理了出来,可直接在第二列按照用户的需求对节点进行分类,快速制作成cytoscape的属性映射文件。
导入属性文件后,映射后的网络图如下:
在TBtools上我完成整个过程大概1-2 min左右,因数据而异,但是不管怎么样,还是挺快,且方便的,还不受制于网络(只在第一次使用时安装包的时候需要;PS: 后续插件商店可直接下载免安装包插件),真香。
联系客服