大家好,我是濤濤。前次我们的文章一直带大家通过仙桃生信工具www.xiantao.love感受了一波仙桃生信工具在非肿瘤类GEO数据集的分析功能。
(濤濤醬:是不是很香很好用!)
(黑衣人:没错!!(舔口水)(¯﹃¯) )
那么体验过非肿瘤类GEO数据集的文章,那么怎么能不领教一下仙桃在肿瘤类GEO数据集的快感呢!
所以今天我们无代码复现一篇2021年2月IF为3.337分发表在OncoTargets and Therapy的一篇使用GEO分析肿瘤生信类型文章。
期刊简介
实验与方法
一篇文章,“材料与方法”部分是文章的灵魂所在,那下面我们来看看在“材料和方法”部分,作者阐明了实现本文用了哪些生信手段。
为了避免大家看太多的字,那我就总结一下吧!
(黑衣人:哇喔 濤濤醬什么时候变得那么nice了!)
疾病:肝细胞癌
数据:GEO数据集(三个数据集) TCGA
实现手段:筛选差异基因(R语言之limma包)
功能聚类(GO、KEGG、DO、Reactome)
互作网络(蛋白—蛋白交互PPI)
关键基因分析(CTD数据库)
(黑衣人:Emm,那我们要做哪些图呢?)
(濤濤醬:欲知详情,客官儿下边请!)
由于我们今天是GEO专场,篇幅有限,我们之前复现了很多次的TCGA相关内容此次就先不赘述。
复现任务
那么接下来我们一起来看一下本次的复现任务。
图1:差异基因表达
图2:富集分析
图3. 蛋白互作网络
图4. CCNA2, CCNB1, CDC20, CDK1, PTTG1, and TTK 的相关性
图5. 验证基因的表达情况
图6. 验证基因的免疫组化情况
图7 Cox回归森林图
图8. 生存曲线图
(黑衣人:哇!果然是图种很丰富的一篇文章欸!)
(濤濤醬:是吧!所以赶紧一起来看看仙桃GEO复现吧!)
数据来源 & 思路框架
1
复现步骤:
进入仙桃学术工具(https://www.xiantao.love);
打开的界面如下:
我们知道,这篇文章涉及了五个数据集,分别为GSE45267, GSE84402和GSE101685。
那我们就一个一个来添加我们的数据集。
首先选择数据集GSE45267。
输入后,选择“选择样本”按钮。
点开这个“选择样本”,就能选择对应数据集的样本。
我们把所有的组织都勾选上,最后点选“添加到样本库”即可。
小贴士:
由于样本太多,容易混淆肿瘤组与正常组,所以建议在此分两次进行添加。
(黑衣人:好的!思路很清晰,那我就开始添加啦!)
(涛涛酱:少侠且慢!!!此处有一个bug)
(黑衣人:惊!!!发生了什么事!)
大家可以看一下这个数据集,GSE45267。
(涛涛酱:有没有发现什么问题?)
(黑衣人:咦?纳尼?看不出来)
在GSM1100431以及 GSM1100447 这两个样本中,出现了前后不一致的情况。
(黑衣人:震惊!!!仙桃竟然出了这样的bug!)
(涛涛酱:欸?且慢!不要如此草率地下这样的结论喔!)
(黑衣人:蛤?那是哪里出了问题?)
(涛涛酱:俗话说得好,遇事不决,可问GEO)
于是我们本着求根溯源地精神,我们要打开源头GEO看看到底是哪些妖孽在作怪!
GEO的网址在这(https://www.ncbi.nlm.nih.gov/gds)
在其中输入GSE45267
打开第一个条目
之后眼疾手快地找到原始数据
打开more
迅速发现这两个可疑的样本
点开来看看!
(黑衣人:果然!!!是作者出了问题)
(涛涛酱:是的,此处因此产生了歧义)
(黑衣人:啊,抱歉,看来是我误会了我们的仙桃,呜呜呜)
(涛涛酱:哈哈哈,终于为仙桃恢复了清白,正身了一次)
(黑衣人:啊,那我们该怎么办呢?)
此处,这两个样本有相矛盾的地方。因此无论我们怎么分组,都是可以接受的。
所以我们就暂且把这两个样本认为是Tumor组的来示范。
那首先添加肿瘤组数据。
鼠标单击条目即可勾选,把所有的肿瘤组先选中,然后备注Tumor,添加到样本库。
接下来,我们进入“进入我的样本库” 。
我们将正常组定义为“分组1”;肿瘤组为“分组2”。
所以将这些标记为Tumor的基因勾选中,接着选择“加入分组2”
同理,回到上一个界面,勾选正常组织,再次添加入样本库中,选择 “加入分组1”。
这样,我们就完成了第一个数据集GSE45267的添加。
值得一提的是,不同权限用户的样本库的上限是不一样的,普通用户是20,基础版用户是50,高级版用户是100。后续还会视情况提高总体上限喔!
同样道理,不同权限的用户每天可以提交分析的次数也是不同的喔,普通用户每天只能提交2次分析,基础版用户每天可以提交5次分析,高级版用户每天可以提交20次分析。
所以如果是想分析比较多的数据,建议入手高级版喔!
接下来我们就可以来绘图了!
选择提交分析。
同理添加入剩余2个数据集。
这里的权限跟“生信工具”的是一个内容。想要升级权限可以到生信工具页面进行升级。
点击提交分析后,下面的历史记录中会出现一条分析记录,点击右上角的刷新可以刷新分析任务的进度情况。
当分析完成后,就可以下载结果内容了。
一次性提供了很多的结果内容,包括 箱式图、PCA图、UMAP图、火山图、差异分析结果表格等,以及结果分析报告。
接下来我们就是真正来看看图1的火山图如何复现。
点击“说明”
出现如下界面:
往下卷动鼠标
点击按钮即可下载热图
(黑衣人:欸?这个怎么和图中的方向还不太一样?)
(濤濤醬:哈哈,这还不简单,点击“细节修改”进入调整模式)
自动连接到“火山图”界面
选择刚刚的样本
在右侧调整参数
根据文献的参数设置
我们进行相应的参数调整
点击确认
就完成了Fig1A的制作。
同样道理,添加另外两个数据集,也能如法炮制出火山图来。
接下来我们来看看Fig 1E Venn图的制作。
此处的目的就是把我们之前不同GEO数据集的差异基因取交集。
所以我们就得先获得差异基因的列表。
比如第一个数据集GSE45267,找到刚刚分析的结果,点击下载按钮,下载CSV表格。
打开CSV表格
本文是按照表达上调以及表达下调的顺序来制定韦恩图的。
所以我们对logFC的取值进行筛选。
选择筛选按钮
选中logFC这列
点击小箭头
即可筛选出logFC大于2 即 表达上调的差异基因。
接着将基因的Gene Symbol
复制贴上到新的excel表格中
将其命名为GSE45267
同理可以得到另外两列差异基因
将其保存,而后上传。
路径:基础绘图——分组比较图——韦恩图
点击上传
读取数据后点击“确认”
结果就出来啦
(黑衣人:欸?原图不是有四个数据集吗?)
(濤濤醬:你忘了我们这个是GEO专场啊!所以我们今天就复现GEO的内容)
(黑衣人:喔对对!TCGA往期也都有介绍过了,GEO肿瘤类的今天要专门好好学习一下!)
以上是有关表达上调的Venn图,同理筛选出logFC<-2的数值就可以获得表达下调的Venn图。
(濤濤醬:那接下来要干嘛呢?)
(黑衣人:把这些图都拼起来!)
拼图一如既往采用我们仙桃的拼图功能喔!仙桃工具拼图比Illustratior或是Photoshop要节省不少时间!仙桃工具只要一分钟,AI或者PS可能要拼至少一天时间。
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择基础绘图 –上传图片,点击进入
此处开始上传自己的图片,但是记得图片要为pdf、tiff、tif、png的格式喔!
同时也可以调用我们云端的图片,也就是我们刚刚制作的图。
比如,刚刚做的火山图
就可以选择“保存结果”,保存在云端。
这样我们打开“拼图工具”的时候
图片就自动保存在库里
拖曳图片到标尺内
拖曳图片时候又自动吸附功能以及自动对齐功能
妈妈再也不用担心我的拼图了!
点击PDF下载,还会自动标记字母哦!点击下载,即可保存成pdf图片。
(小贴士:这里也可以把图稍微放大,或者两图直接的行间距放大,可以在右侧减少留白)
2
富集分析采用的就是我们刚刚数据集取交集的基因来进行。
所以我们首先得获得刚刚取交集的成功。
这时候,刚刚做Venn图的优势就直接体现出来了。
下载excel表格,打开
最后一列就是我们取交集的基因
将其复制到新的excel中。
同理可以获得表达下调的取交集的基因。
全部整合成一列。
打开功能聚类(圈)——GO|KEGG富集分析
然后上传我们刚刚建立的excel表格
选择GO条目
然后点击确认
点击“保存结果”
而后打开GO|KEGG可视化
选择刚刚保存的样本
选择气泡图
点击确认
就可以出图啦。
点击查看大图
Fig2A是GO的气泡图,而Fig2B则是KEGG的气泡图。
(黑衣人:我知道,只要把GO的选项改成KEGG就可以咯)
没错,还记得刚刚在富集分析的选项里,我们的条目选择的是GO分析吗?此处可以更改条目为KEGG。
后续步骤都相同,即可得到此图
最后,根据前面提到的仙桃拼图功能,即可几秒钟拼成一幅Fig 2!
3
我们借助String来完成这项操作(https://www.string-db.org/)
选择左侧的Multiple proteins
把刚刚做差异表达分析的107个基因 复制到框中
物种选择Homo sapiens
之后点击search
就可以呈现和一个宏观的PPI网络了!
要想达到Fig 3B的效果,则是需要将结果导出到cytoscape软件中
紧接着打开cytoscape软件
就会呈现这个界面
要想形成一个圆形
更改样式
选择layout 下拉菜单
即可完成Fig 3
4
图4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相关性
希望大家能在脑子里形成一个定式的思维
看到这样的楼梯状的圆形图或者是钟表图,就要想到是——相关性热图。
(黑衣人:楼梯圆形或楼梯钟表——相关性热图!)
那我们来整理一下思路。
先下载原始数据,找出要进行相关性分析的分子,将其的表达数据整个提取出来,然后汇总在另外一张表中,再进行相关性分析。
那现在思路清晰了之后,我们就一起来复现吧!
第一步:下载原始数据
原始数据是TCGA的,所以我们前往官网下载数据。
有两种方法。
第一种是登入TCGA的网站(https://portal.gdc.cancer.gov/) 下载。步骤有些繁琐,不过熟练的老司机们可以三下五除二搞定。
第二种是登入Xena (https://xenabrowser.net/datapages/)
往下卷动鼠标
找到 肝癌的部分
点击进入
点击下载
而后通过excel打开文件
这时候,我们就要把需要的六个基因给“抓”出来了
可是看到第一列都是Ensemble ID,那怎么办呢?
所以我们需要进行ID转换
紧接着,我们把我们需要抓出来的基因先整理成一份excel表格
保存excel
在方框内上传
点击“确认”
红色方框的就是我们需要的基因名!
紧接着,一个个把这些基因名在刚刚的原始数据中寻找。
可以轻松获得该行
接着把这一整行复制贴上到新的excel中
记得贴上的时候一定要选择“转置”这个按钮
将横的数据变成竖的
进一步修改名称为CCNA2
同样道理可以整理出另外5个基因的表达情况
最后整理成一个表达矩阵
接着,我们打开相关性热图
路径:基础绘图——相关性热图
在框中上传我们适才保存好的文件,类型选择“样式1,位置选择“显示相关系数”,在样式中选择“圆形”。点击确认。
即可出图!
5
这个图是本文干湿结合的体现之一。
Fig5A-5L是作者通过湿实验得到的结果,而M到R则是验证了组织里面的表达情况。
(黑衣人:蛤?那我们不就做不了了吗?)
(濤濤醬:别慌!仙桃在手,要什么都有!)
正确打开方式如下:
表达差异(挑)——表达差异——配对样本
选择TCGA—LIHC,肝细胞肝癌
分子选择 CCNA2
选择“不显示箱式图”
点击“确认”
即可出图
同样的道理,输入另外五个基因,也能得到一样的结果。
(黑衣人:哇!这样就能将湿实验转化为干实验!好强!)
(濤濤醬:哈哈,这就强了吗?后面还有更精彩的!请往下看!)
6
(濤濤醬:这个乍一看是什么图呢?)
(黑衣人:不就是免疫组化的图嘛!)
(濤濤醬:对的,但是作者在此非常讨巧地用了数据库的图片实现)
(黑衣人:惊!还能这样!)
通过文章的材料与方法部分,我们惊讶地发现,这个部分披上了湿实验地躯壳,没想到里面竟然是干实验的灵魂!
所以我们就按照这个步骤一起来看看如何实现吧!
那就隆重推出我们的HPA数据库(https://www.proteinatlas.org/)
Human Protein Atlas 数据库,简称HPA数据库,它致力于提供全部24,000种人类蛋白质的组织和细胞分布信息,并免费提供公众查询。
创立这个数据库的瑞典 Knut & Alice Wallenberg基金会使用特制的抗体,用免疫组化的技术,检查每一种蛋白质在48种人类正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员阅读和标引。这些受检组织来自144个不同个体和216个肿瘤组织,保证染色结果具有充分的代表性。这是一个大规模蛋白质研究项目,主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。
那么该如何使用呢?
登入网址。
在搜寻框搜寻CCNA2
结果可以看到正常组织、病理状态下等等不同的样式。
我们选取“TISSUE”这个界面
就会看到
由于我们要研究的是肝细胞癌,所以我们选中右侧的liver
结果显示
是不是和Fig6A长得一模一样?
所以同理可以输入其他基因,复现出后续的图片。
7
根据文中描述,作者在此做了单因素分析
所以我们一起来看一下如何实现。
不过,在复现之前
濤濤想和大家说的是,这个功能目前只有高级版才能实现喔!
(黑衣人:蛤?这样啊,那我赶紧把我的基础版升级一下!这么好用的功能!)
一定要 买它!!!(某主播上身)
进入仙桃的高级版界面
临床意义(靠)——预后分析——单因素|多因素分析
选择疾病TCGA—LIHC
把内建的条目删除,重新添加
输入具体的基因名
之后点击“确认”
就出来运算结果了
我们保存excel表格
接着我们将表格整理一下
只留下这三列
保存Excel
接着打开“基础绘图——森林图”
上传Excel文档,点击“确认”
立刻出结果
8
我们先来看看Fig 8A 是如何做出来的
Fig 8A是CCNA2的生存曲线
打开路径 临床意义(靠)——预后分析——KM曲线
选择疾病TCGA—LIHC
输入对应的分子
点击确认
即可出图
在此,希望大家能点一个“保存结果”,等下就可以直接拼图了喔!
同样道理,可以获得另外五个基因的KM曲线图。
接下来,就到了我们最紧张最激动的拼图环节啦!
将6张图拼起来,就意味着可以得到我们的Fig 8
接下来我们来看看如何一键拼图!
点击上方的拼图工具
左边的栏目中即有我们刚刚保存的6张图
一个个将其拖曳至主屏幕
拖曳的时候有自动上下左右前后对齐喔!
(黑衣人:想起了以前军训时候,教官说的,向左向右看!)
(濤濤醬:没错!我们的仙桃拼图工具就是有如军队一般严谨可靠!)
更有横纵参考线让你对齐,更好用喔!
点击pdf下载即可。
(黑衣人:欸欸欸!等等!字母还没标欸!)
(濤濤醬:哈哈,你打开pdf看看?)
(黑衣人:震惊!!!字母竟然自己标上去了!还对得那么整齐!!!)
(濤濤醬:对吧?所以,仙桃真的是神仙本仙!很好用吧!)
(黑衣人:哇喔!太强了吧!respect!我这就立刻登陆仙桃www.xiantao.love开始肿瘤类GEO研究之旅!)
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
联系客服