打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
​2021年最新3 肿瘤GEO生信研究套路,手把手教你复现,超级详细!建议反复学习!
仙桃学术无代码轻松复现





大家好,我是濤濤。前次我们的文章一直带大家通过仙桃生信工具www.xiantao.love感受了一波仙桃生信工具在非肿瘤类GEO数据集的分析功能。

濤濤醬:是不是很香很好用!

黑衣人:没错!!(舔口水)(¯﹃¯)

那么体验过非肿瘤类GEO数据集的文章,那么怎么能不领教一下仙桃在肿瘤类GEO数据集的快感呢!

所以今天我们无代码复现一篇2021年2月IF为3.337分发表在OncoTargets and Therapy的一篇使用GEO分析肿瘤生信类型文章。

期刊简介

实验与方法

一篇文章,“材料与方法”部分是文章的灵魂所在,那下面我们来看看在“材料和方法”部分,作者阐明了实现本文用了哪些生信手段。

为了避免大家看太多的字,那我就总结一下吧!

黑衣人:哇喔 濤濤醬什么时候变得那么nice了!

疾病:肝细胞癌

数据:GEO数据集(三个数据集) TCGA

实现手段:筛选差异基因(R语言之limma包

功能聚类GO、KEGG、DO、Reactome

互作网络蛋白—蛋白交互PPI

关键基因分析CTD数据库

黑衣人:Emm,那我们要做哪些图呢?

濤濤醬:欲知详情,客官儿下边请!

由于我们今天是GEO专场,篇幅有限,我们之前复现了很多次的TCGA相关内容此次就先不赘述。

复现任务

那么接下来我们一起来看一下本次的复现任务。

图1:差异基因表达

图2:富集分析

图3. 蛋白互作网络

图4.  CCNA2, CCNB1, CDC20, CDK1, PTTG1, and TTK 的相关性

图5. 验证基因的表达情况

图6.  验证基因的免疫组化情况

图7  Cox回归森林图

图8.  生存曲线图

黑衣人:哇!果然是图种很丰富的一篇文章欸!

濤濤醬:是吧!所以赶紧一起来看看仙桃GEO复现吧!

数据来源 & 思路框架

1

图1. 差异基因表达

复现步骤:

进入仙桃学术工具(https://www.xiantao.love);

打开的界面如下:

我们知道,这篇文章涉及了五个数据集,分别为GSE45267, GSE84402和GSE101685。

那我们就一个一个来添加我们的数据集。

首先选择数据集GSE45267。

输入后,选择“选择样本”按钮。

点开这个“选择样本”,就能选择对应数据集的样本。

我们把所有的组织都勾选上,最后点选“添加到样本库”即可。

小贴士:

由于样本太多,容易混淆肿瘤组与正常组,所以建议在此分两次进行添加。

黑衣人:好的!思路很清晰,那我就开始添加啦!

涛涛酱:少侠且慢!!!此处有一个bug

黑衣人:惊!!!发生了什么事!

大家可以看一下这个数据集,GSE45267。

涛涛酱:有没有发现什么问题?

黑衣人:咦?纳尼?看不出来

在GSM1100431以及 GSM1100447 这两个样本中,出现了前后不一致的情况。

黑衣人:震惊!!!仙桃竟然出了这样的bug!

涛涛酱:欸?且慢!不要如此草率地下这样的结论喔!

黑衣人:蛤?那是哪里出了问题?

涛涛酱:俗话说得好,遇事不决,可问GEO

于是我们本着求根溯源地精神,我们要打开源头GEO看看到底是哪些妖孽在作怪!

GEO的网址在这(https://www.ncbi.nlm.nih.gov/gds

在其中输入GSE45267

打开第一个条目

之后眼疾手快地找到原始数据

打开more

迅速发现这两个可疑的样本

点开来看看!

黑衣人:果然!!!是作者出了问题

涛涛酱:是的,此处因此产生了歧义

黑衣人:啊,抱歉,看来是我误会了我们的仙桃,呜呜呜

涛涛酱:哈哈哈,终于为仙桃恢复了清白,正身了一次

黑衣人:啊,那我们该怎么办呢?

此处,这两个样本有相矛盾的地方。因此无论我们怎么分组,都是可以接受的。

所以我们就暂且把这两个样本认为是Tumor组的来示范。

那首先添加肿瘤组数据。

鼠标单击条目即可勾选,把所有的肿瘤组先选中,然后备注Tumor,添加到样本库。

接下来,我们进入“进入我的样本库” 。

我们将正常组定义为“分组1”;肿瘤组为“分组2”。

所以将这些标记为Tumor的基因勾选中,接着选择“加入分组2”

同理,回到上一个界面,勾选正常组织,再次添加入样本库中,选择 “加入分组1”。

这样,我们就完成了第一个数据集GSE45267的添加。

值得一提的是,不同权限用户的样本库的上限是不一样的,普通用户是20,基础版用户是50,高级版用户是100。后续还会视情况提高总体上限喔!

同样道理,不同权限的用户每天可以提交分析的次数也是不同的喔,普通用户每天只能提交2次分析,基础版用户每天可以提交5次分析,高级版用户每天可以提交20次分析。

所以如果是想分析比较多的数据,建议入手高级版喔!

接下来我们就可以来绘图了!

选择提交分析。

同理添加入剩余2个数据集。

这里的权限跟“生信工具”的是一个内容。想要升级权限可以到生信工具页面进行升级。

点击提交分析后,下面的历史记录中会出现一条分析记录,点击右上角的刷新可以刷新分析任务的进度情况。

当分析完成后,就可以下载结果内容了。

一次性提供了很多的结果内容,包括 箱式图、PCA图、UMAP图、火山图、差异分析结果表格等,以及结果分析报告。

接下来我们就是真正来看看图1的火山图如何复现。

点击“说明”

出现如下界面:

往下卷动鼠标

点击按钮即可下载热图

黑衣人:欸?这个怎么和图中的方向还不太一样?)

濤濤醬:哈哈,这还不简单,点击“细节修改”进入调整模式

自动连接到“火山图”界面

选择刚刚的样本

在右侧调整参数

根据文献的参数设置

我们进行相应的参数调整

点击确认

就完成了Fig1A的制作。

同样道理,添加另外两个数据集,也能如法炮制出火山图来。

接下来我们来看看Fig 1E Venn图的制作。

此处的目的就是把我们之前不同GEO数据集的差异基因取交集。

所以我们就得先获得差异基因的列表。

比如第一个数据集GSE45267,找到刚刚分析的结果,点击下载按钮,下载CSV表格。

打开CSV表格

本文是按照表达上调以及表达下调的顺序来制定韦恩图的。

所以我们对logFC的取值进行筛选。

选择筛选按钮

选中logFC这列

点击小箭头

即可筛选出logFC大于2 即 表达上调的差异基因。

接着将基因的Gene Symbol

复制贴上到新的excel表格中

将其命名为GSE45267

同理可以得到另外两列差异基因

将其保存,而后上传。

路径:基础绘图——分组比较图——韦恩图

点击上传

读取数据后点击“确认”

结果就出来啦

黑衣人:欸?原图不是有四个数据集吗?

濤濤醬:你忘了我们这个是GEO专场啊!所以我们今天就复现GEO的内容

黑衣人:喔对对!TCGA往期也都有介绍过了,GEO肿瘤类的今天要专门好好学习一下!

以上是有关表达上调的Venn图,同理筛选出logFC<-2的数值就可以获得表达下调的Venn图。

濤濤醬:那接下来要干嘛呢?

黑衣人:把这些图都拼起来!)

拼图一如既往采用我们仙桃的拼图功能喔!仙桃工具拼图比Illustratior或是Photoshop要节省不少时间!仙桃工具只要一分钟,AI或者PS可能要拼至少一天时间。

进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例


选择基础绘图 –上传图片,点击进入

此处开始上传自己的图片,但是记得图片要为pdf、tiff、tif、png的格式喔!

同时也可以调用我们云端的图片,也就是我们刚刚制作的图。

比如,刚刚做的火山图

就可以选择“保存结果”,保存在云端。

这样我们打开“拼图工具”的时候

图片就自动保存在库里

拖曳图片到标尺内

拖曳图片时候又自动吸附功能以及自动对齐功能

妈妈再也不用担心我的拼图了!

点击PDF下载,还会自动标记字母哦!点击下载,即可保存成pdf图片。

小贴士:这里也可以把图稍微放大,或者两图直接的行间距放大,可以在右侧减少留白)

2

图2. 富集分析

富集分析采用的就是我们刚刚数据集取交集的基因来进行。

所以我们首先得获得刚刚取交集的成功。

这时候,刚刚做Venn图的优势就直接体现出来了。

下载excel表格,打开

最后一列就是我们取交集的基因

将其复制到新的excel中。

同理可以获得表达下调的取交集的基因。

全部整合成一列。

打开功能聚类(圈)——GO|KEGG富集分析

然后上传我们刚刚建立的excel表格

选择GO条目

然后点击确认

点击“保存结果”

而后打开GO|KEGG可视化

选择刚刚保存的样本

选择气泡图

点击确认

就可以出图啦。

点击查看大图

Fig2A是GO的气泡图,而Fig2B则是KEGG的气泡图。

黑衣人:我知道,只要把GO的选项改成KEGG就可以咯

没错,还记得刚刚在富集分析的选项里,我们的条目选择的是GO分析吗?此处可以更改条目为KEGG。

后续步骤都相同,即可得到此图

最后,根据前面提到的仙桃拼图功能,即可几秒钟拼成一幅Fig 2!

3

图3. 蛋白互作网络

我们借助String来完成这项操作(https://www.string-db.org/

选择左侧的Multiple proteins

把刚刚做差异表达分析的107个基因 复制到框中

物种选择Homo sapiens

之后点击search

就可以呈现和一个宏观的PPI网络了!

要想达到Fig 3B的效果,则是需要将结果导出到cytoscape软件中

紧接着打开cytoscape软件

就会呈现这个界面

要想形成一个圆形

更改样式

选择layout 下拉菜单

即可完成Fig 3

4

图4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相关性

图4.  CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相关性

希望大家能在脑子里形成一个定式的思维

看到这样的楼梯状的圆形图或者是钟表图,就要想到是——相关性热图。

黑衣人:楼梯圆形或楼梯钟表——相关性热图!

那我们来整理一下思路。

先下载原始数据,找出要进行相关性分析的分子,将其的表达数据整个提取出来,然后汇总在另外一张表中,再进行相关性分析。

那现在思路清晰了之后,我们就一起来复现吧!

 第一步:下载原始数据 

原始数据是TCGA的,所以我们前往官网下载数据。

有两种方法。

第一种是登入TCGA的网站(https://portal.gdc.cancer.gov/) 下载。步骤有些繁琐,不过熟练的老司机们可以三下五除二搞定。

第二种是登入Xena (https://xenabrowser.net/datapages/)

往下卷动鼠标

找到 肝癌的部分

点击进入

点击下载

而后通过excel打开文件

这时候,我们就要把需要的六个基因给“抓”出来了

可是看到第一列都是Ensemble ID,那怎么办呢?

所以我们需要进行ID转换

紧接着,我们把我们需要抓出来的基因先整理成一份excel表格

保存excel

在方框内上传

点击“确认”

红色方框的就是我们需要的基因名!

紧接着,一个个把这些基因名在刚刚的原始数据中寻找。

可以轻松获得该行

接着把这一整行复制贴上到新的excel中

记得贴上的时候一定要选择“转置”这个按钮

将横的数据变成竖的

进一步修改名称为CCNA2

同样道理可以整理出另外5个基因的表达情况

最后整理成一个表达矩阵

接着,我们打开相关性热图

路径:基础绘图——相关性热图

在框中上传我们适才保存好的文件,类型选择“样式1,位置选择“显示相关系数”,在样式中选择“圆形”。点击确认。

即可出图!


5

图5. 验证基因的表达情况

这个图是本文干湿结合的体现之一。

Fig5A-5L是作者通过湿实验得到的结果,而M到R则是验证了组织里面的表达情况。

黑衣人:蛤?那我们不就做不了了吗?

濤濤醬:别慌!仙桃在手,要什么都有!

正确打开方式如下:

表达差异(挑)——表达差异——配对样本

选择TCGA—LIHC,肝细胞肝癌

分子选择 CCNA2

选择“不显示箱式图”

点击“确认”

即可出图

同样的道理,输入另外五个基因,也能得到一样的结果。

黑衣人:哇!这样就能将湿实验转化为干实验!好强!

濤濤醬:哈哈,这就强了吗?后面还有更精彩的!请往下看!

6

图6.  验证基因的免疫组化情况

濤濤醬:这个乍一看是什么图呢?

黑衣人:不就是免疫组化的图嘛!

濤濤醬:对的,但是作者在此非常讨巧地用了数据库的图片实现

黑衣人:惊!还能这样!

通过文章的材料与方法部分,我们惊讶地发现,这个部分披上了湿实验地躯壳,没想到里面竟然是干实验的灵魂!

所以我们就按照这个步骤一起来看看如何实现吧!

那就隆重推出我们的HPA数据库(https://www.proteinatlas.org/

Human Protein Atlas 数据库,简称HPA数据库,它致力于提供全部24,000种人类蛋白质的组织和细胞分布信息,并免费提供公众查询。

创立这个数据库的瑞典 Knut & Alice Wallenberg基金会使用特制的抗体,用免疫组化的技术,检查每一种蛋白质在48种人类正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员阅读和标引。这些受检组织来自144个不同个体和216个肿瘤组织,保证染色结果具有充分的代表性。这是一个大规模蛋白质研究项目,主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。

那么该如何使用呢?

登入网址。

在搜寻框搜寻CCNA2

结果可以看到正常组织、病理状态下等等不同的样式。

我们选取“TISSUE”这个界面

就会看到

由于我们要研究的是肝细胞癌,所以我们选中右侧的liver

结果显示

是不是和Fig6A长得一模一样?

所以同理可以输入其他基因,复现出后续的图片。

7

图7. Cox回归森林图

根据文中描述,作者在此做了单因素分析

所以我们一起来看一下如何实现。

不过,在复现之前

濤濤想和大家说的是,这个功能目前只有高级版才能实现喔!

黑衣人:蛤?这样啊,那我赶紧把我的基础版升级一下!这么好用的功能!

一定要   买它!!!(某主播上身)

进入仙桃的高级版界面

临床意义(靠)——预后分析——单因素|多因素分析

选择疾病TCGA—LIHC

把内建的条目删除,重新添加

输入具体的基因名

之后点击“确认”

就出来运算结果了

我们保存excel表格

接着我们将表格整理一下

只留下这三列

保存Excel

接着打开“基础绘图——森林图”

上传Excel文档,点击“确认”

立刻出结果

8

图8.  生存曲线图

我们先来看看Fig 8A 是如何做出来的

Fig 8A是CCNA2的生存曲线

打开路径  临床意义(靠)——预后分析——KM曲线

选择疾病TCGA—LIHC

输入对应的分子

点击确认

即可出图

在此,希望大家能点一个“保存结果”,等下就可以直接拼图了喔!

同样道理,可以获得另外五个基因的KM曲线图。

接下来,就到了我们最紧张最激动的拼图环节啦!

将6张图拼起来,就意味着可以得到我们的Fig 8

接下来我们来看看如何一键拼图!

点击上方的拼图工具

左边的栏目中即有我们刚刚保存的6张图

一个个将其拖曳至主屏幕

拖曳的时候有自动上下左右前后对齐喔!

黑衣人:想起了以前军训时候,教官说的,向左向右看!

濤濤醬:没错!我们的仙桃拼图工具就是有如军队一般严谨可靠!

更有横纵参考线让你对齐,更好用喔!

点击pdf下载即可。

黑衣人:欸欸欸!等等!字母还没标欸!

濤濤醬:哈哈,你打开pdf看看?

黑衣人:震惊!!!字母竟然自己标上去了!还对得那么整齐!!!

濤濤醬:对吧?所以,仙桃真的是神仙本仙!很好用吧!

黑衣人:哇喔!太强了吧!respect!我这就立刻登陆仙桃www.xiantao.love开始肿瘤类GEO研究之旅!

欢迎大家关注解螺旋生信频道-挑圈联靠公号~


END

撰文濤   濤
排版丨四金兄
值班 | 风   风
主编丨小雪球


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
哈?确定这是我零代码能复现的非肿瘤文章吗!
2区非肿瘤3 SCI套路,零代码搞定!跟我一起来复现!
逆天!最新3 ceRNA生信研究套路,15分钟教你复现!(附详细操作教程)
​别不信!近4分的非肿瘤套路,我用一刻钟零代码就可以复现!瞅一眼就会了(附详细操作教程)
如何看懂文献里的那些图(4)(热图)
不懂R,怎么分析GEO的数据(2)?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服