2021年最新3 肿瘤GEO生信研究套路，手把手教你复现，超级详细！建议反复学习！

仙桃学术无代码轻松复现

大家好，我是濤濤。前次我们的文章一直带大家通过仙桃生信工具www.xiantao.love感受了一波仙桃生信工具在非肿瘤类GEO数据集的分析功能。

（濤濤醬：是不是很香很好用！）

（黑衣人：没错！！（舔口水）(¯﹃¯) ）

那么体验过非肿瘤类GEO数据集的文章，那么怎么能不领教一下仙桃在肿瘤类GEO数据集的快感呢！

所以今天我们无代码复现一篇2021年2月IF为3.337分发表在OncoTargets and Therapy的一篇使用GEO分析肿瘤生信类型文章。

期刊简介

实验与方法

一篇文章，“材料与方法”部分是文章的灵魂所在，那下面我们来看看在“材料和方法”部分，作者阐明了实现本文用了哪些生信手段。

为了避免大家看太多的字，那我就总结一下吧！

（黑衣人：哇喔濤濤醬什么时候变得那么nice了！）

疾病：肝细胞癌

数据：GEO数据集（三个数据集） TCGA

实现手段：筛选差异基因（R语言之limma包）

功能聚类（GO、KEGG、DO、Reactome）

互作网络（蛋白—蛋白交互PPI）

关键基因分析（CTD数据库）

（黑衣人：Emm，那我们要做哪些图呢？）

（濤濤醬：欲知详情，客官儿下边请！）

由于我们今天是GEO专场，篇幅有限，我们之前复现了很多次的TCGA相关内容此次就先不赘述。

复现任务

那么接下来我们一起来看一下本次的复现任务。

图1：差异基因表达

图2：富集分析

图3. 蛋白互作网络

图4. CCNA2, CCNB1, CDC20, CDK1, PTTG1, and TTK 的相关性

图5. 验证基因的表达情况

图6. 验证基因的免疫组化情况

图7 Cox回归森林图

图8. 生存曲线图

（黑衣人：哇！果然是图种很丰富的一篇文章欸！）

（濤濤醬：是吧！所以赶紧一起来看看仙桃GEO复现吧！）

数据来源 & 思路框架

图1. 差异基因表达

复现步骤：

进入仙桃学术工具（https://www.xiantao.love）；

打开的界面如下：

我们知道，这篇文章涉及了五个数据集，分别为GSE45267, GSE84402和GSE101685。

那我们就一个一个来添加我们的数据集。

首先选择数据集GSE45267。

输入后，选择“选择样本”按钮。

点开这个“选择样本”，就能选择对应数据集的样本。

我们把所有的组织都勾选上，最后点选“添加到样本库”即可。

小贴士：

由于样本太多，容易混淆肿瘤组与正常组，所以建议在此分两次进行添加。

（黑衣人：好的！思路很清晰，那我就开始添加啦！）

（涛涛酱：少侠且慢！！！此处有一个bug）

（黑衣人：惊！！！发生了什么事！）

大家可以看一下这个数据集，GSE45267。

（涛涛酱：有没有发现什么问题？）

（黑衣人：咦？纳尼？看不出来）

在GSM1100431以及 GSM1100447 这两个样本中，出现了前后不一致的情况。

（黑衣人：震惊！！！仙桃竟然出了这样的bug！）

（涛涛酱：欸？且慢！不要如此草率地下这样的结论喔！）

（黑衣人：蛤？那是哪里出了问题？）

（涛涛酱：俗话说得好，遇事不决，可问GEO）

于是我们本着求根溯源地精神，我们要打开源头GEO看看到底是哪些妖孽在作怪！

GEO的网址在这（https://www.ncbi.nlm.nih.gov/gds）

在其中输入GSE45267

打开第一个条目

之后眼疾手快地找到原始数据

打开more

迅速发现这两个可疑的样本

点开来看看！

（黑衣人：果然！！！是作者出了问题）

（涛涛酱：是的，此处因此产生了歧义）

（黑衣人：啊，抱歉，看来是我误会了我们的仙桃，呜呜呜）

（涛涛酱：哈哈哈，终于为仙桃恢复了清白，正身了一次）

（黑衣人：啊，那我们该怎么办呢？）

此处，这两个样本有相矛盾的地方。因此无论我们怎么分组，都是可以接受的。

所以我们就暂且把这两个样本认为是Tumor组的来示范。

那首先添加肿瘤组数据。

鼠标单击条目即可勾选，把所有的肿瘤组先选中，然后备注Tumor，添加到样本库。

接下来，我们进入“进入我的样本库” 。

我们将正常组定义为“分组1”；肿瘤组为“分组2”。

所以将这些标记为Tumor的基因勾选中，接着选择“加入分组2”

同理，回到上一个界面，勾选正常组织，再次添加入样本库中，选择 “加入分组1”。

这样，我们就完成了第一个数据集GSE45267的添加。

值得一提的是，不同权限用户的样本库的上限是不一样的，普通用户是20，基础版用户是50，高级版用户是100。后续还会视情况提高总体上限喔！

同样道理，不同权限的用户每天可以提交分析的次数也是不同的喔，普通用户每天只能提交2次分析，基础版用户每天可以提交5次分析，高级版用户每天可以提交20次分析。

所以如果是想分析比较多的数据，建议入手高级版喔！

接下来我们就可以来绘图了！

选择提交分析。

同理添加入剩余2个数据集。

这里的权限跟“生信工具”的是一个内容。想要升级权限可以到生信工具页面进行升级。

点击提交分析后，下面的历史记录中会出现一条分析记录，点击右上角的刷新可以刷新分析任务的进度情况。

当分析完成后，就可以下载结果内容了。

一次性提供了很多的结果内容，包括箱式图、PCA图、UMAP图、火山图、差异分析结果表格等，以及结果分析报告。

接下来我们就是真正来看看图1的火山图如何复现。

点击“说明”

出现如下界面：

往下卷动鼠标

点击按钮即可下载热图

（黑衣人：欸？这个怎么和图中的方向还不太一样？)

（濤濤醬：哈哈，这还不简单，点击“细节修改”进入调整模式）

自动连接到“火山图”界面

选择刚刚的样本

在右侧调整参数

根据文献的参数设置

我们进行相应的参数调整

点击确认

就完成了Fig1A的制作。

同样道理，添加另外两个数据集，也能如法炮制出火山图来。

接下来我们来看看Fig 1E Venn图的制作。

此处的目的就是把我们之前不同GEO数据集的差异基因取交集。

所以我们就得先获得差异基因的列表。

比如第一个数据集GSE45267,找到刚刚分析的结果，点击下载按钮，下载CSV表格。

打开CSV表格

本文是按照表达上调以及表达下调的顺序来制定韦恩图的。

所以我们对logFC的取值进行筛选。

选择筛选按钮

选中logFC这列

点击小箭头

即可筛选出logFC大于2 即表达上调的差异基因。

接着将基因的Gene Symbol

复制贴上到新的excel表格中

将其命名为GSE45267

同理可以得到另外两列差异基因

将其保存，而后上传。

路径：基础绘图——分组比较图——韦恩图

点击上传

读取数据后点击“确认”

结果就出来啦

（黑衣人：欸？原图不是有四个数据集吗？）

（濤濤醬：你忘了我们这个是GEO专场啊！所以我们今天就复现GEO的内容）

（黑衣人：喔对对！TCGA往期也都有介绍过了，GEO肿瘤类的今天要专门好好学习一下！）

以上是有关表达上调的Venn图，同理筛选出logFC<-2的数值就可以获得表达下调的Venn图。

（濤濤醬：那接下来要干嘛呢？）

（黑衣人：把这些图都拼起来！）

拼图一如既往采用我们仙桃的拼图功能喔！仙桃工具拼图比Illustratior或是Photoshop要节省不少时间！仙桃工具只要一分钟，AI或者PS可能要拼至少一天时间。

进入仙桃学术工具（https://www.xiantao.love/products）；选择高级版，点击“立即使用”（注：免费版和基础版都可以进行统计和可视化，由于高级版功能最全，这里选择高级版作为范例）

选择基础绘图 –上传图片，点击进入

此处开始上传自己的图片，但是记得图片要为pdf、tiff、tif、png的格式喔！

同时也可以调用我们云端的图片，也就是我们刚刚制作的图。

比如，刚刚做的火山图

就可以选择“保存结果”，保存在云端。

这样我们打开“拼图工具”的时候

图片就自动保存在库里

拖曳图片到标尺内

拖曳图片时候又自动吸附功能以及自动对齐功能

妈妈再也不用担心我的拼图了！

点击PDF下载，还会自动标记字母哦！点击下载，即可保存成pdf图片。

（小贴士：这里也可以把图稍微放大，或者两图直接的行间距放大，可以在右侧减少留白）

图2. 富集分析

富集分析采用的就是我们刚刚数据集取交集的基因来进行。

所以我们首先得获得刚刚取交集的成功。

这时候，刚刚做Venn图的优势就直接体现出来了。

下载excel表格，打开

最后一列就是我们取交集的基因

将其复制到新的excel中。

同理可以获得表达下调的取交集的基因。

全部整合成一列。

打开功能聚类（圈）——GO|KEGG富集分析

然后上传我们刚刚建立的excel表格

选择GO条目

然后点击确认

点击“保存结果”

而后打开GO|KEGG可视化

选择刚刚保存的样本

选择气泡图

点击确认

就可以出图啦。

点击查看大图

Fig2A是GO的气泡图，而Fig2B则是KEGG的气泡图。

（黑衣人：我知道，只要把GO的选项改成KEGG就可以咯）

没错，还记得刚刚在富集分析的选项里，我们的条目选择的是GO分析吗？此处可以更改条目为KEGG。

后续步骤都相同，即可得到此图

最后，根据前面提到的仙桃拼图功能，即可几秒钟拼成一幅Fig 2！

图3. 蛋白互作网络

我们借助String来完成这项操作（https://www.string-db.org/）

选择左侧的Multiple proteins

把刚刚做差异表达分析的107个基因复制到框中

物种选择Homo sapiens

之后点击search

就可以呈现和一个宏观的PPI网络了！

要想达到Fig 3B的效果，则是需要将结果导出到cytoscape软件中

紧接着打开cytoscape软件

就会呈现这个界面

要想形成一个圆形

更改样式

选择layout 下拉菜单

即可完成Fig 3

图4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相关性

图4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相关性

希望大家能在脑子里形成一个定式的思维

看到这样的楼梯状的圆形图或者是钟表图，就要想到是——相关性热图。

（黑衣人：楼梯圆形或楼梯钟表——相关性热图！）

那我们来整理一下思路。

先下载原始数据，找出要进行相关性分析的分子，将其的表达数据整个提取出来，然后汇总在另外一张表中，再进行相关性分析。

那现在思路清晰了之后，我们就一起来复现吧！

第一步：下载原始数据

原始数据是TCGA的，所以我们前往官网下载数据。

有两种方法。

第一种是登入TCGA的网站（https://portal.gdc.cancer.gov/）下载。步骤有些繁琐，不过熟练的老司机们可以三下五除二搞定。

第二种是登入Xena (https://xenabrowser.net/datapages/)

往下卷动鼠标

找到肝癌的部分

点击进入

点击下载

而后通过excel打开文件

这时候，我们就要把需要的六个基因给“抓”出来了

可是看到第一列都是Ensemble ID，那怎么办呢？

所以我们需要进行ID转换

紧接着，我们把我们需要抓出来的基因先整理成一份excel表格

保存excel

在方框内上传

点击“确认”

红色方框的就是我们需要的基因名！

紧接着，一个个把这些基因名在刚刚的原始数据中寻找。

可以轻松获得该行

接着把这一整行复制贴上到新的excel中

记得贴上的时候一定要选择“转置”这个按钮

将横的数据变成竖的

进一步修改名称为CCNA2

同样道理可以整理出另外5个基因的表达情况

最后整理成一个表达矩阵

接着，我们打开相关性热图

路径：基础绘图——相关性热图

在框中上传我们适才保存好的文件，类型选择“样式1，位置选择“显示相关系数”，在样式中选择“圆形”。点击确认。

即可出图！

图5. 验证基因的表达情况

这个图是本文干湿结合的体现之一。

Fig5A-5L是作者通过湿实验得到的结果，而M到R则是验证了组织里面的表达情况。

（黑衣人：蛤？那我们不就做不了了吗？）

（濤濤醬：别慌！仙桃在手，要什么都有！）

正确打开方式如下：

表达差异（挑）——表达差异——配对样本

选择TCGA—LIHC，肝细胞肝癌

分子选择 CCNA2

选择“不显示箱式图”

点击“确认”

即可出图

同样的道理，输入另外五个基因，也能得到一样的结果。

（黑衣人：哇！这样就能将湿实验转化为干实验！好强！）

（濤濤醬：哈哈，这就强了吗？后面还有更精彩的！请往下看！）

图6. 验证基因的免疫组化情况

（濤濤醬：这个乍一看是什么图呢？）

（黑衣人：不就是免疫组化的图嘛！）

（濤濤醬：对的，但是作者在此非常讨巧地用了数据库的图片实现）

（黑衣人：惊！还能这样！）

通过文章的材料与方法部分，我们惊讶地发现，这个部分披上了湿实验地躯壳，没想到里面竟然是干实验的灵魂！

所以我们就按照这个步骤一起来看看如何实现吧！

那就隆重推出我们的HPA数据库（https://www.proteinatlas.org/）

Human Protein Atlas 数据库，简称HPA数据库，它致力于提供全部24,000种人类蛋白质的组织和细胞分布信息，并免费提供公众查询。

创立这个数据库的瑞典 Knut & Alice Wallenberg基金会使用特制的抗体，用免疫组化的技术，检查每一种蛋白质在48种人类正常组织，20种肿瘤组织，47个细胞系和12种血液细胞内的分布和表达，其结果用至少576张免疫组化染色图表示，并经专业人员阅读和标引。这些受检组织来自144个不同个体和216个肿瘤组织，保证染色结果具有充分的代表性。这是一个大规模蛋白质研究项目，主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。

那么该如何使用呢？

登入网址。

在搜寻框搜寻CCNA2

结果可以看到正常组织、病理状态下等等不同的样式。

我们选取“TISSUE”这个界面

就会看到

由于我们要研究的是肝细胞癌，所以我们选中右侧的liver

结果显示

是不是和Fig6A长得一模一样？

所以同理可以输入其他基因，复现出后续的图片。

图7. Cox回归森林图

根据文中描述，作者在此做了单因素分析

所以我们一起来看一下如何实现。

不过，在复现之前

濤濤想和大家说的是，这个功能目前只有高级版才能实现喔！

（黑衣人：蛤？这样啊，那我赶紧把我的基础版升级一下！这么好用的功能！）

一定要买它！！！（某主播上身）

进入仙桃的高级版界面

临床意义（靠）——预后分析——单因素|多因素分析

选择疾病TCGA—LIHC

把内建的条目删除，重新添加

输入具体的基因名

之后点击“确认”

就出来运算结果了

我们保存excel表格

接着我们将表格整理一下

只留下这三列

保存Excel

接着打开“基础绘图——森林图”

上传Excel文档，点击“确认”

立刻出结果

图8. 生存曲线图

我们先来看看Fig 8A 是如何做出来的

Fig 8A是CCNA2的生存曲线

打开路径临床意义（靠）——预后分析——KM曲线

选择疾病TCGA—LIHC

输入对应的分子

点击确认

即可出图

在此，希望大家能点一个“保存结果”，等下就可以直接拼图了喔！

同样道理，可以获得另外五个基因的KM曲线图。

接下来，就到了我们最紧张最激动的拼图环节啦！

将6张图拼起来，就意味着可以得到我们的Fig 8

接下来我们来看看如何一键拼图！

点击上方的拼图工具

左边的栏目中即有我们刚刚保存的6张图

一个个将其拖曳至主屏幕

拖曳的时候有自动上下左右前后对齐喔！

（黑衣人：想起了以前军训时候，教官说的，向左向右看！）

（濤濤醬：没错！我们的仙桃拼图工具就是有如军队一般严谨可靠！）

更有横纵参考线让你对齐，更好用喔！

点击pdf下载即可。

（黑衣人：欸欸欸！等等！字母还没标欸！）

（濤濤醬：哈哈，你打开pdf看看？）

（黑衣人：震惊！！！字母竟然自己标上去了！还对得那么整齐！！！）

（濤濤醬：对吧？所以，仙桃真的是神仙本仙！很好用吧！）

（黑衣人：哇喔！太强了吧！respect！我这就立刻登陆仙桃www.xiantao.love开始肿瘤类GEO研究之旅！）

欢迎大家关注解螺旋生信频道-挑圈联靠公号~

—END—

撰文丨濤濤

排版丨四金兄

值班 | 风风

主编丨小雪球

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。