打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
零成本发表SCI,导师推荐次数最多的数据挖掘必备神站~

想要零成本发表SCI,强大的数据库绝对少不了!今天推荐的CCLE堪称肿瘤细胞系百科全书,数据挖掘必备宝典~

文章主要针对数据库CCLE挖掘进行深入了剖析,并与TCGA、SEER、GEO等数据库进行了优缺点的比较,且对网页操作流程和CCLE 数据库后台数据的分析都做了详细的操作步骤分析。

一、简单介绍

CCLE (Cancer Cell Line Encyclopedia) ,是Broad研究所与诺华研究基金会联合开发的在线数据库,界面很简洁,直接输入你想查的Genes或者细胞系,就可以得到想要的信息。

CCLE记录不同肿瘤组织的多个细胞系的多组学数据,可以观察基因在肿瘤细胞系的高低表达。

二、 CCLE网页操作

网站:
https://portals.broadinstitute.org/ccle/about

1.进入CCLE数据库网页,输入基因名字(EGFR)

2.选择Distribution by Lineage

a.看一下 RNAseq数据中mRNA的表达
注:横坐标是肿瘤发生部位名称,可以发现EGFR在左下边的几个癌症中是高表达的,在后面右下低表达,通过这幅图就可以知道这个基因在哪些肿瘤中是高表达,在哪些肿瘤中是低表达,这个图形在文章中用的比较多,这个图形也能对它进行修改,让基因在特定癌症里面显示,可以通过点亮右侧癌症框中对应的癌症。

b.看一下拷贝数,在哪些肿瘤中的拷贝数高在哪些肿瘤中的拷贝数低。

c.看一下甲基化,判断表达量

甲基化正好与表达相反,它在T细胞、B细胞中甲基化程度比较高,在其他癌症中表达高的在这里就低了,这也跟研究是一致,甲基化越高的话它的表达量就相对低一点。

d.看一下蛋白的芯片,蛋白的话与前面的mRNA表达是一致的。

e.看一下芯片中的数据,芯片中的数据与RNAseq数据一致。
一般用的比较多的是转录组测序的数据,转录组测序的数据一般来说还是要准确一些。

3.选择Scatter Plots

a.看基因的甲基化跟基因的表达是否具有相关性。
这里不是太明显,可能癌症比较多,如果想看基因在特定几个肿瘤中的甲基化与表达是否具有相关性,可以在右框中点亮。

b.可选择不同基因查看与EGFR的相关性(比如tp53)。

这幅图看不出p值,也没有线条标志,只能看散点图,这幅图不常用,后面会讲共表达的关系,直接从后台下载数据,展示共表达的关系,这样图形就更明显了。

4.选择Mutation Data

a.查看突变数据

输入的是EGFR,所以这里是EGFR在各个细胞系里面的突变情况,表格对应含义:EGFR;基因id;细胞系的名称;使用的参考基因组37对应的是hg19;染色体;染色体起始位置;染色体终止位置.....,可知道它的Reference是什么,突变后的是什么;所以从这里可以查看基因在每个细胞系中突变情况。

b.下载数据

直接点上方的excel即可,想下载数据必须登录,可以把EGFR在各个细胞系里面的突变情况下载下来。

5.选择Fusion/Translocation Data

EGFR与哪些基因在哪些细胞系中检测到发生了基因融合/易位事件。

6.选择CpG Methylation Viewer

图中纵坐标表示所有乳腺癌的细胞系,横坐标表示甲基化的位点,颜色表示甲基化的程度,甲基化程度越低颜色越蓝,甲基化程度越高颜色越红,圆圈的大小代表它的覆盖度,在做甲基化的时候可以把这个图形下载下来。

三、CCLE 数据库后台数据分析操作

1.接下来主要讲解转录组数据,所以要下载最新版本的数据(RNAseq)

2. 获取特定肿瘤矩阵数据(肺癌)

a.解压并打开下载好的数据(UltraEdit)

注:#1.2表示版本号,56202表示基因数,1019表示样品数,Name表示ensymbol ID,Description表示基因名字,接下来就是每个样品名。

b.运行脚本(getCancerMatrix.pl)

根据样品名中_的后半部分是LUNG去抓取肺癌数据。

c.查看结果文件(单个癌症的矩阵)

行名表示基因,列名表示样本。

3.共表达分析(R语言)

a.修改脚本

我们关注某个基因,想找这个基因具有共同波动的相关基因,就可以做共表达分析,共表达的方法使用R语言去完成的,一般采用皮尔逊相关系数大于0.04或0.05,相关性检验 p小于0.01,通过这样的过滤标准去筛选它的相关基因。

b.运行下脚本

目标基因与所有的基因都做一个相关性检验。

4.查看结果

a.查看表格EGFR.cor.xls

cor都是按照0.5进行过滤的,所以这里的|cor|>0.5,p值都小于0.001,第2列的基因就是目标基因EGFR的共表达基因,可适当调节参数来控制基因的数目。

b.查看图形

横坐标是目标基因,纵坐标是与它有共表达关系的基因,散点中画一根曲线,曲线就是模拟散点的走势,曲线从左到右是向下的就说明这个基因跟我们的目标基因具有负相关。

5.共表达热图绘制

a.将上步相关性分析中的EGFR.cor.xls和SingleCancerMatrix.txt文件拷贝到该文件下。

b.对EGFR.cor.xls文件排序后各选20个上调下调数据(正负相关各画前20个基因)

c.用R脚本画图
修改脚本(pheatmap.R)只需要修改目标基因名和工作目录即可。

d.运行脚本进行画图

e.查看热图

图上边的横条表示一个基因的表达量,样品根据EGFR表达量由低到高进行排序,图右边前20个基因与它有一个共同的趋势,图右边后面的20个基因与EGFR有一个相反的趋势,随着EGFR表达量的升高而降低,图左边的竖条橙色表示正相关,绿色表示负相关,一眼就可以看出哪些与目标基因正相关哪些与其负相关,很多文章会出现这个图。

6.基因名字转换为基因id

a.打开EGFR.cor.xls文件,将2、3列复制到symbol.txt文件中。

b.修改脚本(symbol2id.R),只修改工作目录即可。

c.运行R脚本

d.看结果文件

在文件后面加一列基因名对应的基因ID,没有ID会显示NA。

7. GO富集分析

a.将上一小节的id.txt复制到当前文件夹中,修改脚本安装完包检查一下后运行脚本

b.查看图表,查看GO富集结果文本

第1列对应三大类名称,第2列对应GO id,第3列对应GO的解释,第4列对应基因的比例,第5列对应背景,第6列对应p值,第7列对应矫正后p值,第8列对应q值,第9列对应基因名,第10列对应数目;

如果GO描述中某个单词出现频率很高,就可以说EGFR通过这个功能调控肿瘤的发生。

c.柱状图

横坐标是基因的数目,纵坐标是GO,GO分为三大类BP、CC、MF,这幅图就是说每个GO有多少个基因富集在上面,颜色越红富集程度就越高,也就富集的越显著。

d.气泡图

图左表示功能的名称,横坐标表示基因的比率,圆圈的大小是代表基因的数目,颜色越红p越小说明富集的程度越高。

e.热图

横坐标表示GO的名称,纵坐标表示基因名称,如果这个基因在这个GO上对应一个长方形,说明这个GO富集结果里面有这个基因,同时也可以根据颜色判断基因与目标基因是正相关还是负相关。

8.KEGG富集分析

a.将07.symbol2id文件夹中的id.txt文件复制到当前文件夹中,修改R脚本clusterProfilerKEGG.R,运行脚本。

b.柱状图

c.气泡图

从气泡图可以看出很多通路跟癌症相关,这样就说明我们的基因确实跟癌症很相关,即这个基因可以通过调节癌症的通路来调控癌症的发生,这也说明我们预测这个基因的准确性比较高,这个基因确实跟癌症很相关,这样反过来验证了我们的基因选对了

d.热图

做 KEGG分析时它的横坐标基因ID是没有可读性的参数,所以读出来的id都是基因的id而不是基因的名字。

e.富集的通路图--原始图,是从KAGG数据库下载的图。

f.调整后的图(有颜色)

如果这里基因不在我们列表里就以白色显示,如果在EGFR相关基因表格里就用颜色表示,越负相关颜色就越绿,越正相关颜色就越红。

g.将基因id 转化成基因的名字,查看KEGG.txt文件,第8列是基因的id,在发文章时还是要将其转化成基因的名字。

h.准备数据

运行脚本将基因id转化成基因的名字(id2symbol.pl)

i.查看结果

四、GSEA软件和数据准备

1.软件下载

http://software.broadinstitute.org/gsea/index.jsp

2.准备文件(以TP53做例子进行分析)

a.将单基因的矩阵文件放到当前文件夹下,运行脚本获取gct和cls文件(prepareGSEA.pl )

b.查看gct文件(表达文件)

#1.2表示版本号,56202表示基因数,188表示样品数,NAME表示基因名等。

c.查看cls文件

188表示样品数,2表示分组数,l表示低表达组,h表示高表达组。

d.GSEA运行和结果解读,准备数据打开软件

可根据电脑的配置修改内存

e.导入数据

f.参数设置

点击run运行,Expression dataset表达的数据;
Gene sets database基因集数据就是我们要做什么分析,是GO还是KEGG的分析;Number of permutations循环次数;
Phenotype labels选择类型这个就是低表达组作为对照高表达组作为处理组;
Collapse dataset to gene symbols因为已经是基因名字了这里就不需要选择;Permutation type默认就可以等等。

g.结果解读

打开index.html页面,高表达组有94个样品;低表达组也有94个样品;
高表达组是从正相关去富集,低表达是从负相关去富集,一共找到了11个基因集的结果。

h.点击enrichment results in html,查看上调相关的通路

根据矫正后的p值筛选显著的通路,如果矫正后的p值没有小于0.05的就用p值进行筛选。

i.点击Details,查看非小细胞肺癌结果

Nominal p-value < 0.05说明富集确实显著。

j.点击KEGG_SMALL_CELL_LUNG_CANCER,查看通路

相关的基因会在这里以红色显示,其他的基因就以黑色的显示。

k.点击enrichment results in html,查看下调相关的通路

l.点击Details,查看氧化磷酸化

m.点击KEGG_OXIDATIVE_PHOSPHORYLATION,查看通路

五、总  结

1、第一部分是对CCLE 数据库进行一个大概的介绍,然后与TCGA、SEER、GEO等数据库进行优缺点比较,说明CCLE数据库里面主要是多组学数据,没有正常的细胞系,不能做差异分析,只能做肿瘤之间的比较。
2、第二部分是对 CCLE数据库的网页进行操作,通过输入基因GFER可查看该基因在限定肿瘤中的表达、拷贝数、甲基化等情况,同时也可以查看GFER基因与其他基因之间的相关性。

3、第三部分是对CCLE 数据库后台数据进行分析,从后台下载所有肿瘤的RNAseq数据,然后通过脚本提取想分析癌症(肺癌)的表达数据,再通过两种途径对该基因进行分析:

1> 筛选EGFR基因在肺癌中共表达基因,并做GO和KEGG的分析,验证EGFR与肺癌有关,并推测EGFR基因可以通过调控某某通路去影响肺癌的发生发展;

2> 将提取肺癌的表达数据分为高低表达两组,然后用GSEA做富集分析,从而推断该EGFR可能调控的功能。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
CCLE数据库挖掘共表达热图绘制
手把手教你用 CCLE 看基因在肿瘤细胞系的高低表达
神仙级生信肿瘤数据库使用指南,你不会还不知道吧?
肿瘤里的基因突变数据库,你知多少?
lncRNA功能研究神器:TANRIC数据库
肿瘤细胞系综合性分析数据库
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服