绝大部分癌症都是在TCGA数据库有比较好的生存资料,也很容易做批量生存分析,就可以拿到有统计学显著的保护因子和风险因子基因,可以查看我以前的泛癌系列。在:癌基因一定在肿瘤部位高表达吗 我们针对每个癌症都在各种内部做了肿瘤组织和正常对照的差异表达量分析,然后在癌基因都是肿瘤的风险因子吗 我们针对每个癌症的全部基因批量了做了单基因的cox分析。
那么,这些生存相关的基因,是否有单细胞水平的特性呢,恰好最近看到了一个发表在《NATURE》的 文章:《Metastatic recurrence in colorectal cancer arises from residual EMP1+ cells》,主要的发现是:An analysis of single-cell transcriptomes of samples from patients with CRC revealed that the majority of genes associated with a poor prognosis are expressed by a unique tumour cell population that we named high-relapse cells (HRCs).
就是首先在有生存信息的数据集里面筛选人类全部的基因,拿到两千多统计学显著的基因去在单细胞水平看看表达量或者基因集打分,流程图如下所示:
这里不仅仅是TCGA数据库的结直肠癌队列,还纳入了一些GEO数据库里面的有生存信息的质量好的队列,如下所示:
Dataset | Platform | N |
---|---|---|
TCGA | HiSeq + Genome Analyzer | 538 |
GSE38832 | Affymetrix HG U133 Plus 2.0 Array | 122 |
GSE44076 | Affymetrix HG U219 Array | 98 |
GSE33113 | Affymetrix HG U133 Plus 2.0 Array | 90 |
GSE14333 | Affymetrix HG U133 Plus 2.0 Array | 290 |
GSE39582 | Affymetrix HG U133 Plus 2.0 Array | 562 |
GSE37892 | Affymetrix HG U133 Plus 2.0 Array | 130 |
前面的批量生存分析,筛选到了两千多个基因,而目前结直肠癌单细胞转录组数据集非常多,很容易就可以降维聚类分群,绝大部分的肿瘤研究单细胞研究我介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这个第一次分群规则是 :
从上图可以看到, 绝大部分生存相关基因都是在恶性的肿瘤上皮细胞,以及肿瘤微环境里面的内皮细胞和成纤维细胞,至于免疫细胞里面的就髓系比较显著。
根据我前面的笔记,在癌基因都是肿瘤的风险因子吗 ,针对每个癌症的全部基因批量了做了单基因的cox分析,挑选统计学显著的去对应的癌症去打分,看看是否有单细胞亚群特异性。
任意选择一个癌症完成同样的数据分析即可,完成学徒作业,以markdown笔记的形式发到我邮箱,我会抽时间集中检查,挖掘其中足够优秀的小伙伴进行重点培养,给与更高级的学习资料或者个性化的学习指引,并且提供一定量的项目兼职测试一下你成为“数字游民”的潜力,大家一起参与瓜分每个月10到100万的项目哈。详见:每个月10到100万怎么感兴趣的人这么少?
联系客服