说到肿瘤研究当然大家都会自然而然的想到大名鼎鼎的TCGA数据库,除此以外,其实还有其它的大规模数据集,比如本文要介绍的Treehouse,据白介素2同学观察,目前很少见到该数据的挖掘使用?难道还是
Treehouse儿童肿瘤研究是UCSC基因组学研究所的研究机构的一个研究目标,希望通过这些大规模的数据集来确定哪些药物可以更精准的用于儿童肿瘤。现在已收集好来自11,000多个样本的RNA-seq的基因表达数据以及包括年龄,性别和疾病类型的临床数据,样本收集包括合作单位,以及公共数据库(TCGA和TARGET),TARGET也是一个儿童肿瘤数据库。提供的可视化工具如下:
三个可视化工具包括Tumormap, ClusterBrowser,Xena,具体如何使用这里不做赘述,有机会下次进行详解。然后可供下载的文件数据包括部分临床信息,log2标准化的TPM表达数据,以及Counts数据。
可以看到数据还在更新过程中,有好几个版本了。2018年就更新了几个版本。
这些数据的处理流程是用RSEM软件将测序得到的BAM和fastq文件预处理为基因表达数据的,Pipeline已提供了详细的描述。
然后就是类似于TCGA讲了一些数据库的使用规范包括如果使用这些数据应该致谢,以及倡议大家如果有数据的话共享出去。
数据集的大体情况就是这样,10000+的规模数据集。白介素2同学顺便看了下这样一个项目究竟是发了多少文章。
欣赏一下2018年的发表的文章吧。
以下附上网站链接:
https://treehousegenomics.soe.ucsc.edu/public-data/#datasets
题外话
讲一讲题外话,这次的题外话回复下小伙伴的提问。如著名的那句“评论总是比正文好看呀”,看看上一期(一个碉堡的GEO和RNA-seq数据在线分析神器,生信so easy)的评论都是啥
Response1:哈哈哈,喜欢白介素的题外话吧,好巧啊,我也喜欢,我们做朋友吧!
Response2:另外,也有小伙伴在关心白介素同学的发际线!虽然师兄都回复了“还挺茂盛的”,白介素还是有点担心呐,可咱有Pubmed啊,赶紧检索下发现与发际线有关的文章有1000多篇了,
看到这儿,我就放心了,将来万一发际线不行了,找整形科的小伙伴去。
还有关于 NetworkAnalyst神器的提问:
下面做一回复:
https://www.networkanalyst.ca/faces/docs/FaqView.xhtml#basnet问题大都可以在该网址找到
Q1: 接受哪些数据的输入?
Q2: 如何准备自己的基因表达数据?
https://www.networkanalyst.ca/faces/docs/FaqView.xhtml#basnet
不扯了,所谓渔全在这里了!小伙伴们有问题都可以留言,等我看到了,下次统一回复题外话。
联系客服