转录组不求人系列(二): 公共数据库数据挖掘

截至目前，无论是人的还是其他生物的，一些常见疾病还是模型都进行过转录组测序，而且测序数据已经上传至公共数据库，如果自己的研究中恰好需要一些组学数据支持，或者课题研究需要从组学寻找，那么最经济实惠的办法就是数据挖掘了。很多时候，分子学实验想要看基因在组学验证下的变化，如果已经有别人做的数据，直接就可以分析用，只是关注的基因不一样，没必要自己去测！

1、三大数据库

一般测序数据发文章都会上传至三大数据库，话不多说，先上链接：

生物信息三大数据：NCBI（https://www.ncbi.nlm.nih.gov/genome/）

EMBL_EBI（https://www.ebi.ac.uk/）

NGDC（https://ngdc.cncb.ac.cn/）

NCBI大家应该很熟悉了，测序数据在其GEO数据库中：GEO数据库比较友好，基本会上传count数据或者表达矩阵，比较友好！

EMBL_EBI欧洲生物信息研究所：EMBL_EBI一般上传的都是测序的原始文件，例如FASTQ文件，如果需要挖掘则需要从头开始，要求较高！

NGDC国家基因组科学数据中心。近年来我国也越来越重视这一块了，现在很多国人的数据都会放在这上面。NGDC中的数据一般不公开，如果需要使用需要联系作者获得其同意！

三个数据库虽然不同，但是基本形式是一样的，上传的测序数据有原始数据，也有样本信息的metadata数据。数据库的检索要么按照关键字检索，要么通过数据集号检索！

2、以GEO数据为例，下载转录组数据

转录组数据分为两种，一种是芯片数据，一种是高通量数据，这两种数据分析方法不同，数据文件不同。我们分别为例，找两组数据看看其差别和具体内容。

芯片数据，直接在GEO中搜索<Pancreatic cancer, array>，选择一个合适的数据（我这里是随机选择的），选择了GSE125424。

从主页就可以看出样本的所有信息。

点击下载Series Matrix file即为其表达矩阵。这里需要注意一点。如果这个矩阵不完整，记得下载下方的RAW data，用这个数据去做。下载完的的数据打开发现，基因名为序号，所以还需要下载其注释平台的信息。

高通量数据，检索时可限定为<Pancreatic cancer, high throughput sequencing>样本信息和芯片数据一样，可以查看。数据下载方法也一样！

然而，这里有个问题我不得不提，光看数据主页的信息是不够的，样本信息也很重要，有时候我们需要做与性状的关联，所以还需要详细的样本信息。在页面的最底部，点击SRA Run Selector（很多网上的帖子很少提到这个信息）

转入之后，就可以看到详细的样本分组、处理等信息了，点击metadata即可下载。

除了这些数据库，还有很多数据库储存了数据，例如TCGA等等。但是分析的方法和要关注的基本信息是一致的，才能让数据发挥价值！

希望这个分享对你有用，多多支持关注！

之后转录组的可视化我们尽求其符合SCI发表要求，做CNS级别的图！

下节预告---数据降维（不仅仅针对转录组）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。