打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
转录组不求人系列(二): 公共数据库数据挖掘

截至目前,无论是人的还是其他生物的,一些常见疾病还是模型都进行过转录组测序,而且测序数据已经上传至公共数据库,如果自己的研究中恰好需要一些组学数据支持,或者课题研究需要从组学寻找,那么最经济实惠的办法就是数据挖掘了。很多时候,分子学实验想要看基因在组学验证下的变化,如果已经有别人做的数据,直接就可以分析用,只是关注的基因不一样,没必要自己去测!

1、三大数据库

一般测序数据发文章都会上传至三大数据库,话不多说,先上链接:

生物信息三大数据:NCBI(https://www.ncbi.nlm.nih.gov/genome/)

                              EMBL_EBI(https://www.ebi.ac.uk/)

                              NGDC(https://ngdc.cncb.ac.cn/) 

NCBI大家应该很熟悉了,测序数据在其GEO数据库中:GEO数据库比较友好,基本会上传count数据或者表达矩阵,比较友好!

EMBL_EBI欧洲生物信息研究所:EMBL_EBI一般上传的都是测序的原始文件,例如FASTQ文件,如果需要挖掘则需要从头开始,要求较高!

NGDC国家基因组科学数据中心。近年来我国也越来越重视这一块了,现在很多国人的数据都会放在这上面。NGDC中的数据一般不公开,如果需要使用需要联系作者获得其同意!

三个数据库虽然不同,但是基本形式是一样的,上传的测序数据有原始数据,也有样本信息的metadata数据。数据库的检索要么按照关键字检索,要么通过数据集号检索!

2、以GEO数据为例,下载转录组数据

转录组数据分为两种,一种是芯片数据,一种是高通量数据,这两种数据分析方法不同,数据文件不同。我们分别为例,找两组数据看看其差别和具体内容。

芯片数据,直接在GEO中搜索<Pancreatic cancer, array>,选择一个合适的数据(我这里是随机选择的),选择了GSE125424。

从主页就可以看出样本的所有信息。

点击下载Series Matrix file即为其表达矩阵。这里需要注意一点。如果这个矩阵不完整,记得下载下方的RAW data,用这个数据去做。下载完的的数据打开发现,基因名为序号,所以还需要下载其注释平台的信息。

高通量数据,检索时可限定为<Pancreatic cancerhigh throughput sequencing>样本信息和芯片数据一样,可以查看。数据下载方法也一样!

然而,这里有个问题我不得不提,光看数据主页的信息是不够的,样本信息也很重要,有时候我们需要做与性状的关联,所以还需要详细的样本信息。在页面的最底部,点击SRA Run Selector(很多网上的帖子很少提到这个信息)

转入之后,就可以看到详细的样本分组、处理等信息了,点击metadata即可下载。

除了这些数据库,还有很多数据库储存了数据,例如TCGA等等。但是分析的方法和要关注的基本信息是一致的,才能让数据发挥价值!

希望这个分享对你有用,多多支持关注!

之后转录组的可视化我们尽求其符合SCI发表要求,做CNS级别的图!

下节预告---数据降维(不仅仅针对转录组)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
那些微生物数据库(你用或不用,它就在那里~)
GEO数据库架构介绍
​ZSCI-确认过眼神,是写SCI值得挖掘的公共数据库~
北京基因组所数据库介绍(类似sra和ebi)
Nature评论|AlphaFold如何在结构生物学中实现AI的全部潜力
重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服