打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
详解人类基因在不同数据库中的ID

对于人类的基因而言,不同数据库提供了不同的命名方式。对于初学者而言,非常容易搞混淆。今天我们就来理一下,常见的基因命名方式。

首先看一下NCBI中基因的信息如何命名,NCBI的Gene数据库记录了不同物种的基因信息,在Gene数据库中,给每一个基因提供了一个唯一的ID, 这个ID叫做Entrez ID,Entrez是NCBI的检索系统的名字。

TP53为例, 链接如下

https://www.ncbi.nlm.nih.gov/gene/7157

链接中的7157就是这个基因的Entrez ID。在该链接中,我们可以看到以下信息

gene symbol指的是基因的名字,对于每个基因,都有对应的symbol, 根据来源可以分为以下两类

  1. offical symbol

  2. loc symbol

official symbol指的是由HGNC这个组织提供的基因的名称,HGNC是一个基因命名委员会,负责对人类基因组上的所有基因提供一个唯一的,标准的,可以广泛传播的symbol。HGNC命名的基因收录在以下数据库中

http://www.genenames.org/

除了symbol外,还提供了HGNC id, TP53基因对应的id为HGNC:11998。

如果这个基因没有HGNC提供的Symbol, 就在Entrez ID的前面添加LOC前缀作为其symbol, 比如LOC100653049

在NCBI中,所有的基因都有Entrez IDGene Symbol, 其中只有部分基因拥有HGNC Symbol

Ensembl 数据库也收录了基因的信息,用Ensembl ID表示每个基因,以ENSG开头,上述例子中的TP53对应的Ensemb的ID为ENSG0000014150。需要注意的是,Ensembl和NCBI收录的基因总数不相同。

UCSC的基因ID以uc开头,比如uc003tqk.4, 称之为knownGene, 完整的基因列表可以从以下链接下载

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz

KEGG的Gene 数据库也拥有自己的gene ID, 以三个字母的物种缩写和id构成,比如tp53对应的kegg gene id 为hsa:7157。链接如下

https://www.kegg.jp/dbget-bin/www_bget?hsa:7157

对于大部分基因而言,会有以下5种类型的ID

  1. NCBI entrez ID

  2. NCBI gene symbol

  3. Ensembl gene ID

  4. UCSC gene ID

  5. KEGG gene ID

对于特定类型的基因,还会有自己的数据库

1. miRNA

miRNA目前公认的是miRBase 数据库的ID,MIR21对应的miRBase的ID 如下

2. lncRNA

lncRNA目前没有一个统一的命名,lncRNAdb, LNCipedia等数据库都有自己的ID。

其他类型的基因也会有自己的数据库,这里就不一一展开了。

·end·

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Bulk RNA-seq | 第3期. 基因ID转换,一键搞定
ID转换一文通晓
这可能是生信分析的第一个坎儿,反正我周围经常有人问
浅谈Entrez ID
基因名的三十六变——基因ID转换小工具汇总
TCGA ID 转化的小插曲
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服