打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
NCBI/DDBJ/EMBL序列的标识符:GI number和Accession.Version

标题: NCBI/DDBJ/EMBL序列的标识符:GI number和Accession.Version
摘要: [NCBI DDBJ EMBL序列的标识符:GI number和Accession Version]GI?number及Accession Version就像是序列的身份证号码一样。通过这个号码,我们能在NCBI DDBJ EMBL等数据库查到该序列的数据。问题:为什么会有两种类型的序列标识符(GI number、Accession Version),两者…… [关键词:序列 数据库 核酸序列 核苷酸序列 通用性 生物信息学 氨基酸序列]……
关键词: 序列 数据库 核酸序列 核苷酸序列 通用性 生物信息学 氨基酸序列

GI?number及Accession.Version就像是序列的身份证号码一样。通过这个号码,我们能在NCBI/DDBJ/EMBL等数据库查到该序列的数据。

问题:
为什么会有两种类型的序列标识符(GI number、Accession.Version),两者之间又有什么不同呢?

回答:

两种类型的序列标识符(GI number、Accession.Version),有着不同的格式,并且开始使用的时间也不同。

1,GI?number(有时用小写字母"gi"),由一系列的数字组成,是NCBI在处理序列时连续分配的。跟序列的Accession number是没有关联。

  • 在GenBank数据中,核苷酸序列的GI number放在Version的区域。
  • 蛋白序列的GI number,如果核苷酸序列存在CDS区,在CDS/db_xref 区有蛋白序列的GI number。在蛋白数据库,GI number同样放在Version区。

2,Version区,通常我们都可以看到是Accession.Version,如NM_008261.1

  • 核酸序列的Version区,由两个字母,接着6位数字,再一点,后面跟着版本号。(旧的记录是一个字母,5位数字,一点,再版本号)
  • 蛋白序列的Version区,三个字母,5位数字,一点,版本号。(注,这是原文的说法,但好像不是太准确,这可能是旧的记录。我觉得是二个字母,6位数字,版本号。如NP_032287.1)

GI?number作为序列的唯一标识符已经在GenBank使用多年,其它相关的数据库仍然保留这个号码。1999,随着国际核酸序列数据库同盟(NCBI/DDBJ/EMBL,International Nucleotide Sequence Database Collaboration)的成立,Version系统也开始启用。

这两种不同系统的标识符是平行运行的,即当序列的数据改变或升级时,将会分配一个新的GI?number,Accession number后的版本也会随着增加。如NM_008261.1-->NM_008261.2(GI?number:6680238-->46575915)。

大概的历史是这样子的,一开始在GenBank及相关的数据库中使用的是GI?number,GI是"GenInfo Identifier" 的缩写。后来国际核酸序列数据库同盟成立后,考虑到GI?number不适合作为国际性的通用序列标识符,所以就弄了一个新的词叫NID,代表核酸序列,PID代表氨基酸序列。但到了1999年12月,这个叫法就中断了,全部统一改为用"GI"表示。



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
使用NCBI做BLAST,我应该选择哪个Database
那些微生物数据库(你用或不用,它就在那里~)
小鬼的转录组测序分析专题(六)-SRA数据库介绍
科研人员必备特性:拖!拖!拖!
人类遗传资源共享模式调查报告
核酸序列数据库有哪些?常用核酸序列数据库盘点!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服