打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
gencode-高质量的基因注释信息数据库

对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ensembl 数据库中的信息,通过实验手段加以验证,从而构建一个高质量的注释信息数据库。网址如下

https://www.gencodegenes.org/

官网提供了GTF和GFF3两种格式的文件以供下载,示意如下

每种类型的文件提供了3种区域

  1. CHR

  2. ALL

  3. PRI

对于基因组而言,包括了chromsomeunplaced_scaffold, alt_scaffold, patch等序列,这些序列上都存在对应的基因。CHR指的是染色体级别的信息,包括细胞核内的染色体和线粒体;ALL包括所有的序列,PRI只包含染色体和unplaced_scaffold序列上的信息。官方推荐,使用CHR级别的信息。

文件中采用level来表示注释信息的可信度,目前共包括3个level。

level1代表可靠的注释信息,有直接的实验证据支持的注释信息;level2代表的是经过人工校对的注释信息,取HAVANA和Ensembl注释信息中一致的注释信息;level3指的是软件注释的信息,通常是Ensemble中和HAVANA不一致的注释信息。

如果想要得到更高可信度的注释信息,可以根据level进行过滤,只选择1和2这两个层级的注释信息。

文件中共包含的基因和转录本的个数统计如下

1. human

2. mouse

在文件中,会给出基因或者转录本的类型信息,解释如下

  1. protein_coding
    蛋白编码基因

  2. lincRNA
    位于基因间区的长链非编码RNA

  3. non_coding
    文献中证实的非编码RNA

完整的基因类型信息详见以下链接

https://www.gencodegenes.org/gencode_biotypes.html

·end·

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
基因组标准注释文件-Gencode数据库
Ensembl数据库lncRNA分类说明
生信编程11.根据gtf格式的基因注释文件提取人所有基因的染色体坐标
基因组注释文件格式 --(一)BED文件格式
基因组数据分析,编号转换不用愁之biomaRt
GO功能注释及富集分析|百泰派克生物科技
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服