颠覆整个领域，我国学者发现4700个人类非编码基因可编码蛋白质

人类基因组上已知大约有5万个基因，其中约2万个被标注为可以表达蛋白质的 “编码基因”，而另外3万个基因被标注为“非编码基因”(non-coding genes)。

除了部分非编码基因可以表达为小肽行使调控功能外，也有个别lncRNA被发现实际上能翻译成>50氨基酸的蛋白质，例如CLUU1、ESRG等。

问题是，如果这种情况不是个案而是普遍存在的现象，则确实存在部分“编码基因”被错误地标注成了“非编码基因”，这将意味着人基因组需要被系统性地重新注释——你研究的lncRNA，很可能是编码的。

因此，如何避免蛋白质组学质谱技术的固有缺陷，提供独立的蛋白质编码信息源，就显得非常重要。

2019年7月24日，暨南大学生命科学技术学院何庆瑜教授、张弓教授、王通教授团队在Nucleic Acids Research上发表题为：A hidden human proteome encoded by 'non-coding' genes 的研究论文。

该研究发现了约4700个人类“非编码基因”实际上可能翻译成蛋白质，并提供了其中314个由长链非编码RNA(lncRNA)表达的蛋白质证据。这些蛋白质不是小肽，而是含50个氨基酸以上的蛋白质，它们能稳定存在，并可以在癌症等病变中发挥重要作用。

由于这些蛋白质长期以来被人们认为不会存在，所以被称为“隐秘蛋白质组”（Hidden Proteome）。

已有的报道中，除了部分非编码基因可以表达为小肽行使调控功能外，也有个别lncRNA被发现实际上能翻译成>50氨基酸的蛋白质，例如CLUU1, ESRG等，问题是，如果这种情况不是个案而是普遍存在的现象，则确实存在部分“编码基因”被错误地标注成了“非编码基因”，这将意味着人基因组需要被系统性地重新注释——你研究的lncRNA，很可能是编码的。

事实上，这一问题很早就被学界关注过。2013年，Eric Lander等人仅仅根据Ribosome profiling计算模型认为lncRNA不可能编码蛋白质。

但仅仅一年后，该团队又发表文章，仅仅是调整了计算模型，认为lncRNA可能编码蛋白质，然而其始终拿不出蛋白质实验证据。

2014年，人类蛋白质组草图在Nature上发表，声称发现千余个lncRNA所编码的“新蛋白质”，但随后便被人类蛋白质组组织(HUPO)爆出其分析不合规范，存在大量的假阳性鉴定，在用较严格的标准进行质控后，这些所谓的“新蛋白质证据”几乎都被认定为假阳性。因此，如何避免蛋白质组学质谱技术的固有缺陷，提供独立的蛋白质编码信息源，就显得非常重要。

早在2012年，暨南大学张弓教授课题组首先研发了翻译组测序（RNC-seq，测序正在翻译的全长mRNA）。由于该项技术能准确监测翻译，精度比质谱高很多，可用于指导蛋白质组学，规避上面提到的问题，因此很快被作为人类蛋白质组计划的核心支柱之一，并在2014年被人类蛋白质组组织列为人类蛋白质组计划的首要突出贡献。

2013年，暨南大学团队便利用这一技术在肺癌细胞中发现了1397个有可能被翻译的“非编码RNA”（NucleicAcids Research 2013, 41, 4743），其中不少在肺癌细胞和正常细胞中存在着差异表达。

经过6年的继续探索，他们从9株人细胞系中共鉴定到约4700种lncRNA正在被翻译，且可能以经典翻译起始方式翻译出>50氨基酸的蛋白质。利用目前公认的验证标准，他们提供了其中314个新蛋白质的证据。这些蛋白质是稳定存在的，并且有着明确的细胞定位，功能实验也证实它们以蛋白质形式（而非以RNA形式）行使着明确的生物学功能。

事实上，这已不是他们第一次发现原先认为的“非编码RNA”能翻译成蛋白质。2018年，中山大学张弩副教授、暨南大学张弓教授等人便用翻译组测序技术，发现了人细胞内8000多个环状RNA可能翻译出蛋白质，颠覆了“只有极少数环状RNA才能翻译成蛋白质”的传统观念，并确证了其中一个蛋白质LINC-PINT具有明确的抑癌功能，显示了翻译组测序技术在寻找新蛋白方面的强大威力。

因此，翻译组测序为人类基因组的可能注释错误提供了大规模的校正的有效手段。

为何这些“新蛋白”长期以来一直被认为不存在？这是因为人类基因组的注释本来就是算法预测的结果，而任何算法预测都不会完全准确。通常来说，编码基因都有多个外显子，而且在进化上相对保守，于是算法就根据这两个“经验”进行判定。

但此次暨南大学团队发现的新蛋白，大部分只有一个外显子，而且进化上出现得非常晚，大量新蛋白只在灵长目才出现，连小鼠基因组中都没有。因此，算法可能错误地将这些编码基因归为了“非编码基因”。当然，这些新蛋白在转录、翻译、蛋白质各水平上表达量都较低，理化性质也比较特殊，因此也增加了检测的难度。

这些新蛋白有什么功能？但这些新蛋白从来就没有出现在人们的视野中，对其的功能预测也十分困难。研究团队通过序列准确预测了这些新蛋白的亚细胞定位，并得到了实验验证，从而引导了功能研究的大致方向。再通过翻译组测序数据的定量分析，进一步推测其功能。

由此，研究组选择了一个在肺癌细胞中翻译比率（Translation Ratio, TR，反映翻译起始效率）升高的“新蛋白”UBAP1-AST6进行功能实验，结果证明过表达这一新蛋白就会增强细胞的增殖能力和克隆形成能力，说明UBAP1-AST6这一新蛋白是一个癌基因。因此，它可能是肺癌发生发展的一个重要分子，而以前人们从来不知晓其存在！

而此次发现可能存在的新蛋白就有4700多个，这些新蛋白质可能含有与人类生理病理相关的重要分子，因而打开了一个新的人类蛋白质的宝库，开辟新的研究领域。

今后，再有人声称研究了一个“lncRNA”，首先就得证明它是不能被翻译为蛋白质。

论文链接：

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz646/5538014

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。