打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基因研究的王朝更迭

作者:Elie Dolgin

编译:麦子

转载请注明:解螺旋·临床医生科研成长平台


从前,有一个软件工程师叫Peter Kerpedjiev,学过一点生物信息,准备念PhD了。他想,我只有信息没有生物啊,貌似跟师兄师姐说话和隔壁妹子搭讪都开不了口呢,要是有一点关于生物的知识就好多了嘛。“如果我要聊个天,应该了解哪个基因比较好呢?”当然越大众的基因就能搭讪越多的同行嘛。

于是他直接来了个大数据。攻城狮的思路果然够直接。

多年以来,美国国家医学图书馆(NLM)都在系统地为PubMed上的几乎每篇关于基因的文章做标签,标记各个基因是干啥的。Kerpedjiev写了个python程序,提取了所有描述某个基因或其编码的蛋白的结构、功能、位点的文章来分析。

分选整理过这些文章之后,他得到一个清单,列出了历来获得最多研究关注的基因——类似“人类基因组排行榜”之类的东西,还有几个其他生物的基因组。

他终于知道,夺得头魁的是一个叫TP53的基因。他3年前刚开始做这个分析时,已经有大约6600篇文章对这个基因或它编码的p53蛋白做了详细地报道。到现在,文章数量飙到了8500,还在持续上升。也就是说,平均每天就会发表2篇文章来给TP53的生物学形象添加一些新的细节。

如果小攻城狮Kerpedjiev现在就急着去跟生物学的小伙伴说:“快看快看,最火爆的基因是TP53耶!”他得到的回应想必是:“哦。”

这对生物学家来说又不是什么大新闻了。它是个肿瘤抑制基因嘛,被广誉为“基因组卫士”,在大约一半的人类癌症中它都发生了突变。约翰霍普金斯大学的癌症遗传学家Bert Vogelstein说,“这正反映了它的威望,在癌症中没有哪个基因比它更重要了。”

所以,要搭个有质量的讪,还得懂得更多啊。

果然,他从榜单上还发现了一些有意思的事情。有些基因曾经大红大紫,但技术升级之后它们便过气了。现在Kerpedjiev已经在哈佛做基因组数据可视化的博士后研究了,他说这榜单上有些基因还在预料之中,有些则完全意想不到呐。

为了深度挖掘,Nature与Kerpedjiev展开了合作,得到下图The Top 10的结果。这个用来做搭讪开场白简直太豪华了!它展示了生物研究上很重要的潮流信息,人们对特定疾病和公共卫生问题的关心是如何扭转了各基因间的研究格局。还有几个基因简直是职业跨界选手,在各领域、各疾病中都能看到它们的身影!

在人类基因组中大约20000个编码蛋白质的基因里,只有100来个基因占领了NLM标记的研究的1/4。有上千个基因在任何年份里都得不到什么研究。剑桥大学的科技史学家Helen Anne Curry说,“这就说明,我们所知甚少,正是因为我们不愿去研究。”

潮起潮落

在2002年时,第一个人类基因组草图刚发表,NLM便开始系统地给文章添因“GeneRIF标签”,即gene reference into function。它的注释能回溯到上世纪60年代,有时候还援引其他数据库来补充细节。

这不算是完美的档案管理办法,NLM的研究员Terence Murphy说,总体上看这数据集是有噪点的。他还提醒,或许2002年以前的文章采样会有偏倚。这意味着,有些基因可能代表性被夸大了,而其他的又被忽略了。“但还不算糟糕,”他说,“如果你集中观察好几种基因,就有可能减少这种偏畸。”

有了这层警觉,我们再来看看PubMed的记录。在几个特别的历史时期,基因相关文章似乎会关注某些热门研究话题,见下图。比如20世纪80年代中期以前,多数遗传学研究都集中在血红蛋白,即红细胞中载氧的分子。1985年以前关于人类遗传学的所有文章中,超过10%都在某种程度上和它有关。

那时候,人们还在Linus Pauling和Vernon Ingram的早期工作基础上作文章,他们是生物化学泰斗,从分子层面研究疾病的先驱,在四五十年代发现了异常血红蛋白是如何导致镰状细胞病的。

分子生物学家Max Perutz获得了1962年的诺贝尔化学奖,正是因为他制作出了血红蛋白的3D结构图,接下来几十年中,他都在继续研究其结构与功能是如何相关联的。

NIH的医学研究员和高级历史顾问Alan Schechter说,“血红蛋白基因打开了理解一种分子疾病之门,或许还提示了治疗之道,在当时比任何其他基因的贡献都多”。

Schechter自己就是一位镰状细胞病的研究者,他说这样的基因在七八十年代,无论大型遗传学会议还是血液病会议上,都是话题的焦点。但后来研究者们有了新的技术来做DNA的测序和操作,他们便扬尘向前,关注其他基因和疾病了,包括当时男性同性恋者中神秘盛行的一种感染性疾病。

即便在1983年发现HIV是AIDS的病源体之前,临床免疫学家们,比如David Klatzmann就注意到这些患者中一种特殊的模式。Klatzmann现在在巴黎居礼大学,他回忆说:“我就奇怪了为什么那些人没有T4细胞。”他用细胞培养实验展示了HIV似乎选择性地感染并摧毁这些细胞。问题是,这些病毒是怎么跑到细胞里的呢?

Klatzmann推断,这类细胞的表面蛋白(后来称为CD4)也许是HIV进入细胞的受体。他是对的,1984年12月他发表了这项报告,同时发表的还有伦敦癌症研究所的分子病毒学家Robin Weiss的相似研究。

3年内,CD4便荣登生物医学研究的榜首,从1987到1996年近十年的长时间续航,占据NLM所有标签的1-2%。

这些关注度部分来自人们要镇压AIDS危机的热情。美国国家癌症中心研究所的AIDS和癌症病毒项目主任Jeffrey Lifson介绍说,到80年代后期,有好几家公司在尝试用工程改造的治疗型CD4来扫荡HIV。但小样本的人体试验证明并没有用。

然而CD4之所以得到这么多关注,更重要的原因在于它对基础免疫学的贡献。1986年,研究者们意识到表达CD4的T细胞还能分成两种,一种能清除感染细胞的细菌和病毒,另一种则与寄生虫作斗争,如蛔虫,它不必侵犯细胞就能致病。

纽约大学医学院的免疫学家Dan Littman回忆说,“那真是段激情燃烧的岁月,因为我们知道的真的很少。”就在1985年,他刚参与发表了一篇克隆编码CD4蛋白的DNA的研究,这又给人们点亮了一大拨可以研究的蛋白。

十年后,Littman还和同事共同领导了三个合作研究组之一,报道了HIV进入细胞还有除CD4以外的另一个受体,CCR5蛋白。这俩蛋白,加上另一个共受体CXCR4,一直以来都吸引了全球HIV研究的极大关注,要阻止HIV进入细胞(不过现在还没实现)。

昙花一现

90年代早期,TP53已经崛起。不过在它登顶之前,有这么几年里,一个不那么著名的叫GRB2的基因,也曾经出现在聚光灯下。

那时研究者们开始鉴定细胞交流间发生的特定蛋白质相互作用关系。这要感谢细胞生物学家Tony Pawson的前驱工作,让研究者们知道有些小的细胞内蛋白含有一种功能模块叫SH2,它能与细胞表面的活性蛋白结合,并向细胞核传递信号。

1992年,耶鲁大学医学院的生物化学家Joseph Schlessinger报道了GRB2编码的蛋白质,生长因子受体结合蛋白2,就是它们的接头的地点。它包含SH2模块和两个结构域能激活参与细胞生长及生存的蛋白,Schlessinger说,它就是个分子媒介。

其他研究者迅速涌来填坑,打开了研究信号转导的新世界。尽管当时还有很多关于细胞信号的其他东西得到挖掘(那些东西后来引领了癌症冶疗、自身免疫障碍、糖尿病、心血管病等研究),在90年代后三年里,GRB2仍然雄居榜首。

部分原因是,GRB2是第一个发现的信号转导两端瀑式反应的生理连接点。圣迭戈大学的生物化学家Peter van der Geer说,进一步讲,它参与了细胞调控中的很多项事务呢。

现在GRB2在大多数研究领域里都游走在外围,它不是疾病的直接原因,也不是药物靶点,也怪不得聚光灯来了一下就走了。卡罗琳斯卡研究所及居礼大学的Thierry Soussi说,“你会看到一些新星快速殒落,正因为没什么临床价值”。Soussi研究TP53很长时间了。

基因要获得强续航能力,通常都得有点治疗潜力,能吸引基金资助,Soussi说,“让基因跟临床价值挂钩对它的发展来说非常重要。”

除了治疗,也可以跟其他属性挂钩,比如它的表达水平,以及在不同人群及结构特征中变异有多少等等。这来自芝加哥西北大学的系统生物学家Thomas Stoeger的另一项分析。本月在德国海德堡的一个会议上,Stoeger报告称,他可以预测哪个基因能获得最多关注,方法就是把这些属性丢到一个算法模型中去计算。

Stoeger认为这些相关性背后的原因大大压榨了基因被发现的潜能。火爆的基因恰能被当时的最新工具探测到,这样研究某些基因就比另一些基因容易得多,可能导致大量基因未被发现,未被开采,在人类健康与疾病的知识上留下一道天堑。

正确的时间,正确的地点

Stoeger还追踪了火爆基因的一般特征在公众视野中是怎么变化的。比如80年代,研究者们极大地关注细胞外蛋白质的基因,大概是因为这些蛋白质最容易分离、研究。只是在最近,关注点才转移到细胞内蛋白的基因。

这种转变是伴随着人类基因组成果发表而发生的,Stoeger说。这可能带起更大一批值得研究的基因。

然而研究最多的那些基因,大多数都没落在这个浪潮里。比如TP53,它是在细胞核中活跃的。然而TP53早在2000年前后就成为最火爆基因了。它也跟生物研究中许多热门基因一样,刚发现之后没能得到恰当的理解,1979年描述了它编码的蛋白,又过了几十年,这个基因才登顶。

最初,癌症研究者们误以为它是个原癌基因,一旦突变就会引发癌症。直到1989年,Vogelstein实验室的研究生Suzanne Baker报道称它是个抑癌基因。从那时起,该基因的功能研究才慢慢走上主流。

Baker说,你可以看到发表数量趋势图上,那个时间点上有一道高高扬起的锚记,说明当时真的有很多很多人对它感兴趣。Baker现在是田纳西州圣犹大儿童研究医院的脑肿瘤研究员。

对人类癌症的研究也将科学家们带向TNF,仅次于TP53,在NLM中有超过5300的引用量(见下图)。它编码的蛋白是肿瘤坏死因子,1975年得名于它杀死癌细胞的能力。但后来发现TNF的主要业务还不是抗肿瘤。在体实验中发现,TNF蛋白的治疗型具有高度毒性。

原来,这个基因是一种炎症介质,它对肿瘤的效应倒是次要的。80年代搞明白这事之后,研究注意力马上转移到测试能阻断其活性的抗体。现在,抗TNF疗法是治疗炎症性疾病如风湿性关节炎的骨干力量,每年全球范围内销售额共有上百亿美元。

范斯坦医学研究所的神经外科及免疫学家Kevin Tracey说,这就是个很好的例子,关于基因及基因产物的知识是如何改变了健康研究的世界。

TP53的王者地位也曾经被另一个基因APOE轻轻动摇过。APOE蛋白最初是作为清除血中胆固醇的转运体,在1970年被发现的。加州大学旧金山分校的Rober Mahley是本研究领域的先驱,他说APOE蛋白当时被“严肃认真地认为”是降低血脂、预防心脏病的正确姿势,他也在兔子实验中做了测试。

最终,80年代末有人制造出了他汀,从而将这条策略打趴,扔进了药企历史的垃圾堆。但那时,又有神经科学家Allen Rose和同事们发现,APOE蛋白跟阿尔兹海默病(AD)患者大脑中棘手的斑块有结合。他们在1993年报道了APOE的一种特定亚型APOE4,与该病风险大增相关。

这又为该基因赢来了更广泛的关注。当然,它也花了很多时间来登上“最火爆排行榜”的可见位置。“收效惊艳呀,”Ann Sounders回忆说。她是卡罗莱纳Zinfandel制药公司的神经遗传学家和CEO,当年与Roses合作,后来结婚。

当时淀粉样蛋白学说盛行,认为淀粉样蛋白β要为阿兹海默病负责,而少数研究者似乎很想看看一个胆固醇转运蛋白跟AD能有什么关系,不过最终APOE4与AD的联系似乎无可辩驳。Mahley说,2001年,APOE短暂地压倒过TP53。后来它一直排名前五,至少在人类基因组中是这样。

人类和其他物种的基因组研究量对比

像其他流行基因一样,APOE之所以被大量研究,是因为它跟当前一个极大的未解决的健康问题相关。此外,还有个重要原因是抗淀粉样蛋白疗法在临床试验中纷纷铩羽。Mahley说,“抱歉但不得不说,那些失败的研究帮助了我。”今年他的公司E-Scape Bio斩获了6300万美元来开发APOE4蛋白的靶向药。那些失败的研究也迫使基金机构重新考虑治疗AD的策略。

这就让我们看到一种敝端:任何基因想要提高可见度,都需要有生物学、社会压力、商业机遇和医学需求的交汇,而一旦它爬上了天梯,就进入了“保守主义”的势力范围。由此,某些基因就会成为安全筹码,一直获得很多的关注,直到更强大的新局面出现。英国利兹大学的科技史学家Gregory Radick解释说。

现在问题是,趋势还会如何变化?还会有什么样的新发现能将一个基因送入榜单前列,将现在的头牌基因打下王座?

原文:

The most popular genes in the human genome

https://www.nature.com/articles/d41586-017-07291-9

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Nature:人类基因组中最“热门”基因TOP10
《Nature》长文:人类基因组中有史以来研究最多的十大基因
2022年7月Cell期刊精华
想赶上基因研究的潮流,先看看哪些是热门
【960】四分之一世纪的ApoE与AD研究
Nature聚焦p53与癌症表观遗传
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服