GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。目前,已经发表了超过1300多项GWAS研究,寻找到了6500个与疾病或性状相关的易感位点。但只有7%的位点落在蛋白编码区,而93%落在非编码区。对于SNPs在肿瘤中的贡献来说,如果一些生殖细胞突变发生在蛋白质编码区往往是非常有害和致死性的,这样可能直接导致携带者不能存活,所以这种形式可能不是主要的贡献方式。而发生在一些调控区的生殖细胞突变,可以在不同组织或阶段特异的引起基因表达渐微的变化,这可能是肿瘤易感位点SNPs在癌症整个进展中的主要贡献方式。大量研究表明非编码RNA在众多生命活动调控中扮演了越来越重要的角色
LncRNA文章统计3 中国第一篇10分以上的lncRNA文章是二军大孙树汉教授在肝癌领域上的研究——[Long non-coding RNA high expressed in hepatocellular carcinoma (lncRNA-HEIH) facilitates tumor growth through enhancer of zeste homolog 2. Hepatology, 2011]。从此开始,lncRNA高质量的文献不断被报道,逐渐被人关注起来,到了2015年已经达到了18篇,增速显著。
而这篇北京协和发表在Nature Genetics 的lncRNA文章更是创新性地把GWAS研究发现的SNP与lncRNA结合起来,阐明了长链非编码RNA上的易感SNP是如何在胰腺癌中起作用的。[Pancreatic cancer risk variant in LINC00673 creates a miR-1231 binding site and interferes with PTPN11 degradation. Nature Genetics,2016] 。我们知道如今GWAS研究的最大的局限在于如何精确的定义那些具有功能的SNPs,我们一方面严格定义p值的统计学意义,以期减少假阳性,另一方面我们又发现过分注重统计学阈值后又会遗漏那些真实具有功能的SNPs,而且往往那些显著的SNPs又大部分落在非编码区,很难解释其作用机理或者无法通过实验验证。而这篇文章最大的亮点在于部分地解决了这一个问题,当我们发现一些的落在非编码区的易感SNPs,那么我们可以观察SNP周围是否存在有lncRNA,考虑是否可能是通过影响lncRNA来发挥作用。这篇文章的故事大概是,首先通过先前的GWAS研究发现了33个显著(P ≤ 1 × 10?6)的胰腺癌易感SNPs。而通过整合分析又新发现坐落在LINC00673上的rs11655237是胰腺癌的一个易感位点。而这个SNP的突变位点产生,恰好形成了miR-1231的作用靶点,能使miR-1231竞争性地结合LINC00673。而LINC00673在胰腺癌中起到一个抑癌作用,这个SNP突变体起到减弱LINC00673的抑癌作用,从而阐明了这个易感SNP为什么会增加胰腺癌风险。文章的另一半工作则是阐明LINC00673是如何起到抑癌作用的,即做LINC00673的下游机制研究。通过机制实验证明了LINC00673与一些 “明星”分子或者肿瘤相关通路有作用,从而解释其机制。从思路上来讲整篇文章可以分为两个小故事,如果仅仅只阐明LINC00673作为一个新发现的抑癌lncRNA是如何起到抑癌作用的,那么就这个工作量最多只能发在Hepatology这类级别的杂志,而这篇文章之所以能发Nature Genetics,主要还是在于前半部分的创新性的机制探索——SNP的突变位点产生,形成了miR-1231的作用靶点(我们一般会考虑点突变会导致3’UTR上的miRNA结合位点失靶,极少反过来去想)。通过这样新颖的机制巧妙地阐明了这个易感SNP是如何通过LINC00673来发挥作用的。