一、理论:单个基因区域 vs 多个基因区域
遗传变异可以简单分为两种:单个基因区域的变异体 和 基因组多个区域的变异体(多基因分析)。在MR研究中,我们需要做出选择,那么选择的依据是什么呢?
单个基因区域的变异体具有特异性(优势)——如果一个基因区域与暴露有特定的生物学联系,那么MR在评估特定暴露的因果关系方面更合理。然而,如果分析中只包括一个基因区域,则不能使用后续稳健的统计学分析方法,因为它们在变异体是否违反工具变量假设方面的独立条件需要明确,这是单个基因区域的变异体的劣势。
相比之下,基因组多个区域的变异体与暴露之间因果关系的特异性差,但其优势在于统计学功效更强。可以这么理解:同一基因组的多个区域的变异体可能全部是有效工具或全部无效,当都是有效工具时,遗传变异体可以解释暴露中最大比例的变异,统计学功效也就相应增大。因此,多基因MR研究的统计学功效通常超过仅包括单个基因区域的变异体的研究。
二、举例
我们来解析一下这篇发表于BMJ研究(详见参考文献)是如何选择遗传变异的。该部分主要回答两个问题:1.这个研究为什么要选择基因组多个区域的变异体;2.针对基因组多个区域的变异体,该研究做了哪些分析?
1. 这个研究为什么要选择基因组多个区域的变异体?
既往研究显示,肥胖的遗传易感性与多种遗传变异相关,单个遗传变异对肥胖的影响较小,肥胖的遗传易感性可能是由众多变异的累积效应造成的。因此,本研究选择了基因组多个区域的变异体,量化加权等位基因得分作为工具变量。
2. 针对基因组多个区域的变异体,该研究做了哪些分析?
证实相关性假设:为了得到哪些遗传变异与BMI相关,研究人员下载了GWAS数据后,筛选出P<5×10-8的SNP,共77个,其中两个SNP(rs12016871和rs2033732)未在HUNT研究中获得,因此纳入了75个SNP。
证实独立性假设:为了评估上述75个SNP与协变量的关联,研究人员进一步排除了与潜在协变量相关的SNP(方法是bonferroni校正,阈值是p <6.7×10-4,即0.05除以75)。发现2个SNP与吸烟有关(rs13021737和rs16951275),因此被剔除,随后纳入73个SNP开展进一步的分析。
计算加权等位基因得分:剩下73个遗传变异都被编码为0、1或2,对应于效应等位基因(定义为bmi增加等位基因)的拷贝数。定义个体i的加权等位基因得分为:
下一期,我们将继续以此参考文献为例,解读其“遗传变异的调整”。
大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话”栏目中提出,我们会尽快回复!
参考文献
2. Khera AV, Chaffin M, Wade KH, Zahid S, Brancale J, Xia R, Distefano M, Senol-Cosar O, Haas ME, Bick A, Aragam KG, Lander ES, Smith GD, Mason-Suares H, Fornage M, Lebo M, Timpson NJ, Kaplan LM, Kathiresan S. Polygenic Prediction of Weight and Obesity Trajectories from Birth to Adulthood. Cell. 2019 Apr 18;177(3):587-596.e9. doi: 10.1016/j.cell.2019.03.028. PMID: 31002795; PMCID: PMC6661115.
联系客服