2. 复旦大学义乌研究院 义乌 322000
2. Yiwu Research Institute, Fudan University, Yiwu 322000, Zhejiang Province, China
孟德尔随机化(Mendelian randomization,MR)是借助遗传变异(genetic variation)作为工具变量(instrumental variable,Ⅳ)来推断暴露因素与结局之间因果关联的方法,有效避免了反向因果关联和潜在混杂因素导致的偏倚。随着全基因组关联研究(genome-wide association study,GWAS)的增多,孟德尔随机化分析广泛应用于观察性流行病学研究中。传统孟德尔随机化分析方法,如逆方差加权法(inverse-variance weighted,IVW),假定所有的遗传变异均满足工具变量的3个核心假设[1]:(1)工具变量与暴露因素之间有强相关(关联性假设);(2)工具变量与混杂因素无关联(独立性假设);(3)工具变量只能通过暴露因素对结局产生作用,不能通过其他途径影响结局发生(排他性假设)。当工具变量存在多效性时,因果效应的估计则会有偏[2]。MR-Egger回归是在IVW的基础上修正而来的一种基于汇总数据的多工具变量孟德尔随机化方法。与IVW不同的是,该方法仅需满足工具变量多效性效应独立于工具变量与暴露因素之间的关联(instrument strength independent of direct effect,InSIDE)假设和无测量误差(no measurement error,NOME)假设,不如工具变量的3个核心假设要求严格。同时,该方法既能检测多效性又能校正多效性偏倚,所以在以多个遗传变异作为工具变量的研究中,采用MR-Egger回归能够保持孟德尔随机化方法的有效性。本研究将对MR-Egger回归进行阐述,并用此方法探索高密度脂蛋白胆固醇(high-density lipoprotein cholesterol,HDL-C)与冠状动脉疾病(coronary artery disease,CAD)之间的因果关联。
资料和方法基本原理 MR-Egger回归是由Bowden等[3]于2015年提出,广泛运用于采用多个单核苷酸多态性(single nucleotide polymorphism,SNP)作为工具变量进行因果推断的孟德尔随机化分析中,尤其适用于遗传变异存在定向多效性的情况。该方法的核心在于加权线性回归时考虑截距项的存在,利用截距项来衡量工具变量间平均多效性的大小,斜率则是因果效应的无偏估计。MR-Egger回归的效用取决于两个前提:第一,InSIDE假设要求SNP对暴露因素的影响独立于它们对结局的多效性影响,弱化了排他性假设;第二,NOME假设要求工具变量与暴露因素的关联中不存在测量误差,
记J个工具变量为Gj(j=1,2,…,J),暴露因素为X,结局为Y,工具变量Gj对暴露因素X和结局Y的效应估计值分别为
$ {\beta }_{{Y}_{j}}={\alpha }_{j}+\theta {\beta }_{{X}_{j}} $ |
其中,αj表示工具变量Gj对结局Y的直接影响,当αj≠0时,工具变量具有多效性;θ表示暴露因素X对结局Y的影响;
对于满足工具变量所有假设的单一遗传变异Gj(αj = 0),暴露因素X对结局Y的因果效应可被一致性地估计为关联估计的比值,比值及相应的标准误分别为:
由于MR-Egger回归并没有限制截距项为0,回归方程可表示为:
$ {\widehat{\beta }}_{{Y}_{j}}={\theta }_{0E}+{\theta }_{E}{\widehat{\beta }}_{{X}_{j}}+{\epsilon }_{{E}_{j}}, {\epsilon }_{{E}_{j}} \sim N\left(0, {\sigma }^{2}{\sigma }_{{\widehat{\beta }}_{{Y}_{j}}}^{2}\right) $ |
其中,权重为
$ {\widehat{\theta }}_{E}=\mathrm{c}\mathrm{o}\mathrm{v}\left({\widehat{\beta }}_{{Y}_{j}}, {\widehat{\beta }}_{{X}_{j}}\right)/\mathrm{v}\mathrm{a}\mathrm{r}\left({\widehat{\beta }}_{{X}_{j}}\right) $ |
当InSIDE假设和NOME假设均满足时,
$ \mathrm{v}\mathrm{a}\mathrm{r}\left({\widehat{\beta }}_{{X}_{j}}\right)=\mathrm{v}\mathrm{a}\mathrm{r}\left({\beta }_{{X}_{j}}\right)={\sigma }_{{\beta }_{{X}_{j}}}^{2} $ |
$ E\left[\mathrm{c}\mathrm{o}\mathrm{v}\left({\widehat{\beta }}_{{Y}_{j}, }{\widehat{\beta }}_{{X}_{j}}\right)\right]=E\left[\mathrm{c}\mathrm{o}\mathrm{v}\left({\widehat{\beta }}_{{Y}_{j}, }{\beta }_{{X}_{j}}\right)\right]=\theta \mathrm{v}\mathrm{a}\mathrm{r}\left({\beta }_{{X}_{j}}\right)=\theta {\sigma }_{{\beta }_{{X}_{j}}}^{2} $ |
$ E\left[{\widehat{\theta }}_{E}\right]=\theta {\sigma }_{{\beta }_{{X}_{j}}}^{2}/{\sigma }_{{\beta }_{{X}_{j}}}^{2}=\theta $ |
若满足InSIDE假设但不满足NOME假设,因果效应估计值则会有偏:
$ {\widehat{\theta }}_{E}\approx \theta \frac{\mathrm{v}\mathrm{a}\mathrm{r}\left({\beta }_{{X}_{j}}\right)}{\mathrm{v}\mathrm{a}\mathrm{r}\left({\widehat{\beta }}_{{X}_{j}}\right)}=\theta \frac{{\sigma }_{{\beta }_{{X}_{j}}}^{2}}{{\sigma }_{{\beta }_{{X}_{j}}}^{2}+{s}^{2}} $ |
其中,
IVW法是由Burgess等[2]于2013年提出的一种加权线性回归模型。与MR-Egger回归不同,该方法限制回归直线通过原点,将两个或多个SNP的效应值进行整合,因果效应估计值为:
$ {\widehat{\theta }}_{ivw}=\frac{{\sum }_{j=1}^{J}V{\left({\widehat{\beta }}_{{Y}_{j}}\right)}^{-1}{\widehat{\beta }}_{{Y}_{j}}{\widehat{\beta }}_{{X}_{j}}}{{\sum }_{j=1}^{J}V{\left({\widehat{\beta }}_{{Y}_{j}}\right)}^{-1}{\left({\widehat{\beta }}_{{X}_{j}}\right)}^{2}} $ |
实例分析 HDL-C资料来自全球脂质遗传学(Global Lipids Genetics Consortium,GLGC)数据库(http://csg.sph.umich.edu/willer/public/lipids2013/),该数据库中有关基因位点与HDL-C的GWAS研究结果发表于2013年,该研究样本量为94 595人,分析了2 418 527个与HDL-C相关的SNP位点[7]。与HDL-C相关的SNP筛选标准:(1)达到全基因组统计显著性水平,即P < 5×10-8;(2)去除连锁不平衡(linkage disequilibrium,LD)的SNPs,排除标准为r2 > 0.01,
本研究针对HDL-C和CAD选取有效SNP作为Ⅳ,经筛选确定了120个SNP作为Ⅳ,表 1列出了前10个SNP的相关信息。采用MR-Egger回归和IVW法估计因果效应(表 2)。IVW结果支持HDL-C和CAD之间存在因果关系(OR=0.82,95%CI:0.75~0.89),且HDL-C每增加1个标准差,CAD风险降低18%。而MR-Egger法不支持(OR=0.96,95%CI:0.83~1.11),即HDL-C对CAD的发生风险没有影响。多效性检验结果显示,MR-Egger回归的截距为-0.01,P=0.008,说明因果分析结果会受到水平多效性的影响。在水平多效性存在的情况下,传统孟德尔随机化方法IVW的估计出现了偏差,MR-Egger回归则能识别并校正多效性,给出接近真实值的因果估计。敏感性分析结果见图 1,所有线条均在0的左侧,说明无论去除哪个SNP都不会对结果产生根本影响,即孟德尔随机化的结果稳健。
SNP | Chr | BP | EA | non-EA | HDL-C | CAD | |||||
β | SE | P | β | SE | P | ||||||
rs10019888 | 4 | 26,062,990 | G | A | -0.03 | 4.60×10-3 | 4.90×10-8 | 8.68×10-3 | 9.45×10-3 | 0.36 | |
rs1007076 | 15 | 63,413,371 | C | T | 0.03 | 4.10×10-3 | 4.43×10-9 | -7.21×10-3 | 8.35×10-3 | 0.39 | |
rs10087900 | 8 | 144,303,418 | A | G | -0.02 | 3.60×10-3 | 2.17×10-9 | -1.96×10-3 | 7.01×10-3 | 0.78 | |
rs102275 | 11 | 61,557,803 | C | T | -0.04 | 3.50×10-3 | 6.40×10-28 | -1.61×10-2 | 7.30×10-3 | 0.03 | |
rs10468017 | 15 | 58,678,512 | T | C | 0.12 | 3.80×10-3 | 1.21×10-188 | 2.61×10-2 | 7.69×10-3 | 6.80×10-4 | |
rs1047891 | 2 | 211,540,507 | A | C | -0.03 | 3.90×10-3 | 8.73×10-10 | -1.43×10-2 | 7.45×10-3 | 0.06 | |
rs10501321 | 11 | 47,294,626 | C | T | 0.05 | 3.60×10-3 | 3.54×10-38 | 3.38×10-3 | 7.40×10-3 | 0.65 | |
rs10761771 | 10 | 65,230,164 | C | T | 0.02 | 3.40×10-3 | 4.12×10-9 | 1.32×10-3 | 6.97×10-3 | 0.85 | |
rs1077834 | 15 | 58,723,479 | C | T | 0.13 | 4.10×10-3 | 7.76×10-180 | 2.10×10-2 | 8.34×10-3 | 0.01 | |
rs10808546 | 8 | 126,495,818 | T | C | 0.04 | 3.40×10-3 | 4.11×10-30 | -0.05 | 7.06×10-3 | 2.70×10-11 |
nSNP | b | SE | OR | 95%CI | P | |
MR-Egger | 120 | -0.04 | 0.07 | 0.96 | 0.83-1.11 | 0.56 |
IVW | 120 | -0.20 | 0.04 | 0.82 | 0.75-0.89 | 5.67×10-6 |
![]() |
MR leave-one-out sensitivity analysis for "Ⅱ id: ebi-a-GCST002223" on "Coronary artery disease Ⅱ id: ebi-a-GCST005195". 图 1 逐个剔除检验 Fig 1 Leave-one-out sensitivity analysis |
早期孟德尔随机化研究倾向于使用单一遗传变异,并集中在单一研究人群中的特定危险因素与疾病的关联研究。近年GWAS中大量增长的基因型-表型关联导致众多暴露因素的大量遗传变异被识别出来[9]。许多遗传变异被认为具有多效性效应,要证明排他性假设的成立几乎不可能。MR-Egger回归区别于传统孟德尔随机化方法之处在于放宽了SNP之间不存在水平多效性的要求,它假设在基因-暴露关联和基因变异对结果的直接影响之间没有相关性,是比更严格的排他性标准更弱的要求,即使所有工具变量是无效的,MR-Egger回归也能得到准确的因果效应估计[10]。因此,在工具变量存在多效性的情况下,MR-Egger回归是一个更好的选择。
本研究借助GLGC数据库和Van Der Harst的GWAS统计结果,提取与HDL-C和CAD均密切相关且相互独立的SNP作为工具变量,利用MR-Egger回归和IVW法进行两样本孟德尔随机化分析,估计HDL-C和CAD的因果关联并进行比较。IVW结果显示两者之间具有因果关系,HDL-C对于CAD有保护作用,但IVW法假设截距为0,未考虑所纳入的工具变量的基因多效性;而MR-Egger回归并不局限于截距为0,是在IVW基础上的修正,同时考虑基因多效性对结果的影响,因此给出了并不一致的估计结果,即HDL-C与CAD之间不存在因果关联,与以往孟德尔随机化研究结果相吻合[11]。随后的逐一剔除检验显示MR-Egger结果更具有稳健性。因此,MR-Egger回归在孟德尔随机化分析中有较好的应用价值。
与传统孟德尔随机化方法相比,MR-Egger回归的偏倚更小,而且因果无效假设的排斥率更接近名义上的5%[3]。MR-Egger回归的局限性是它在因果估计方面的统计效力较低。如果没有证据表明IVW和MR-Egger之间存在系统性差异,那么通常采用IVW,虽然IVW可能不那么稳健,但在此情况下,IVW估计值的精度更高。有研究者指出MR-Egger回归应被视为一种敏感性分析,用来检验是否违反工具变量假设,而不是作为上述更常见方法的替代[12]。实际应用时应结合多种方法的结果进行综合考量,如果多种方法的结果一致,则结论更为可靠,从而更好地应用于传统观察性流行病学研究,为病因推断提供更强有力的证据,并有利于为未来疾病预防的干预目标设定优先级。
作者贡献声明 徐艺耘 查阅文献,论文构思、撰写和修订,数据统计分析。刘振球,樊虹,张欣,施婷婷,吴声 结果解释,论文修改。张铁军 论文构思、指导和修订。
利益冲突声明 所有作者均声明不存在利益冲突。
[1] |
GREENLAND S. An introduction to instrumental variables for epidemiologists[J]. Int J Epidemiol, 2000, 29(4): 722-729.
[DOI]
|
[2] |
BURGESS S, BUTTERWORTH A, THOMPSON SG. Mendelian randomization analysis with multiple genetic variants using summarized data[J]. Genet Epidemiol, 2013, 37(7): 658-665.
[DOI]
|
[3] |
BOWDEN J, DAVEY SMITH G, BURGESS S. Mendelian randomization with invalid instruments: effect estimation and bias detection through Egger regression[J]. Int J Epidemiol, 2015, 44(2): 512-525.
[DOI]
|
[4] |
SPILLER W, DAVIES NM, PALMER TM. Software application profile: mrrobust-- a tool for performing two-sample summary Mendelian randomization analyses[J]. Int J Epidemiol, 2019, 48(3): 684-690.
[DOI]
|
[5] |
BURGESS S, THOMPSON SG. Interpreting findings from Mendelian randomization using the MR-Egger method[J]. Eur J Epidemiol, 2017, 32(5): 377-389.
[DOI]
|
[6] |
BOWDEN J, GRECO M FDEL, MINELLI C, et al. Assessing the suitability of summary data for two-sample Mendelian randomization analyses using MR-Egger regression: the role of the I2 statistic[J]. Int J Epidemiol, 2016, 45(6): 1961-1974.
[URI]
|
[7] |
WILLER CJ, SCHMIDT EM, SENGUPTA S, et al. Discovery and refinement of loci associated with lipid levels[J]. Nat Genet, 2013, 45(11): 1274-1283.
[DOI]
|
[8] |
HARST PVAN DER, VERWEIJ N. Identification of 64 novel genetic loci provides an expanded view on the genetic architecture of coronary artery disease[J]. Circ Res, 2018, 122(3): 433-443.
[DOI]
|
[9] |
DAVEY SMITH G, PATERNOSTER L, RELTON C. When will Mendelian randomization become relevant for clinical practice and public health?[J]. JAMA, 2017, 317(6): 589.
[DOI]
|
[10] |
HARTWIG FP, DAVIES NM. Why internal weights should be avoided (not only) in MR-Egger regression[J]. Int J Epidemiol, 2016, 45(5): 1676-1678.
[DOI]
|
[11] |
WHITE J, SWERDLOW DI, PREISS D, et al. Association of lipid fractions with risks for coronary artery disease and diabetes[J]. JAMA Cardiol, 2016, 1(6): 692.
[DOI]
|
[12] |
HAYCOCK PC, BURGESS S, WADE KH, et al. Best (but oft-forgotten) practices: the design, analysis, and interpretation of Mendelian randomization studies[J]. Am J Clin Nutr, 2016, 103(4): 965-978.
[DOI]
|