徐州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(221004) 高一欣 曾 平 趙華碩
【提 要】 目的 研究?jī)蓸颖久系聽栯S機(jī)化(mendelian randomization,MR)分析中性別特異工具變量對(duì)因果效應(yīng)估計(jì)的影響。方法 利用全基因組關(guān)聯(lián)數(shù)據(jù)以乳腺癌作為結(jié)局,以人體測(cè)量學(xué)性狀(身體質(zhì)量指數(shù)(BMI)、腰臀比(WHR)、腰圍(WC)和臀圍(HIP))作為暴露,采用兩樣本MR逆方差加權(quán)法估計(jì)因果效應(yīng);通過差異檢驗(yàn)比較使用女性特異工具變量與性別合并工具變量的因果效應(yīng)(OR值);進(jìn)一步通過敏感性分析驗(yàn)證結(jié)果的穩(wěn)健性。結(jié)果 使用性別合并工具變量的MR結(jié)果表明BMI/WC與乳腺癌風(fēng)險(xiǎn)存在因果關(guān)聯(lián)(OR值分別為0.85(P=0.003)和0.87(P=0.020));剔除性別差異的工具變量后,每組OR值與未剔除前基本一致,但WC與乳腺癌的因果關(guān)聯(lián)不再顯著(P=0.069);使用女性特異工具變量的MR結(jié)果與使用性別合并工具變量結(jié)果相比,每組OR值均呈下降趨勢(shì);其中BMI/HIP與乳腺癌的因果關(guān)聯(lián)效應(yīng)大小發(fā)生了明顯改變(P<0.05);例如BMI與乳腺癌因果關(guān)聯(lián)的OR值由0.85下降至0.76。結(jié)論 工具變量的性別異質(zhì)會(huì)對(duì)MR的因果效應(yīng)估計(jì)產(chǎn)生實(shí)質(zhì)影響,使用性別合并的工具變量可能導(dǎo)致有偏的因果關(guān)聯(lián)。
眾所周知,觀察性研究中無論采用何種研究設(shè)計(jì)都難以避免眾多已知或未知的混雜因素,從而會(huì)對(duì)因果推斷的效應(yīng)估計(jì)產(chǎn)生偏倚[1-2]。孟德爾隨機(jī)化(mendelian randomization,MR)方法為解決這一問題提供了行之有效的途徑;MR利用遺傳變異作為工具變量估計(jì)暴露與結(jié)局之間的因果關(guān)聯(lián)[3]。為確保MR的有效性,工具變量需滿足三個(gè)核心假設(shè)[4]:(1)與暴露密切相關(guān);(2)與任何影響暴露和結(jié)局的混雜因素不相關(guān);(3)只能通過暴露影響結(jié)局,即不存在任何多效性效應(yīng)。過去十幾年來大規(guī)模全基因組關(guān)聯(lián)研究(genome-wide association study,GWAS)已發(fā)現(xiàn)大量單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點(diǎn)與數(shù)百種復(fù)雜疾病或性狀(如血脂[5]、身體質(zhì)量指數(shù)(body mass index,BMI)[6]、吸煙[7]和飲酒[8])存在關(guān)聯(lián)[9],使得研究者能直接從GWAS中選擇合適的SNP作為某種暴露的遺傳工具變量[10-11]。
由于數(shù)據(jù)共享和隱私等限制,個(gè)體水平的GWAS數(shù)據(jù)不易獲取,實(shí)際中往往利用相同群體的兩個(gè)獨(dú)立GWAS匯總數(shù)據(jù)探索暴露與結(jié)局的因果關(guān)聯(lián),即所謂兩樣本MR(two-sample mendelian randomization)[11-12]。另外,由于單個(gè)工具變量所能解釋的遺傳方差極其有限,為提高M(jìn)R的檢驗(yàn)效能往往使用多個(gè)獨(dú)立的工具變量,然后采用類似meta分析的逆方差加權(quán)法(inverse-variance weighted,IVW)合并單個(gè)工具變量的因果效應(yīng)估計(jì)值從而獲得最終的效應(yīng)估計(jì)[13-14]??傮w而言,兩樣本MR簡(jiǎn)單且易于實(shí)施,為流行病學(xué)觀察性研究因果推斷提供了強(qiáng)有力的統(tǒng)計(jì)工具。
然而,實(shí)際中兩樣本MR分析依然面臨諸多應(yīng)用和方法上的挑戰(zhàn)。首先,兩樣本MR要求暴露與結(jié)局的GWAS樣本互不重疊,否則會(huì)產(chǎn)生有偏的因果效應(yīng)估計(jì)[15]。其次,暴露與結(jié)局的GWAS人群應(yīng)具有相似的種族特征,如均來自歐洲或亞洲人群[16]。除此之外,對(duì)某些特殊疾病(如女性乳腺癌,男性乳腺癌僅占約1%不在本文討論之列),其暴露的工具變量會(huì)出現(xiàn)性別異質(zhì)性(sex heterogeneity)問題。理論上,當(dāng)采用兩樣本MR估計(jì)某些暴露因素(如BMI)與乳腺癌的因果關(guān)聯(lián)時(shí),從暴露GWAS中獲取的工具變量效應(yīng)大小理應(yīng)是女性特有的。大量的GWAS曾報(bào)道很多人體測(cè)量學(xué)性狀的遺傳結(jié)構(gòu)存在性別差異(表1);例如,研究者在多個(gè)與肥胖相關(guān)的基因座上發(fā)現(xiàn)了性別差異,其中大多數(shù)與腰臀比(waist-to-hip ratio,WHR)相關(guān)的SNP在女性中呈現(xiàn)出比男性更強(qiáng)的效應(yīng)[17-19]。然而,很多研究者在面對(duì)類似問題時(shí)往往簡(jiǎn)單忽略工具變量性別異質(zhì)性,這很可能會(huì)產(chǎn)生錯(cuò)誤的因果推斷結(jié)果[12,20]。另外,實(shí)際中GWAS協(xié)作組并沒有公開發(fā)布性別相關(guān)的匯總數(shù)據(jù)而僅有男女混合的匯總數(shù)據(jù),因此研究者不得不采用男女混合的工具變量。需要注意的是,這一問題是基于匯總數(shù)據(jù)的兩樣本MR分析,由于數(shù)據(jù)的可獲得性而特有,在個(gè)體水平數(shù)據(jù)的因果推斷分析中不存在。在這種情況下,應(yīng)用者仍需對(duì)工具變量性別異質(zhì)性可能產(chǎn)生的因果估計(jì)偏倚做出說明并進(jìn)行敏感性分析。
表1 GWASs報(bào)道的具有顯著性別差異的基因和SNP
我們的文獻(xiàn)綜述顯示大多數(shù)兩樣本MR分析尚未系統(tǒng)研究過工具變量性別異質(zhì)性的問題。因此,本文以乳腺癌和四個(gè)人體測(cè)量學(xué)性狀(即身體質(zhì)量指數(shù)BMI、腰臀比WHR、腰圍WC和臀圍HIP)為例,說明工具變量性別異質(zhì)性在MR分析中可能產(chǎn)生的一系列問題,并提出相應(yīng)的分析策略和建議。
1.數(shù)據(jù)來源
鑒于人體測(cè)量學(xué)性狀具有性別差異的客觀證據(jù)[22-23],本研究從人體性狀遺傳研究聯(lián)盟(GIANT)獲得了四個(gè)人體測(cè)量學(xué)性狀(即BMI、WHR、WC和HIP,后三種性狀均對(duì)BMI加以校正)的性別合并和性別特異的GWAS匯總數(shù)據(jù)[19,21]。從國(guó)際乳腺癌研究聯(lián)盟(BCAC)獲得了女性乳腺癌的GWAS匯總數(shù)據(jù)[24]。所有個(gè)體均為歐洲血統(tǒng)(表2)。
表2 MR分析中使用的GWASs數(shù)據(jù)信息
2.工具變量的選擇
首先,從GWAS中直接篩選達(dá)到全基因組顯著性水平(即P<5×10-8)的SNP作為每個(gè)人體測(cè)量學(xué)性狀的工具變量(表3)。隨后,根據(jù)男性和女性的效應(yīng)估計(jì)以及標(biāo)準(zhǔn)誤進(jìn)行性別異質(zhì)性檢驗(yàn),使用Cochran Q統(tǒng)計(jì)量以及Bonferroni校正P值(即0.05/給定人體測(cè)量學(xué)性狀的工具變量數(shù))評(píng)估每個(gè)工具變量的性別異質(zhì)性。
為提供更全面的結(jié)果,根據(jù)以往研究[25],運(yùn)用PLINK(版本v1.90b3.38)[26]的clumping程序生成另一組女性特異的工具變量(表3)。SNP的主要顯著性水平和次要顯著性水平均設(shè)置為5×10-8,連鎖不平衡和物理距離分別設(shè)置為0.01和1Mb,以千人基因組項(xiàng)目中的503個(gè)歐洲個(gè)體基因型作為參考面板[27]。
表3 達(dá)到全基因組顯著性水平的工具變量數(shù)
3.因果效應(yīng)估計(jì)
首先,利用性別合并的工具變量,采用兩樣本MR[28]中的IVW法[13,29]估計(jì)人體測(cè)量學(xué)性狀與乳腺癌的因果關(guān)聯(lián)。為檢驗(yàn)性別異質(zhì)性的工具變量對(duì)因果效應(yīng)估計(jì)的潛在影響,通過剔除具有性別異質(zhì)性的工具變量進(jìn)行敏感性分析。其次,利用女性特異的工具變量再次實(shí)施兩樣本MR。采用差異檢驗(yàn)比較使用女性特異工具變量與性別合并工具變量的因果效應(yīng)
其中,d和SEd分別代表效應(yīng)估計(jì)之差和標(biāo)準(zhǔn)誤之差;ρ代表相關(guān)系數(shù),我們的研究顯示ρ基本在0.8以上,因此本文中設(shè)置ρ=0.8。
最后,若使用女性特異的工具變量確定了某種人體測(cè)量學(xué)性狀與乳腺癌存在因果關(guān)聯(lián),則對(duì)其進(jìn)一步實(shí)施加權(quán)中值法[30],極大似然估計(jì)[31],留一法(leave-one-out,LOO)[32],MR-PRESSO測(cè)試[33]和MR-Egger回歸[34-35]等一系列敏感性分析驗(yàn)證MR結(jié)果的穩(wěn)健性。
1.因果效應(yīng)估計(jì)結(jié)果
(1)使用性別合并的工具變量
基于隨機(jī)效應(yīng)的IVW結(jié)果顯示,BMI和WC每增加1個(gè)標(biāo)準(zhǔn)差,乳腺癌的OR值分別為0.85(95%CI:0.76~0.95,P=0.003)和0.87(95%CI:0.77~0.98,P=0.020)(表4)。同時(shí),性別異質(zhì)性檢驗(yàn)發(fā)現(xiàn)了2個(gè)與BMI相關(guān)的SNP、17個(gè)與WHR相關(guān)的SNP、10個(gè)與WC相關(guān)的SNP以及4個(gè)與HIP相關(guān)的SNP。將這些SNP剔除后,與原始結(jié)果相比,OR與未剔除前基本一致(表4),但WC與乳腺癌風(fēng)險(xiǎn)的因果關(guān)聯(lián)不再顯著(P=0.069),表明具有性別異質(zhì)性的工具變量的確會(huì)對(duì)因果效應(yīng)估計(jì)產(chǎn)生影響。
表4 人體測(cè)量學(xué)性狀與乳腺癌風(fēng)險(xiǎn)的因果關(guān)系(使用性別合并的工具變量)
(2)使用女性特異的工具變量
從結(jié)果可見,與原始結(jié)果相比,使用GIANT報(bào)告的女性特異工具變量后WC與乳腺癌風(fēng)險(xiǎn)的因果關(guān)聯(lián)不再顯著(P=0.057)(表5);同時(shí),每種人體測(cè)量學(xué)性狀與乳腺癌因果關(guān)聯(lián)的效應(yīng)大小均呈下降趨勢(shì),其中BMI/HIP與乳腺癌的因果關(guān)聯(lián)效應(yīng)大小發(fā)生了明顯改變(P<0.05)(表5)。例如,BMI每增加1個(gè)標(biāo)準(zhǔn)差,使用性別合并工具變量的乳腺癌發(fā)病風(fēng)險(xiǎn)降低約15.5%(OR=0.85)(表4),而使用女性特異工具變量的乳腺癌發(fā)病風(fēng)險(xiǎn)降低約21.8%(OR=0.78)或23.7%(OR=0.76)(表5);表明使用性別合并的工具變量可能會(huì)導(dǎo)致有偏的因果關(guān)聯(lián)。
表5 人體測(cè)量學(xué)性狀與乳腺癌風(fēng)險(xiǎn)的因果關(guān)系(使用女性特異的工具變量)
2.敏感性分析
由于表5顯示BMI/WC與乳腺癌的因果關(guān)聯(lián)顯著,故對(duì)其進(jìn)一步進(jìn)行敏感性分析(圖1)。加權(quán)中值法和極大似然估計(jì)與IVW法的結(jié)果近似。通過構(gòu)建散點(diǎn)圖(圖2A1~C1),我們發(fā)現(xiàn)可能存在潛在的異常值工具變量。為檢驗(yàn)這些異常值是否對(duì)因果效應(yīng)估計(jì)產(chǎn)生影響,以由clumping生成的兩個(gè)BMI異常值為例(即rs2229616和rs17024393),依次將其剔除后的效應(yīng)(OR=0.79,95%CI:0.69~0.91,P=1.30E-03)和(OR=0.79,95%CI:0.69~0.91,P=1.20E-03)與同時(shí)將其剔除后的效應(yīng)(OR=0.80,95%CI:0.70~0.93,P=2.48E-03)基本一致,且近似于未剔除前的效應(yīng)大小(OR=0.78)。此外,LOO和MR-PRESSO表明,并不存在對(duì)因果效應(yīng)估計(jì)產(chǎn)生實(shí)質(zhì)性影響的工具變量。最后,由于MR-Egger回歸的截距沒有明顯偏離于0,且漏斗圖的因果效應(yīng)點(diǎn)估計(jì)呈對(duì)稱模式(圖2A2~C2),進(jìn)一步表明遺傳多效性不會(huì)對(duì)因果效應(yīng)估計(jì)產(chǎn)生偏倚。
圖1 敏感性分析
圖1中MR-Egger為移除潛在異常值后的結(jié)果,Egger截距自上而下分別為0.009(95%CI:-0.006~0.025,P=0.239)、0.006(95%CI:-0.009~0.022,P=0.418)和0.033(95%CI:-0.002~0.068,P=0.066)。
圖2散點(diǎn)圖 A1~C1中的藍(lán)線及漏斗圖A2~C2中的垂直紅線均表示IVW估計(jì)的因果效應(yīng),散點(diǎn)圖中的紅點(diǎn)代表潛在異常值。(A)使用40個(gè)由clumping生成的與BMI相關(guān)的女性特異SNPs,異常值由左向右依次是位于GNAT2上的rs17024393和MC4R上的rs2229616;(B)使用36個(gè)來自GIANT的與BMI相關(guān)的女性特異SNPs,異常值是位于GNAT2上的rs17024393;(C)使用26個(gè)由clumping生成的與WC相關(guān)的女性特異SNPs,異常值由左向右依次是位于VEGFA上的rs998584和CYCSP55上的rs1776897。
圖2 散點(diǎn)圖及漏斗圖
乳腺癌是全球絕大多數(shù)國(guó)家女性最常見的癌癥,其發(fā)病率與死亡率均位于女性癌癥患者首位[36]。迄今為止,乳腺癌的MR實(shí)例分析已多達(dá)61篇,MR的廣泛應(yīng)用為識(shí)別乳腺癌的復(fù)雜病因提供了極佳途徑。然而,我們發(fā)現(xiàn)僅個(gè)別原始報(bào)告[37-40]中使用的工具變量效應(yīng)大小是女性特有的(女性特異暴露如乳房大小、初潮年齡等的MR研究除外);尤其對(duì)于某些已被證實(shí)性別差異顯著的性狀如WHR等,在性別相關(guān)的匯總數(shù)據(jù)公開發(fā)布的情況下,絕大部分研究者依然簡(jiǎn)單地使用性別合并的SNP效應(yīng)[41-42]且并未在文章中澄清這一點(diǎn)。兩樣本MR分析中使用性別合并指示變量事實(shí)上潛在假設(shè)性別之間不存在效應(yīng)差異,而在實(shí)際中這一假設(shè)并不一定成立(例如表1的結(jié)果)。使用性別合并指示變量也潛在增加了暴露所在的GWAS樣本量。在本文中,也即是假設(shè)男性樣本可用于女性樣本從而用于BMI等的關(guān)聯(lián)檢驗(yàn),這將導(dǎo)致有更多的指示變量被選擇和用于MR分析,在提高檢驗(yàn)效能的同時(shí)也增加了指示變量間異質(zhì)性的風(fēng)險(xiǎn)。
本研究借助人體測(cè)量學(xué)性狀以及女性乳腺癌的大規(guī)模GWAS匯總數(shù)據(jù),發(fā)現(xiàn)使用性別特異和性別合并的工具變量得到的MR結(jié)果存在實(shí)質(zhì)的差別,且在因果效應(yīng)估計(jì)方面存在偏差。在我們的實(shí)例研究中使用性別合并的工具變量會(huì)削弱暴露與結(jié)局的因果關(guān)聯(lián)。據(jù)我們所知,本研究是首次利用實(shí)例數(shù)據(jù)探討兩樣本MR分析中性別特異工具變量對(duì)因果效應(yīng)估計(jì)的影響。
兩樣本MR的嚴(yán)格方法論認(rèn)為,若兩樣本來自不同的人群,因果效應(yīng)估計(jì)可能存在偏倚[1]。 MR仍可證明現(xiàn)有暴露與結(jié)局間是否存在因果關(guān)聯(lián),但因果關(guān)聯(lián)的效應(yīng)大小不能準(zhǔn)確估計(jì)[43]。通過本研究發(fā)現(xiàn),使用女性特異的工具變量,與使用性別合并的工具變量相比因果效應(yīng)估計(jì)的大小呈下降趨勢(shì)。當(dāng)工具變量從男女混合的樣本中提取,由于男性乳腺癌的稀缺性,加入了男性的效應(yīng)即意味著減弱了原本存在的因果效應(yīng)。本研究還注意到,單從數(shù)值看因果效應(yīng)估計(jì)的下降幅度不大,我們認(rèn)為這是合理的:若因果效應(yīng)降幅明顯,則意味著以人體測(cè)量學(xué)性狀為典型的各類表型在男性和女性之間本就存在顯著差異,而同一人群中不同性別的表型差異十分顯著的現(xiàn)象并不多見[44-45]。因此,該結(jié)果證明,多數(shù)研究者未考慮工具變量的性別異質(zhì)性,會(huì)導(dǎo)致MR的效應(yīng)估計(jì)產(chǎn)生偏倚。
我們建議在類似的MR分析中應(yīng)該首先查看原始論文以及出版物或聯(lián)系原作者,明確是否可能在相同性別的人群中實(shí)施MR,同時(shí)分析時(shí)明確說明[39]。其次,當(dāng)使用性別合并的工具變量時(shí)需進(jìn)行性別異質(zhì)性檢驗(yàn),移除顯著性別差異的工具變量以實(shí)施敏感性分析;當(dāng)使用性別特異的工具變量時(shí)需同步進(jìn)行敏感性分析以確保結(jié)果的穩(wěn)健性。最后,若無法獲得指定的工具變量或無法完成上述敏感性分析,可借鑒Au Yeung[40]和Jiang[46]等人的文章,報(bào)告或討論可能存在的偏倚,同時(shí)進(jìn)一步考慮實(shí)施MR分析是否可靠。
總之,盡管使用公開匯總數(shù)據(jù)的MR在技術(shù)上是易于實(shí)現(xiàn)的,但仍應(yīng)遵循MR的基本理論與原則。尤其在評(píng)估暴露因素與性別特異疾病的因果關(guān)聯(lián)時(shí),選擇合適的性別特異工具變量可以在一定程度上減少因果推斷的偏倚,使MR結(jié)果更加可信。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年2期