潘璐璐 余勇夫 秦國友
(復(fù)旦大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)教研室 上海 200032)
在公共衛(wèi)生和醫(yī)學(xué)領(lǐng)域的研究中,經(jīng)常需要探索暴露因素和某一連續(xù)型結(jié)局變量之間的關(guān)聯(lián)。以探索睡眠時間與抑郁水平的關(guān)聯(lián)為例,通過均值回歸分析可以揭示睡眠時間對研究人群抑郁水平均值的影響。然而,由于抑郁程度較高的群體相較于抑郁程度較低的群體具有更低的血清素水平和更高的炎癥水平,睡眠時間的改變對這兩個群體的抑郁水平會產(chǎn)生不同影響[1-2]。因此,均值回歸的結(jié)果可能掩蓋了睡眠時間對不同抑郁程度群體的抑郁水平的真實影響,我們需要考慮不同抑郁程度下,睡眠時間和抑郁水平關(guān)聯(lián)是否存在異質(zhì)性。分位數(shù)回歸方法可以很好地解決這一問題,該方法可以捕捉自變量對因變量分布不同分位數(shù)的影響。例如:當(dāng)考慮抑郁水平分布0.5 的分位數(shù)(中位數(shù))時,分位數(shù)回歸能夠揭示睡眠時間對處于抑郁水平中間位置的研究人群抑郁水平的影響;當(dāng)分位數(shù)為0.9 時,分位數(shù)回歸能夠揭示睡眠時間對抑郁程度高(抑郁水平處于研究人群前10%)的群體抑郁水平的影響。分位數(shù)回歸能夠探索在因變量不同分位數(shù)水平下自變量與因變量的關(guān)聯(lián)性,從而全面揭示兩者之間的關(guān)系。
目前,分位數(shù)回歸方法已得到了廣泛的應(yīng)用。在精神疾病研究領(lǐng)域中,一項大樣本量的橫斷面研究[3]揭示了精神障礙狀態(tài)與殘疾水平的關(guān)聯(lián)在高殘疾人群中更強(qiáng),反映了對此群體進(jìn)行精神健康護(hù)理的重要性。在營養(yǎng)流行病學(xué)研究領(lǐng)域中,有學(xué)者[4]通過分位數(shù)回歸方法發(fā)現(xiàn),不溶性膳食纖維攝入量和升糖指數(shù)與糖化血紅蛋白水平的關(guān)聯(lián)在血糖控制狀況較差的中國糖尿病患者中更強(qiáng),為糖尿病患者在營養(yǎng)管理方面提供了重要線索。此外,分位數(shù)回歸方法也是環(huán)境流行病學(xué)研究領(lǐng)域常用的一個有價值的工具。一項利用該方法的研究[5]發(fā)現(xiàn),空氣污染對心血管疾病相關(guān)的DNA 甲基化程度較低的老年男性的影響更強(qiáng);另一項研究[6]發(fā)現(xiàn),兒童早期的空氣污染暴露與青春期動脈粥樣硬化標(biāo)志物低水平相關(guān),提示了降低生活早期交通相關(guān)空氣污染對于延緩動脈粥樣硬化及心血管疾病發(fā)展的重要性。因此,分位數(shù)回歸方法能全面地描述因變量不同分位數(shù)下自變量和因變量的關(guān)聯(lián),識別高危人群或者干預(yù)的最佳受益人群,為干預(yù)措施的制定提供線索。
分位數(shù)回歸方法原理假定y是感興趣的連續(xù)型因變量,X=(X1,X2,…,Xp)是p維自變量,分位數(shù)回歸模型可以表示為:
其中i指第i個樣本,Qτ(yi|Xi)是給定自變量Xi下yi的第τ個條件分位數(shù),不同于普通最小二乘回歸模型中給定自變量Xi下yi的條件均值E(yi|Xi)。表示給定其他自變量值后,Xj每改變一個單位,Qτ(yi|Xi)的改變程度。參數(shù)βτ可以通過下面的公式進(jìn)行估計:
其中,ρτ(u)是分位數(shù)回歸的損失函數(shù),I(·)是指示函數(shù)。當(dāng)yi-Xi βτ≥0 時,ρτ(yi-Xi βτ)=(yi-Xi βτ)τ;當(dāng)yi-Xi βτ<0 時,ρτ(yi-Xi βτ)=(yi-Xi βτ)(τ-1)??梢允褂锰荻认陆档葍?yōu)化方法最小化這個損失函數(shù)來獲得參數(shù)的估計[7]。在R 語言中,quantreg包的rq()函數(shù)提供了實現(xiàn)分位數(shù)回歸的工具,函數(shù)內(nèi)部使用了相應(yīng)的優(yōu)化算法來擬合分位數(shù)回歸方法[8]。
實例分析我們通過以下實例分析來介紹分位數(shù)回歸方法的應(yīng)用,以探索睡眠時間和抑郁水平的關(guān)聯(lián)。數(shù)據(jù)來源于2015 年1 月—2020 年3 月美國一項全國健康和營養(yǎng)調(diào)查(National Health and Nutrition Examination Survey,NHANES)收集的研究數(shù)據(jù)(https://www.cdc.gov/nchs/nhanes/index.htm)。這是一項基于人群的橫斷面調(diào)查,旨在收集美國成人和兒童的健康和營養(yǎng)狀況信息。NHANES 采用患者健康問卷(Patient Health Questionnaire-9,PHQ-9)來評估調(diào)查對象的抑郁程度,問卷一共包括9 個詢問過去2 周內(nèi)抑郁癥狀出現(xiàn)頻率的問題,回答分為“完全沒有”、“幾天”、“半天以上”和“幾乎每天”4 個類別,分值為0~3,總分為0~27。自我報道的睡眠時間定義為工作日晚上平均睡眠時間,對照組正常睡眠定義為6~9 h,短睡眠和長睡眠時間分別定義為少于6 h 和超過9 h。協(xié)變量調(diào)整了年齡、性別、種族、教育程度、家庭收入、婚姻狀況、體育活動、吸煙狀況和飲酒狀況。本研究隨機(jī)選取了5 000 名年齡范圍在18~80 歲的研究對象,排除睡眠時間、抑郁程度得分和重要協(xié)變量有缺失數(shù)據(jù)的研究對象,使用完整數(shù)據(jù)集進(jìn)行分析。
圖1 展示了抑郁水平不同分位數(shù)下回歸系數(shù)的折線圖,圖中的陰影部分表示分位數(shù)回歸系數(shù)估計值的95%置信區(qū)間(95%CI),水平實線是普通最小二乘回歸的系數(shù)估計值,虛線為95%置信區(qū)間。均值回歸結(jié)果表明,短睡眠和長睡眠時間相比于正常睡眠時間,平均抑郁水平顯著增加了1.80(95%CI:1.43,2.17)和1.34(95%CI:0.78,1.91)。而分位數(shù)回歸結(jié)果顯示,隨著分位數(shù)的增加,睡眠時間和抑郁水平的關(guān)聯(lián)強(qiáng)度也增加,在較高分位數(shù)(例如0.8 或0.9),短睡眠和長睡眠時間與抑郁水平的關(guān)聯(lián)強(qiáng)度均強(qiáng)于均值回歸估計的關(guān)聯(lián)強(qiáng)度(表1)。例如,短睡眠時間和長睡眠時間相比正常睡眠時間,0.9 分位數(shù)的抑郁水平分別增加了3.99(95%CI:2.57,5.42)和2.73(95%CI:1.13,4.32)。因此,睡眠時間對抑郁水平的影響程度在抑郁水平不同分位數(shù)下是異質(zhì)的(異質(zhì)性檢驗的P均<0.001)。
表1 均值回歸模型和分位數(shù)回歸模型的系數(shù)估計值Tab 1 Coefficients of mean regression model and quantile regression model
圖1 分位數(shù)回歸系數(shù)折線圖Fig 1 Line chart of quantile regression coefficients
總結(jié)在公共衛(wèi)生和醫(yī)學(xué)研究中,我們習(xí)慣報道暴露因素對結(jié)局均值的影響。然而,這可能掩蓋在結(jié)局分布不同分位數(shù)水平下可能存在的關(guān)聯(lián)的異質(zhì)性,我們可以通過分位數(shù)回歸方法全面展現(xiàn)暴露和結(jié)局在結(jié)局分布不同分位數(shù)上的關(guān)聯(lián)。正如我們的案例所示,僅報道均值回歸的結(jié)果,會高估睡眠時間對低抑郁程度群體的抑郁水平的影響,同時低估睡眠時間對高抑郁程度群體的抑郁水平的影響。而分位數(shù)回歸能夠呈現(xiàn)自變量在任意分位數(shù)下與因變量的關(guān)聯(lián),揭示了均值回歸無法發(fā)現(xiàn)的結(jié)果:(1)在低抑郁程度的群體中,相比正常睡眠時間,睡眠時間不足或過長與抑郁水平?jīng)]有顯著關(guān)聯(lián);(2)抑郁程度越高的群體,其抑郁水平受睡眠時間不足或過長的影響更大。因此,采用該方法得到的研究結(jié)果為將來的干預(yù)方案提供了有參考價值的信息:嚴(yán)重的抑郁癥患者在治療中可能需要個性化的睡眠管理,即使在抑郁癥狀減輕后也需要加強(qiáng)睡眠護(hù)理[9]。此外,分位數(shù)回歸對異常值更穩(wěn)健,無需同方差假設(shè)[10]。
因此,分位數(shù)回歸方法是一種適用于分析連續(xù)型因變量和感興趣自變量之間全面關(guān)聯(lián)的有力工具,其應(yīng)用不需要額外的數(shù)據(jù),卻能夠提供更為豐富的研究結(jié)果[11]。目前在R、Stata 和SAS 中都有完善的軟件包可用于實現(xiàn)分位數(shù)回歸。在中大型醫(yī)療健康數(shù)據(jù)的研究中,使用分位數(shù)回歸可以提供全面的線索,為后續(xù)深入研究提供有力支持,還可以識別出對暴露因素更敏感的亞組人群,為制定針對該人群的臨床和公共衛(wèi)生干預(yù)措施提供建議。我們建議,研究人員在今后的研究中可以嘗試運用分位數(shù)回歸方法,以揭示自變量和因變量之間的全面關(guān)聯(lián)。
作者貢獻(xiàn)聲明潘璐璐 數(shù)據(jù)整理,結(jié)果分析和解釋,論文撰寫。余勇夫 課題構(gòu)思與設(shè)計,論文修訂。秦國友 課題構(gòu)思與設(shè)計,獲取資助,監(jiān)督指導(dǎo),論文修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。