林少煒 鄧鋰峰 吳思英
福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系
環(huán)境因素與腫瘤福建省重點實驗室
環(huán)境與健康福建省高校重點實驗室(350108)
基于LASSO算法的水平壓縮方差分析*
林少煒 鄧鋰峰 吳思英△
福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系
環(huán)境因素與腫瘤福建省重點實驗室
環(huán)境與健康福建省高校重點實驗室(350108)
方差分析(ANOVA)是一種用于檢驗多組總體均數(shù)之間是否存在統(tǒng)計學(xué)差異的常用方法。進行方差分析的主要目標有兩個,其一是找出對因變量改變有影響的因素,其二是探索這些因素內(nèi)部的水平之間是否有差異[1]。方差分析方法在某研究因素的水平數(shù)超過兩個時,若F統(tǒng)計量顯著,只能說明多個水平中至少有兩個水平不同,至于這幾個水平中哪些不同,還需要進行事后的多次兩兩比較,即post-hoc analysis,用以發(fā)現(xiàn)是哪些水平之間存在統(tǒng)計學(xué)差異。主要兩兩比較方法有SNK法、Dunnett-t法和Bonferroni法等[2],不過這些方法都有一個明顯的缺陷,即可能出現(xiàn)方差分析結(jié)果有統(tǒng)計學(xué)差異,但兩兩間比較都沒統(tǒng)計學(xué)差異或者不一致的情況。如對于一個三水平的因素,方差分析得到有統(tǒng)計學(xué)差異,但三個水平間都沒有統(tǒng)計學(xué)差異,或者出現(xiàn)水平1和水平2有統(tǒng)計學(xué)差異而水平1和水平3,水平2和水平3沒有統(tǒng)計學(xué)差異這樣比較難以解釋的情況。
Tibshirani[3]提出的LASSO(least absolute shrinkage and selection operator)基于L1懲罰,可以使回歸系數(shù)的值壓縮成0。Bondell受其啟發(fā),將LASSO的L1懲罰引入方差分析,提出了基于LASSO的方差分析方法——水平壓縮方差分析[4]。水平壓縮方差分析在估計因素水平系數(shù)的同時可以對因素水平間的系數(shù)進行壓縮,將方差分析和兩兩比較的兩個步驟合二為一,即在進行方差分析認為各因素水平之間是否有統(tǒng)計學(xué)差異的同時,完成因素各水平間兩兩比較,提高了統(tǒng)計效率。
1.LASSO方法
LASSO方法是一種壓縮估計。它通過對回歸系數(shù)加以L1懲罰得到一個較為精煉的模型,使得它壓縮一些系數(shù),從而使某些對結(jié)局不重要的變量系數(shù)壓縮為0,實現(xiàn)了對因素的壓縮,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計。
LASSO的基本思想是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴格等于0的回歸系數(shù),得到可以解釋的模型,其數(shù)學(xué)表達式如下:
其中t>0,是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實現(xiàn)對總體回歸系數(shù)的壓縮。t值的確定可以利用Efron和Tibshirani(1993)[5]提出的交叉驗證法來估計。這個數(shù)學(xué)表達式還等價于最小化下述懲罰最小二乘法:
其中λ與t一一對應(yīng),可以互相轉(zhuǎn)換。LASSO方法的主要優(yōu)勢在于其對參數(shù)估計較大的變量壓縮較小,而參數(shù)估計較小的變量壓縮成0,并且LASSO分析的參數(shù)估計具有連續(xù)性,適用于高維數(shù)據(jù)的模型選擇[6]。Tibshirani在2005年提出了Fused LASSO方法[7],這個估計方法滿足了模型系數(shù)以及系數(shù)差分的稀疏性,使得鄰近系數(shù)間更加平滑。
2.水平壓縮方差分析
若在方差分析中有J個因素,每個因素有pj個水平,則水平壓縮方差分析的數(shù)學(xué)表達式為
其中t>0是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實現(xiàn)對總體回歸系數(shù)的壓縮是懲罰項權(quán)重。在這個表達式中含有兩個限制項,其中第一項限制與標準的方差分析相同,它的作用是將某因素內(nèi)各水平的系數(shù)和限制為0,使得模型參數(shù)可以進行識別。第二項限制便是水平壓縮方差分析的特別之處,它將LASSO回歸的想法應(yīng)用于傳統(tǒng)的方差分析中。這一項是Fused LASSO的一種廣義版本,可以實現(xiàn)各個因素內(nèi)部水平的兩兩比較。若某個水平與作為參照組的水平無顯著差異,則該水平的系數(shù)與作為參照組的水平系數(shù)將會相等,即該水平的系數(shù)與參照組的系數(shù)之差將嚴格為0。與傳統(tǒng)的方差分析兩兩比較方法不同,水平壓縮方差分析算法將會根據(jù)計算結(jié)果中產(chǎn)生的不同系數(shù)來產(chǎn)生不同的分組:若兩水平無顯著差異,則它們將被歸入系數(shù)相同的組中,即這些水平的系數(shù)將會相等;反之,它們的系數(shù)將會不相等,這也避免了在傳統(tǒng)的兩兩比較中可能出現(xiàn)計算結(jié)果自相矛盾而難以解釋的問題。
在LASSO分析中,可能會出現(xiàn)過度壓縮非零系數(shù)的情況,增大了估計結(jié)果的偏差,使估計結(jié)果不具有相合性。為了提高LASSO方法的相合性和準確性,Zou H(2006)[8]提出了自適應(yīng)的LASSO方法,其把LASSO中的懲罰項修正為
1.模擬數(shù)據(jù)產(chǎn)生
考慮只有一個三水平的因素情形,三個水平對應(yīng)的總體都是來自方差是1的正態(tài)分布,其總體均值分別為9.5,9.5和10,即
模擬數(shù)據(jù)見表1。
表1 模擬數(shù)據(jù)
2.傳統(tǒng)方差分析和兩兩比較
對上面數(shù)據(jù)進行方差齊性檢驗,P=0.7923,可認為三個水平對應(yīng)的總體方差滿足方差齊性。方差分析結(jié)果顯示,F(xiàn)=4.12,P=0.0274<0.05,差異有統(tǒng)計學(xué)意義,可認為三個水平的總體均數(shù)不全相同。使用HSD方法進行兩兩比較,結(jié)果如表2。
表2 模擬數(shù)據(jù)HSD兩兩比較結(jié)果
HSD兩兩比較結(jié)果出現(xiàn)了比較難以解釋的情形:水平1與水平2、水平3的差異都沒有統(tǒng)計學(xué)意義,而水平2和水平3的差異有統(tǒng)計學(xué)意義。
3.水平壓縮方差分析
在水平壓縮方差分析中,使用BIC準則選擇λ=0.9,水平1、水平2和水平3的回歸系數(shù)分別為9.683、9.683和10.198,由此可見:水平1和水平2的回歸系數(shù)相同,說明兩者之間的差異無統(tǒng)計學(xué)意義;而水平3的回歸系數(shù)與水平1和水平2不同,說明水平3與水平1和水平2的差異均存在統(tǒng)計學(xué)意義,這與模擬數(shù)據(jù)的設(shè)置吻合,并且回歸系數(shù)值與對應(yīng)的總體均值非常接近。
1.實例資料
使用一項關(guān)于“福州地區(qū)大學(xué)生睡眠質(zhì)量與人格”的調(diào)查為實例數(shù)據(jù),其樣本量為300。其中大學(xué)生的睡眠質(zhì)量PSQI評分是根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(pittsburgh sleep quality index)[9]進行計算得到的,總分范圍為0到21分,分數(shù)越高睡眠質(zhì)量越差。人格類型使用錢銘怡等人修訂的艾森克人格問卷簡式量表中國版(EPQ-RSC)[10]中的外向性和神經(jīng)質(zhì)兩個分量表,根據(jù)艾森克的人格氣質(zhì)理論,形成4種典型人格氣質(zhì)類型:膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)。
2.實例數(shù)據(jù)分析
傳統(tǒng)方差分析的結(jié)果為F=17.2,P<0.001,說明四種人格氣質(zhì)的總體均值不全相同。HSD兩兩比較結(jié)果表明,除多血質(zhì)和粘液質(zhì)人格、膽汁質(zhì)與抑郁質(zhì)人格外,其余人格兩兩比較差異均有統(tǒng)計學(xué)意義,即對大學(xué)生睡眠質(zhì)量的影響差異有統(tǒng)計學(xué)意義(表3)。HSD兩兩比較并沒有把四種人格嚴格區(qū)分成不同的亞組。而水平壓縮方差分析中膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)對應(yīng)的回歸系數(shù)分別為4.624,4.624,3.369和3.978,其把人格分成3個亞組:膽汁質(zhì)和抑郁質(zhì)在一個組,而多血質(zhì)、粘液質(zhì)各自成一個組,說明除膽汁質(zhì)以及抑郁質(zhì)人格外,各種人格對大學(xué)生睡眠質(zhì)量的影響差異存在統(tǒng)計學(xué)意義。
表3 實例數(shù)據(jù)HSD兩兩比較結(jié)果
方差分析是統(tǒng)計分析方法中,最重要、最常用的方法之一。經(jīng)方差分析后,如果各總體均數(shù)間有統(tǒng)計學(xué)差異時,常需進一步確定哪兩個總體均數(shù)間有統(tǒng)計學(xué)差異,哪兩個之間無統(tǒng)計學(xué)差異,即多重比較。然而,各種多重比較方法經(jīng)常會得到?jīng)]有嚴格的分組,使得各組間的統(tǒng)計學(xué)差異不具傳遞性,結(jié)果難以解釋。
通過模擬數(shù)據(jù)分析表明,HSD兩兩比較方法不具有組間嚴格分組能力,出現(xiàn)了矛盾的結(jié)果,沒有發(fā)現(xiàn)模擬數(shù)據(jù)的自身結(jié)構(gòu)。水平壓縮分析方法在進行方差分析的同時構(gòu)建了因素內(nèi)部水平與水平之間的分組,使得這些分組是相互不重疊的,克服了出現(xiàn)傳統(tǒng)方差分析兩兩比較不具嚴格分組的問題,并且得到了模擬數(shù)據(jù)的真正結(jié)構(gòu)。水平壓縮方差分析把方差分析和兩兩比較兩步驟合二為一,可以同時對因素以及水平進行分析,避免了傳統(tǒng)方差分析方法中找出因素間有差異后還需要再對因素內(nèi)各水平進行兩兩比較的過程,在提高分析結(jié)果準確性的同時也提高了統(tǒng)計效率。
[1]方積乾主編.衛(wèi)生統(tǒng)計學(xué).北京:人民衛(wèi)生出版社,2012.
[2]JW T.Comparing Individual Means in the Analysis of Variance.Biometrics,1949,5(2):99-114.
[3]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society B,1996,58:267-288.
[4]Bondell HD,Reich BJ.Simultaneous factor selection and collapsing levels in anova.Biometrics,2009,65:169-177.
[5]Efron B,Tibshirani RJ.An introduction to the bootstrap.New York:Chapman and Hall,1993.
[6]李根,鄒國華,張新雨,等.高維模型選擇方法綜述.數(shù)理統(tǒng)計與管理,2012,31(4):640-658.
[7]Tibshirani R,Saunders M,Rosset S,et al.Sparsity and smoothness via the fused lasso.Journal of the Royal Statistical Society,2005,67(1):91-108.
[8]Zou H.The adaptive LASSO and its oracle properties.Journal of the American Statistical Association,2006,101:1418-1429.
[9]劉賢臣,唐茂芹,胡蕾,等.匹茲堡睡眠質(zhì)量指數(shù)的信度和效度研究.中華精神科雜志,1996,29(2):103-107.
[10]錢銘怡,武國城,朱榮春,等.艾森克人格問卷簡式量表中國版(EQP-RSC)的修訂.心理學(xué)報,2000,32(3):319-7-323.
(責任編輯:鄧 妍)
福建省中青年教師教育科研項目(JA14144);福建醫(yī)科大學(xué)女性研究課題(2014FN002)
△通信作者:吳思英,E-mail:fmuw sy@163.com