国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LASSO算法的水平壓縮方差分析*

2017-01-09 14:38:20林少煒鄧鋰峰吳思英
中國衛(wèi)生統(tǒng)計 2016年5期
關(guān)鍵詞:抑郁質(zhì)回歸系數(shù)總體

林少煒 鄧鋰峰 吳思英

福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系

環(huán)境因素與腫瘤福建省重點實驗室

環(huán)境與健康福建省高校重點實驗室(350108)

基于LASSO算法的水平壓縮方差分析*

林少煒 鄧鋰峰 吳思英△

福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系

環(huán)境因素與腫瘤福建省重點實驗室

環(huán)境與健康福建省高校重點實驗室(350108)

方差分析(ANOVA)是一種用于檢驗多組總體均數(shù)之間是否存在統(tǒng)計學(xué)差異的常用方法。進行方差分析的主要目標有兩個,其一是找出對因變量改變有影響的因素,其二是探索這些因素內(nèi)部的水平之間是否有差異[1]。方差分析方法在某研究因素的水平數(shù)超過兩個時,若F統(tǒng)計量顯著,只能說明多個水平中至少有兩個水平不同,至于這幾個水平中哪些不同,還需要進行事后的多次兩兩比較,即post-hoc analysis,用以發(fā)現(xiàn)是哪些水平之間存在統(tǒng)計學(xué)差異。主要兩兩比較方法有SNK法、Dunnett-t法和Bonferroni法等[2],不過這些方法都有一個明顯的缺陷,即可能出現(xiàn)方差分析結(jié)果有統(tǒng)計學(xué)差異,但兩兩間比較都沒統(tǒng)計學(xué)差異或者不一致的情況。如對于一個三水平的因素,方差分析得到有統(tǒng)計學(xué)差異,但三個水平間都沒有統(tǒng)計學(xué)差異,或者出現(xiàn)水平1和水平2有統(tǒng)計學(xué)差異而水平1和水平3,水平2和水平3沒有統(tǒng)計學(xué)差異這樣比較難以解釋的情況。

Tibshirani[3]提出的LASSO(least absolute shrinkage and selection operator)基于L1懲罰,可以使回歸系數(shù)的值壓縮成0。Bondell受其啟發(fā),將LASSO的L1懲罰引入方差分析,提出了基于LASSO的方差分析方法——水平壓縮方差分析[4]。水平壓縮方差分析在估計因素水平系數(shù)的同時可以對因素水平間的系數(shù)進行壓縮,將方差分析和兩兩比較的兩個步驟合二為一,即在進行方差分析認為各因素水平之間是否有統(tǒng)計學(xué)差異的同時,完成因素各水平間兩兩比較,提高了統(tǒng)計效率。

原理與方法

1.LASSO方法

LASSO方法是一種壓縮估計。它通過對回歸系數(shù)加以L1懲罰得到一個較為精煉的模型,使得它壓縮一些系數(shù),從而使某些對結(jié)局不重要的變量系數(shù)壓縮為0,實現(xiàn)了對因素的壓縮,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計。

LASSO的基本思想是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴格等于0的回歸系數(shù),得到可以解釋的模型,其數(shù)學(xué)表達式如下:

其中t>0,是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實現(xiàn)對總體回歸系數(shù)的壓縮。t值的確定可以利用Efron和Tibshirani(1993)[5]提出的交叉驗證法來估計。這個數(shù)學(xué)表達式還等價于最小化下述懲罰最小二乘法:

其中λ與t一一對應(yīng),可以互相轉(zhuǎn)換。LASSO方法的主要優(yōu)勢在于其對參數(shù)估計較大的變量壓縮較小,而參數(shù)估計較小的變量壓縮成0,并且LASSO分析的參數(shù)估計具有連續(xù)性,適用于高維數(shù)據(jù)的模型選擇[6]。Tibshirani在2005年提出了Fused LASSO方法[7],這個估計方法滿足了模型系數(shù)以及系數(shù)差分的稀疏性,使得鄰近系數(shù)間更加平滑。

2.水平壓縮方差分析

若在方差分析中有J個因素,每個因素有pj個水平,則水平壓縮方差分析的數(shù)學(xué)表達式為

其中t>0是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實現(xiàn)對總體回歸系數(shù)的壓縮是懲罰項權(quán)重。在這個表達式中含有兩個限制項,其中第一項限制與標準的方差分析相同,它的作用是將某因素內(nèi)各水平的系數(shù)和限制為0,使得模型參數(shù)可以進行識別。第二項限制便是水平壓縮方差分析的特別之處,它將LASSO回歸的想法應(yīng)用于傳統(tǒng)的方差分析中。這一項是Fused LASSO的一種廣義版本,可以實現(xiàn)各個因素內(nèi)部水平的兩兩比較。若某個水平與作為參照組的水平無顯著差異,則該水平的系數(shù)與作為參照組的水平系數(shù)將會相等,即該水平的系數(shù)與參照組的系數(shù)之差將嚴格為0。與傳統(tǒng)的方差分析兩兩比較方法不同,水平壓縮方差分析算法將會根據(jù)計算結(jié)果中產(chǎn)生的不同系數(shù)來產(chǎn)生不同的分組:若兩水平無顯著差異,則它們將被歸入系數(shù)相同的組中,即這些水平的系數(shù)將會相等;反之,它們的系數(shù)將會不相等,這也避免了在傳統(tǒng)的兩兩比較中可能出現(xiàn)計算結(jié)果自相矛盾而難以解釋的問題。

在LASSO分析中,可能會出現(xiàn)過度壓縮非零系數(shù)的情況,增大了估計結(jié)果的偏差,使估計結(jié)果不具有相合性。為了提高LASSO方法的相合性和準確性,Zou H(2006)[8]提出了自適應(yīng)的LASSO方法,其把LASSO中的懲罰項修正為

模擬實驗

1.模擬數(shù)據(jù)產(chǎn)生

考慮只有一個三水平的因素情形,三個水平對應(yīng)的總體都是來自方差是1的正態(tài)分布,其總體均值分別為9.5,9.5和10,即

模擬數(shù)據(jù)見表1。

表1 模擬數(shù)據(jù)

2.傳統(tǒng)方差分析和兩兩比較

對上面數(shù)據(jù)進行方差齊性檢驗,P=0.7923,可認為三個水平對應(yīng)的總體方差滿足方差齊性。方差分析結(jié)果顯示,F(xiàn)=4.12,P=0.0274<0.05,差異有統(tǒng)計學(xué)意義,可認為三個水平的總體均數(shù)不全相同。使用HSD方法進行兩兩比較,結(jié)果如表2。

表2 模擬數(shù)據(jù)HSD兩兩比較結(jié)果

HSD兩兩比較結(jié)果出現(xiàn)了比較難以解釋的情形:水平1與水平2、水平3的差異都沒有統(tǒng)計學(xué)意義,而水平2和水平3的差異有統(tǒng)計學(xué)意義。

3.水平壓縮方差分析

在水平壓縮方差分析中,使用BIC準則選擇λ=0.9,水平1、水平2和水平3的回歸系數(shù)分別為9.683、9.683和10.198,由此可見:水平1和水平2的回歸系數(shù)相同,說明兩者之間的差異無統(tǒng)計學(xué)意義;而水平3的回歸系數(shù)與水平1和水平2不同,說明水平3與水平1和水平2的差異均存在統(tǒng)計學(xué)意義,這與模擬數(shù)據(jù)的設(shè)置吻合,并且回歸系數(shù)值與對應(yīng)的總體均值非常接近。

實例分析

1.實例資料

使用一項關(guān)于“福州地區(qū)大學(xué)生睡眠質(zhì)量與人格”的調(diào)查為實例數(shù)據(jù),其樣本量為300。其中大學(xué)生的睡眠質(zhì)量PSQI評分是根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(pittsburgh sleep quality index)[9]進行計算得到的,總分范圍為0到21分,分數(shù)越高睡眠質(zhì)量越差。人格類型使用錢銘怡等人修訂的艾森克人格問卷簡式量表中國版(EPQ-RSC)[10]中的外向性和神經(jīng)質(zhì)兩個分量表,根據(jù)艾森克的人格氣質(zhì)理論,形成4種典型人格氣質(zhì)類型:膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)。

2.實例數(shù)據(jù)分析

傳統(tǒng)方差分析的結(jié)果為F=17.2,P<0.001,說明四種人格氣質(zhì)的總體均值不全相同。HSD兩兩比較結(jié)果表明,除多血質(zhì)和粘液質(zhì)人格、膽汁質(zhì)與抑郁質(zhì)人格外,其余人格兩兩比較差異均有統(tǒng)計學(xué)意義,即對大學(xué)生睡眠質(zhì)量的影響差異有統(tǒng)計學(xué)意義(表3)。HSD兩兩比較并沒有把四種人格嚴格區(qū)分成不同的亞組。而水平壓縮方差分析中膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)對應(yīng)的回歸系數(shù)分別為4.624,4.624,3.369和3.978,其把人格分成3個亞組:膽汁質(zhì)和抑郁質(zhì)在一個組,而多血質(zhì)、粘液質(zhì)各自成一個組,說明除膽汁質(zhì)以及抑郁質(zhì)人格外,各種人格對大學(xué)生睡眠質(zhì)量的影響差異存在統(tǒng)計學(xué)意義。

表3 實例數(shù)據(jù)HSD兩兩比較結(jié)果

討 論

方差分析是統(tǒng)計分析方法中,最重要、最常用的方法之一。經(jīng)方差分析后,如果各總體均數(shù)間有統(tǒng)計學(xué)差異時,常需進一步確定哪兩個總體均數(shù)間有統(tǒng)計學(xué)差異,哪兩個之間無統(tǒng)計學(xué)差異,即多重比較。然而,各種多重比較方法經(jīng)常會得到?jīng)]有嚴格的分組,使得各組間的統(tǒng)計學(xué)差異不具傳遞性,結(jié)果難以解釋。

通過模擬數(shù)據(jù)分析表明,HSD兩兩比較方法不具有組間嚴格分組能力,出現(xiàn)了矛盾的結(jié)果,沒有發(fā)現(xiàn)模擬數(shù)據(jù)的自身結(jié)構(gòu)。水平壓縮分析方法在進行方差分析的同時構(gòu)建了因素內(nèi)部水平與水平之間的分組,使得這些分組是相互不重疊的,克服了出現(xiàn)傳統(tǒng)方差分析兩兩比較不具嚴格分組的問題,并且得到了模擬數(shù)據(jù)的真正結(jié)構(gòu)。水平壓縮方差分析把方差分析和兩兩比較兩步驟合二為一,可以同時對因素以及水平進行分析,避免了傳統(tǒng)方差分析方法中找出因素間有差異后還需要再對因素內(nèi)各水平進行兩兩比較的過程,在提高分析結(jié)果準確性的同時也提高了統(tǒng)計效率。

[1]方積乾主編.衛(wèi)生統(tǒng)計學(xué).北京:人民衛(wèi)生出版社,2012.

[2]JW T.Comparing Individual Means in the Analysis of Variance.Biometrics,1949,5(2):99-114.

[3]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society B,1996,58:267-288.

[4]Bondell HD,Reich BJ.Simultaneous factor selection and collapsing levels in anova.Biometrics,2009,65:169-177.

[5]Efron B,Tibshirani RJ.An introduction to the bootstrap.New York:Chapman and Hall,1993.

[6]李根,鄒國華,張新雨,等.高維模型選擇方法綜述.數(shù)理統(tǒng)計與管理,2012,31(4):640-658.

[7]Tibshirani R,Saunders M,Rosset S,et al.Sparsity and smoothness via the fused lasso.Journal of the Royal Statistical Society,2005,67(1):91-108.

[8]Zou H.The adaptive LASSO and its oracle properties.Journal of the American Statistical Association,2006,101:1418-1429.

[9]劉賢臣,唐茂芹,胡蕾,等.匹茲堡睡眠質(zhì)量指數(shù)的信度和效度研究.中華精神科雜志,1996,29(2):103-107.

[10]錢銘怡,武國城,朱榮春,等.艾森克人格問卷簡式量表中國版(EQP-RSC)的修訂.心理學(xué)報,2000,32(3):319-7-323.

(責任編輯:鄧 妍)

福建省中青年教師教育科研項目(JA14144);福建醫(yī)科大學(xué)女性研究課題(2014FN002)

△通信作者:吳思英,E-mail:fmuw sy@163.com

猜你喜歡
抑郁質(zhì)回歸系數(shù)總體
編讀往來
青春期健康(2021年6期)2021-12-04 07:01:12
太陽花在線
小讀者之友(2021年6期)2021-07-29 19:32:01
用樣本估計總體復(fù)習(xí)點撥
2020年秋糧收購總體進度快于上年
外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
中國外匯(2019年6期)2019-07-13 05:44:06
大學(xué)生道德教育的氣質(zhì)化研究初探
多元線性回歸的估值漂移及其判定方法
電導(dǎo)法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
直擊高考中的用樣本估計總體
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
兴国县| 广西| 邹平县| 益阳市| 石台县| 南昌市| 永定县| 清水河县| 永靖县| 长葛市| 广平县| 资源县| 嘉义县| 隆化县| 呼玛县| 南阳市| 织金县| 基隆市| 富裕县| 建湖县| 德清县| 南阳市| 仁寿县| 文昌市| 隆回县| 连云港市| 大田县| 蛟河市| 昭苏县| 贺兰县| 昭平县| 新乡县| 迁安市| 安顺市| 郧西县| 三河市| 乐昌市| 万源市| 宜宾县| 昌都县| 永昌县|