樣本量及抽樣過程對線性模型中自變量重要性估計(jì)方法的影響研究*

2017-06-05 14:20伍立志賈孝霞沈其君

中國衛(wèi)生統(tǒng)計(jì) 2017年2期

伍立志賈孝霞沈其君

伍立志1賈孝霞2沈其君3△

目的通過從同一總體中抽樣產(chǎn)生不同樣本量及相同樣本量的重復(fù)抽樣數(shù)據(jù)集，來觀察并評價(jià)樣本量對重要性估計(jì)方法的影響以及重復(fù)抽樣過程對各方法估計(jì)穩(wěn)定性的影響。方法簡單介紹已有的幾種重要性評價(jià)方法，調(diào)用SAS中的PROC SURVEYSELECT 過程從同一總體中重復(fù)抽樣，觀察樣本量變化、重復(fù)抽樣過程對重要性估計(jì)結(jié)果的影響，評價(jià)各方法的穩(wěn)定性。結(jié)果樣本量較小時(shí)，各方法的重要性估計(jì)值變異較大，隨著樣本量增大估計(jì)值也逐漸趨于穩(wěn)定。優(yōu)勢分析、相對權(quán)重、乘積尺度(βr)的重要性估計(jì)值之和與模型R2之差，小于標(biāo)準(zhǔn)回歸系數(shù)平方(β2)、簡單相關(guān)系數(shù)平方(R2)，優(yōu)勢分析法的穩(wěn)定性最好。結(jié)論在現(xiàn)有的幾種常見重要性估計(jì)方法中，優(yōu)勢分析法的重要性估計(jì)穩(wěn)定性最好，相對權(quán)重法雖然與優(yōu)勢分析法最為接近，但仍有不足之處。

線性模型相對重要性樣本量抽樣過程模擬研究

線性模型是在衛(wèi)生、環(huán)境調(diào)查等領(lǐng)域中常用的一種數(shù)據(jù)分析方法，如何分析和解釋線性模型中自變量對因變量變異的貢獻(xiàn)，估計(jì)各自變量的相對重要性一直是研究者關(guān)注并爭論的話題，先后有數(shù)量眾多的評價(jià)方法被提出并推廣應(yīng)用[1-2]。當(dāng)研究中自變量之間相互獨(dú)立時(shí)，可以應(yīng)用標(biāo)準(zhǔn)回歸系數(shù)、Pearson相關(guān)系數(shù)以及偏相關(guān)和半偏相關(guān)系數(shù)等指標(biāo)。如果自變量之間互相存在關(guān)聯(lián)時(shí)，自變量相對重要性估計(jì)變得較為復(fù)雜，以上幾種指標(biāo)已不再適用[3]。目前多數(shù)學(xué)者推薦的估計(jì)方法為乘積尺度法、優(yōu)勢分析法和相對權(quán)重等方法。本次研究通過模擬隨機(jī)抽樣數(shù)據(jù)樣本，并調(diào)用SAS中的PROC SURVEYSELECT 過程從同一總體中重復(fù)抽樣，觀察樣本量變化、重復(fù)抽樣過程對重要性估計(jì)結(jié)果的影響，將學(xué)者推薦的這幾種方法與傳統(tǒng)的相關(guān)系數(shù)平方和標(biāo)準(zhǔn)回歸系數(shù)平方進(jìn)行比較，評價(jià)各方法的穩(wěn)定性。

自變量相對重要性估計(jì)方法簡介

1.乘積尺度法

Hoffman于1960年指出模型中自變量(x)的標(biāo)準(zhǔn)回歸系數(shù)(βx)與相應(yīng)的簡單相關(guān)系數(shù)(rxy)，兩者之積和即為決定系數(shù)R2，對應(yīng)的以其乘積βxrxy為每一自變量對因變量變異的貢獻(xiàn)，Hoffman的這一方法被Bring等人命名為“乘積尺度”(product measure)[4]。這一方法明顯的缺點(diǎn)就是存在自變量實(shí)際對因變量變異有貢獻(xiàn)時(shí)卻出現(xiàn)0值或負(fù)值等無法解釋的情況。

2.優(yōu)勢分析

1993年，Budescu首次提出了“優(yōu)勢分析”這一方法，對于任意兩個(gè)自變量xi和xj，相對于余下p-2個(gè)自變量的任意子集xh，xi均能取得比xj更大的半偏相關(guān)系數(shù)平方，則稱xi對xj具有“優(yōu)勢”[5]，Azen和Budescu在2003年修訂了“優(yōu)勢”這一定義。將優(yōu)勢分析方法分為完全優(yōu)勢分析、條件優(yōu)勢分析和一般優(yōu)勢分析[6]，本文采用了一般優(yōu)勢分析的方法和定義來估計(jì)各自變量的相對重要性[7]。

3.相對權(quán)重

Johnson提出了ε法即相對權(quán)重。它是將自變量Xj正交轉(zhuǎn)換得到的正交變量ZK，以因變量Y對Zk做回歸得到回歸系數(shù)βk，每個(gè)自變量Xj分別對Zk做回歸得到回歸系數(shù)λjk。要計(jì)算每個(gè)自變量的相對重要性，只需計(jì)算每個(gè)自變量對應(yīng)兩組回歸系數(shù)的積和ε[8]。公式如下：

(1)

參數(shù)設(shè)置及實(shí)驗(yàn)過程

為考察樣本量變化時(shí)對各重要性方法的影響，使用同一相關(guān)陣通過前述過程生成不同樣本量的模擬樣本，分別使用不同方法進(jìn)行自變量相對重要性估計(jì)，觀測不同方法的估計(jì)結(jié)果差異。而在考察抽樣過程的影響時(shí)，先模擬一個(gè)樣本量為10000的數(shù)據(jù)集作為抽樣所用的總體，抽樣過程調(diào)用SAS中的PROC SURVEYSELECT 過程，樣本量大小100。研究所用的總體相關(guān)結(jié)構(gòu)如下表所示：

表1 總體相關(guān)陣

生成模擬數(shù)據(jù)

Kaiser等人在1962年[11]提出一個(gè)矩陣分解過程，證明了將一個(gè)特定的矩陣左乘一個(gè)完全獨(dú)立隨機(jī)正態(tài)矩陣時(shí)，等價(jià)于從這一特定矩陣所代表的總體中進(jìn)行隨機(jī)抽樣的過程。其基本過程如下：

(2)

結(jié) 果

1.不同樣本量對各方法重要性指標(biāo)的影響

為考察樣本量變化時(shí)對各重要性方法的影響，使用同一相關(guān)陣通過前述過程生成不同樣本量的模擬樣本，分別使用不同方法進(jìn)行自變量相對重要性估計(jì)，觀測不同方法的估計(jì)結(jié)果差異。本文所用的總體相關(guān)陣如下表所示：

表2 總體相關(guān)陣

各自變量重要性估計(jì)值之和應(yīng)該等于總模型的R2，這是在評價(jià)自變量重要性估計(jì)方法時(shí)的一條重要準(zhǔn)則[13]，因此本文計(jì)算了各模擬樣本中各方法重要性估計(jì)值之和，將變量重要性指標(biāo)和與R2之差的絕對值作為評價(jià)各方法估計(jì)偏差的統(tǒng)計(jì)量，如下表所列：

表3 各方法的重要性指標(biāo)之和與模型R2之偏差

樣本量設(shè)置為從100到10000逐級增加，從上表可以看出，重要性的直接效應(yīng)指標(biāo)簡單相關(guān)系數(shù)平方R2對應(yīng)的差值為0.4584±0.0391，而總效應(yīng)指標(biāo)標(biāo)準(zhǔn)回歸系數(shù)平方β2對應(yīng)的差值為0.2810±0.0127，均不能滿足估計(jì)值之和應(yīng)該等于總模型的r2這一基本準(zhǔn)則。而優(yōu)勢分析的偏差量為0.0000±0.0000，相對權(quán)重和乘積尺度法(βr)對應(yīng)的差值分別為0.0019±0.0030和0.0079±0.0077，這三個(gè)方法的差值均比R2和β2小，且極接近0，尤以優(yōu)勢分析為甚。此外，可見樣本量較小時(shí)，相對權(quán)重和乘積尺度法的重要性估計(jì)值之和與模型R2總?cè)杂胁罹啵?dāng)樣本量增大時(shí)，估計(jì)值之和與模型R2間差值縮小，但相對權(quán)重仍好于乘積尺度。而優(yōu)勢分析則不受樣本量變化的影響。

由于各樣本均來自同一總體，因此各模擬數(shù)據(jù)集雖然樣本量不同，但自變量相對重要性估計(jì)值之間仍具有可比性。以各自變量估計(jì)方法對應(yīng)的差值作圖如下，以觀察各方法隨樣本量增大而出現(xiàn)的變化趨勢：

圖1 不同樣本量的模擬樣本中自變量重要性估計(jì)值

從上圖可以看出，r2的估計(jì)值明顯偏大，β2的估計(jì)值明顯偏小，而優(yōu)勢分析、相對權(quán)重以及乘積尺度三種方法的估計(jì)值相差無幾。雖然各樣本均來自同一總體相關(guān)陣，但可以看出，樣本量較小時(shí)，各方法的重要性估計(jì)值變異較大，隨著樣本量增大估計(jì)值也逐漸趨于穩(wěn)定。

2.同一總體中重復(fù)抽樣對各方法重要性指標(biāo)的影響

隨機(jī)抽樣是研究者為了研究目標(biāo)人群總體參數(shù)的重要手段，眾所周知，隨機(jī)抽取的樣本并不能完全等價(jià)于總體。從上節(jié)的結(jié)果可以看出，當(dāng)樣本量較小時(shí)，各重要性評價(jià)方法的估計(jì)結(jié)果并不穩(wěn)定，因此，有必要觀察和比較從同一總體中重復(fù)抽樣時(shí)，各方法的穩(wěn)定性。

本研究中，重復(fù)抽樣的總體仍沿用上節(jié)中的四各自變量相關(guān)陣，并模擬一個(gè)樣本量為10000的數(shù)據(jù)集作為抽樣所用的總體，抽樣過程調(diào)用SAS中的PROC SURVEYSELECT 過程，樣本量大小100。研究所用的總體相關(guān)結(jié)構(gòu)和各自變量相對重要性見表4。

本次研究共完成1000次抽樣，使用以上五種方法對每一個(gè)抽樣樣本進(jìn)行相對重要性評價(jià)，將樣本的估計(jì)值與總體參數(shù)相比較，并使用變異系數(shù)來評價(jià)各方法估計(jì)值的穩(wěn)定性。結(jié)果如下：

表4 總體相關(guān)結(jié)構(gòu)與自變量相對重要性

表5 抽樣樣本中X1的重要性指標(biāo)估計(jì)值

表6 抽樣樣本中X2的重要性指標(biāo)估計(jì)值

表7 抽樣樣本中X3的重要性指標(biāo)估計(jì)值

表8 抽樣樣本中X4的重要性指標(biāo)估計(jì)值

可以看出，優(yōu)勢分析、相對權(quán)重、乘積尺度(βr)和標(biāo)準(zhǔn)回歸系數(shù)平方(β2)、簡單相關(guān)系數(shù)平方(R2)在評價(jià)各自變量的相對重要性時(shí)，前三種方法的變異系數(shù)均比后兩種方法小，表現(xiàn)出了更好的穩(wěn)定性。從樣本指標(biāo)均值與總體估計(jì)值間的偏差量來看，相對權(quán)重法的偏差量為0.0009～0.0085，簡單相關(guān)系數(shù)平方(R2)為0.0002～0.0080，變化較大。優(yōu)勢分析的偏差量為0.0012～0.0048，乘積尺度和標(biāo)準(zhǔn)回歸系數(shù)平方的偏差量分別為0.0007～0.0028和0.0001～0.0032。

討論

評價(jià)不同樣本量對重要性估計(jì)結(jié)果的影響時(shí)，研究結(jié)果顯示標(biāo)準(zhǔn)回歸系數(shù)平方的指標(biāo)值之和明顯小于模型中R2，而簡單相關(guān)系數(shù)平方的指標(biāo)值之和明顯大于模型R2，其原因在前文中已有討論，這也與其他研究者的結(jié)論一致。兩方法的指標(biāo)值之和與模型R2的差值也未隨樣本量增大而表現(xiàn)出明顯的變化趨勢。乘積尺度、優(yōu)勢分析、相對權(quán)重法三種方法的指標(biāo)和與R2之差，均十分接近于0，其中優(yōu)勢分析法的差值為0.0000±0.0000，且不隨樣本量大小變化而改變。而相對權(quán)重和乘積尺度法(βr)對應(yīng)的差值分別為-0.0019±0.0030和0.0005±0.0111。此外，可見樣本量較小時(shí)，相對權(quán)重和乘積尺度法的重要性估計(jì)值之和與模型R2總?cè)杂胁罹啵?dāng)樣本量增大時(shí)，估計(jì)值之和與模型R2間差值縮小。

為了評估對同一總體的重復(fù)抽樣過程是否影響各方法的重要性估計(jì)結(jié)果，本研究使用了變異系數(shù)來作為評價(jià)指標(biāo)，發(fā)現(xiàn)標(biāo)準(zhǔn)回歸系數(shù)平方的結(jié)果變異程度最大，簡單相關(guān)系數(shù)平方次之，而優(yōu)勢分析的結(jié)果變異最小，重要性估計(jì)結(jié)果最為穩(wěn)定。

在實(shí)際工作中，需估計(jì)自變量相對重要性時(shí)，如果自變量間存在共線性，不應(yīng)使用標(biāo)準(zhǔn)回歸系數(shù)平方和簡單相關(guān)系數(shù)平方等傳統(tǒng)指標(biāo)。相對權(quán)重法要好于乘積尺度法，但優(yōu)勢分析法對模擬R2的估計(jì)最為貼近。盡管優(yōu)勢分析法的計(jì)算較為復(fù)雜，但隨著計(jì)算機(jī)硬件的升級，這一問題不再突出。因此當(dāng)研究數(shù)據(jù)樣本量較小時(shí)(<500)時(shí)，研究者應(yīng)盡量使用優(yōu)勢分析法來進(jìn)行自變量的相對重要性估計(jì)，樣本量較大(>600)或?yàn)橛?jì)算簡便，可選用相對權(quán)重法。

[1]賈孝霞,伍立志,楊文.對策理論在線性回歸模型自變量重要性估計(jì)中的分析及應(yīng)用.第二軍醫(yī)大學(xué)學(xué)報(bào),2014,25(8):865-869.

[2]代魯燕,張波,黃啟風(fēng).相對權(quán)重法在線性模型自變量相對重要性中的估計(jì)及其應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2013,30(1):19-20.

[3]賈孝霞,伍立志,沈其君.線性回歸中自變量重要性估計(jì)的平均秩序方差分解法.中國衛(wèi)生統(tǒng)計(jì),2014,31(3):535-537.

[4]Bring J.A geometric approach to compare variables in a regression model.Am Stat,1996,50(3):57-62.

[5]Budescu DV.Dominance analysis A new approach to the problem of relative importance of predictors in multiple regression.Psychol Bull,1993,114(3):542-551.

[6]Azen R,Budescu DV.The dominance analysis approach for comparing predictors in multiple regression.Psychol Methods,2003,8(2):129-148.

[7]Huo Y,Budescu DV.An Extension of Dominance Analysis to Canonical Correlation Analysis.Mult Behav Res,2009,44(5):688-709.

[8]Johnson JW.A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression.Mult Behav Res,2000,35(1):1-19.

[9]Lebreton JM,Tonidandel S.Multivariate relative importance:Extending relative weight analysis to multivariate criterion spaces.J Appl Psychol,2008,93(2):329-345.

[10]張波,代魯燕,黃啟風(fēng).logistic回歸中自變量相對重要性的相對權(quán)重估計(jì).中國衛(wèi)生統(tǒng)計(jì),2012,29(2):191-192.

[11]Kaiser HF,Dickman K.Sample and population score matrices and sample correlation matrices from an arbitrary population correlation matrix.Psychometrika,1962,27(2):179-182.

[12]Fan X,Felsovaly A,Sivp SA.SAS for Monte Carlo Studies A Guide for Quantitative Researchers.SAS Publishing,2003.

[13]Cjap YCE,Zhao Y,Kupper LL.Quantifying the Relative Importance of Predictors in Multiple Linear Regression Analyses for Public Health Studies.J Occup Environ Hyg,2008,5(8):519-529.

(責(zé)任編輯：郭海強(qiáng))

The Impact of Sample-size and Sample-process on Several Usual Importance Evaluate Methods

Wu Lizhi,Jia Xiaoxia,Shen Qijun

(SchoolofMedicine,NingboUniversity(315211)，Ningbo)

Objective Implement random sample from a simulation population,to evaluate the The impact of sample-size and sample-process on several usual importance evaluate methods,observe the stability of those methods.Methods This study introduced existed importance methods,using PROC SURVEYSELECT procedure to sample a fixed population for 1000 times,generating 1000 same size sample,to evaluate the stability of relative importance methods.We sampled the population to generate datasets with different sample size to observe impact of sample-size on those methods.Results The sum of squared correlation coefficients′ estimator is bigger than model R-square,squared standardized regression coefficients′ sum is smaller.In contrary,sum of the Product Measure,Relative Weight and Dominance Analysis are extremely close to model R-square.When the sample size small than 1000,the estimator have obviously variation,but the variation decreased when the sample size rise up.Conclusion The dominance analysis has best stability,also has the best match of model R2in those methods.

Relative importance;Sample-size;Sample-process;Monte Carlo simulation

國家自然基金(81172771)浙江省醫(yī)藥衛(wèi)生科技項(xiàng)目(2016KYB062)

1.浙江省疾病預(yù)防控制中心(310051)

2.浙江醫(yī)藥高等?？茖W(xué)校

3.寧波大學(xué)醫(yī)學(xué)院預(yù)防醫(yī)學(xué)系

△通信作者：

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

樣本量及抽樣過程對線性模型中自變量重要性估計(jì)方法的影響研究*

自變量相對重要性估計(jì)方法簡介

參數(shù)設(shè)置及實(shí)驗(yàn)過程

生成模擬數(shù)據(jù)

結(jié) 果

討 論

討論