国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

線性模型中自變量相對重要性常見估計(jì)方法的模擬比較研究*

2015-01-27 12:28:51伍立志賈孝霞沈其君
中國衛(wèi)生統(tǒng)計(jì) 2015年5期
關(guān)鍵詞:乘積回歸系數(shù)分析法

伍立志 楊 文 賈孝霞 沈其君△

線性模型中自變量相對重要性常見估計(jì)方法的模擬比較研究*

伍立志1楊 文2賈孝霞3沈其君2△

目的 比較和評價(jià)不同實(shí)驗(yàn)條件下常見估計(jì)方法在估計(jì)自變量相對重要性時(shí)的指標(biāo)差異,探索影響各方法的估計(jì)結(jié)果差異的因素。方法 通過設(shè)置不同相關(guān)程度、自變量共線性水平及自變量個(gè)數(shù)等因子,使用改進(jìn)后的大規(guī)模模擬研究觀察不同方法間自變量估計(jì)值。結(jié)果 優(yōu)勢分析、相對權(quán)重、乘積尺度的重要性估計(jì)值之和與模型R2之差,小于標(biāo)準(zhǔn)回歸系數(shù)平方、簡單相關(guān)系數(shù)平方。在2400個(gè)重要性指標(biāo)值中,乘積尺度法估計(jì)的負(fù)值達(dá)到229個(gè)(9.54%)。相關(guān)系數(shù)平方估計(jì)值小于優(yōu)勢分析法。標(biāo)準(zhǔn)回歸系數(shù)平方出現(xiàn)較多極端值。自變量間共線性水平可解釋平均Kendallτ值4%~25%的變異,樣本量可解釋20%~77%的變異,而自變量個(gè)數(shù)可解釋14%~60%的變異。結(jié)論 對自變量重要性估計(jì)結(jié)果的影響最大的兩個(gè)因子是樣本量和自變量個(gè)數(shù),其次有共線性水平和自變量與因變量間的相關(guān)程度。標(biāo)準(zhǔn)回歸系數(shù)平方的估計(jì)結(jié)果變異性最大,相對權(quán)重與優(yōu)勢分析的估計(jì)結(jié)果是相對“有偏”的。

線性模型 相對重要性 方法比較 模擬研究

在評價(jià)線性回歸模型中自變量的相對重要性時(shí),常用的方法包括簡單相關(guān)系數(shù)平方、標(biāo)準(zhǔn)回歸系數(shù)[1-2]等。當(dāng)針對自變量間存在共線性的情況,研究者先后提出了乘積尺度法、優(yōu)勢分析法及相對權(quán)重法。國外相關(guān)研究[3-4]均發(fā)現(xiàn)優(yōu)勢分析和相對權(quán)重雖理論基礎(chǔ)不同,得到的重要性估計(jì)結(jié)果卻非常相近。課題組在以往研究中使用基于主成分分析的大規(guī)模模擬研究全面比較和評價(jià)這兩種方法[5],并以此為基礎(chǔ),在本研究中使用改進(jìn)后的大規(guī)模模擬研究對相關(guān)系數(shù)平方(r2)、標(biāo)準(zhǔn)回歸系數(shù)平方(β2)、乘積尺度(βr)以及相對權(quán)重和優(yōu)勢分析五種自變量估計(jì)方法進(jìn)行比較,以探索各方法估計(jì)結(jié)果的差異。

幾種常見的相對重要性方法簡介

1.兩種傳統(tǒng)的自變量相對重要性估計(jì)方法

在估計(jì)自變量相對重要性時(shí),有許多傳統(tǒng)的指標(biāo)和方法,包括標(biāo)準(zhǔn)回歸系數(shù)、Pearson相關(guān)系數(shù)以及偏相關(guān)和半偏相關(guān)系數(shù)等。在不考慮其他自變量的影響,只關(guān)注每個(gè)自變量與因變量間直接關(guān)系時(shí),通常用簡單相關(guān)系數(shù)的平方(r2)來表示。而在其他自變量存在的情況下,考慮某個(gè)自變量對因變量變異的預(yù)測能力,常用標(biāo)準(zhǔn)回歸系數(shù)平方(β2)表示。

2.乘積尺度 Hoffman于1960年指出模型中自變量(x)的標(biāo)準(zhǔn)回歸系數(shù)(βx)與相應(yīng)的簡單相關(guān)系數(shù)(rxy),兩者之積和即為決定系數(shù)R2,對應(yīng)的以其乘積βxrxy為每一自變量對因變量變異的貢獻(xiàn),這一方法被Bring等人命名為“乘積尺度”(Product Measure)[6]。

3.優(yōu)勢分析 1993年,Budescu提出了“優(yōu)勢分析”方法,對于任意兩個(gè)自變量xi和xj,相對于余下p-2個(gè)自變量的任意子集xh,xi均能取得比xj更大的半偏相關(guān)系數(shù)平方,則稱xi對xj具有“優(yōu)勢”[7],Azen和Budescu在2003年修訂了“優(yōu)勢”這一定義。將優(yōu)勢分析方法分為完全優(yōu)勢分析、條件優(yōu)勢分析和一般優(yōu)勢分析[8],本文采用了一般優(yōu)勢分析的方法和定義來估計(jì)各自變量的相對重要性[9]。

4.相對權(quán)重 Johnson提出了(法即相對權(quán)重。它是將自變量Xj正交轉(zhuǎn)換得到的正交變量ZK,以因變量Y對Zk做回歸得到回歸系數(shù)βk,每個(gè)自變量Xj分別對Zk做回歸得到回歸系數(shù)λjk。要計(jì)算每個(gè)自變量的相對重要性,只需計(jì)算每個(gè)自變量對應(yīng)兩組回歸系數(shù)的積和ε[3]。公式如下:

(1)

模擬研究及兩方法比較的參數(shù)設(shè)置及實(shí)驗(yàn)過程

1.參數(shù)設(shè)置

本研究對前期研究中的大規(guī)模模擬方法進(jìn)行改進(jìn)[5],剔除或簡化對重要性評價(jià)結(jié)果無影響或影響極小的實(shí)驗(yàn)因子,添加樣本量作為新的因子,對上述五種自變量估計(jì)方法進(jìn)行比較。本研究選取優(yōu)勢分析作為各方法比較的基準(zhǔn),以比較各方法與其的指標(biāo)值之差和一致性分析結(jié)果。研究所用的參數(shù)設(shè)置如表1。

2.模擬實(shí)驗(yàn)過程

本文基于LeBreton等人在2004年提出的模擬過程[11],在主成分分析的框架內(nèi),將相關(guān)陣分解成定義三個(gè)主成分的八個(gè)實(shí)驗(yàn)因子。通過這些實(shí)驗(yàn)因子產(chǎn)生組成主成分的特征值λ及因子載荷陣,進(jìn)而生成模擬數(shù)據(jù)的相關(guān)陣,再使用Fan等人的方法產(chǎn)生樣本數(shù)據(jù)集[12],進(jìn)行自變量相對重要性分析。

*:實(shí)驗(yàn)因子一共可組成5 × 1 ×4 × 1 × 5 ×4 =400種不同的實(shí)驗(yàn)條件,每種實(shí)驗(yàn)條件下,重復(fù)產(chǎn)生100份模擬數(shù)據(jù)。

3.評價(jià)方法

為了比較各方法的相對重要性估計(jì)值,每一個(gè)實(shí)驗(yàn)條件下,計(jì)算每一個(gè)變量對應(yīng)的估計(jì)值的差值d(d=優(yōu)勢分析-其他各方法),再計(jì)算同一條件下各變量指標(biāo)差的均值,觀測的分布特征,以判斷兩方法的指標(biāo)值之間的差別。為了比較各方法的自變量重要性排序結(jié)果,用Kendall系數(shù)對各方法的自變量重要性結(jié)果與優(yōu)勢分析結(jié)果進(jìn)行一致性檢驗(yàn),計(jì)算每一實(shí)驗(yàn)條件下對應(yīng)的平均Kendallτ值。將每一個(gè)實(shí)驗(yàn)條件看作是一組觀測值,其中六個(gè)實(shí)驗(yàn)因子便可看作是一組相互獨(dú)立的新自變量,再以對應(yīng)的平均Kendallτ值作為一個(gè)新的因變量,此時(shí)便可得到一個(gè)樣本量為400的新“數(shù)據(jù)集”。對其做回歸,回歸模型中,所有實(shí)驗(yàn)因子均有意義且相互獨(dú)立,可對這組新的自變量進(jìn)行重要性估計(jì),同時(shí)觀察實(shí)驗(yàn)因子在不同水平時(shí)導(dǎo)致的平均Kendallτ值變化,評價(jià)實(shí)驗(yàn)因子對各方法結(jié)果差異的影響。

結(jié) 果

1.各方法與優(yōu)勢分析法之間的重要性估計(jì)值之差

各方法與優(yōu)勢分析法之間的指標(biāo)差做直方圖如下:

標(biāo)準(zhǔn)回歸系數(shù)平方對應(yīng)的分布較好的分布在0周圍,但這一方法出現(xiàn)較多極端值,這是其他三種方法未有的現(xiàn)象。最小者為-2.0221,其絕對值遠(yuǎn)大于對因變量的重要性估計(jì)值。相關(guān)系數(shù)平方的分布較分散,估計(jì)結(jié)果呈現(xiàn)較大的變異性,呈左偏態(tài)分布,估計(jì)值比優(yōu)勢分析的重要性指標(biāo)偏小。乘積尺度法與優(yōu)勢分析法較為貼近,其對應(yīng)的集中分布于0周圍,但范圍稍寬,四分位間距和極差分別為0.0144和2.7614??梢钥闯鲇休^大一部分差值大于0。相對權(quán)重法對應(yīng)的集中分布于0位的右側(cè)且呈明顯的偏態(tài)分布。這與前期研究結(jié)果相符。

為了觀察本次研究中各實(shí)驗(yàn)因子對各方法指標(biāo)差的影響,將各方法對應(yīng)的指標(biāo)差隨實(shí)驗(yàn)因子改變而變化的情況列表如下。

2.各方法與優(yōu)勢分析法之間的一致性分析

根據(jù)各方法與優(yōu)勢分析法間一致性結(jié)果的回歸分析,可發(fā)現(xiàn)自變量與因變量間平均相關(guān)程度(因子1)可解釋平均Kendallτ值2%~13%的變異,而共線性水平(因子3)可解釋平均Kendallτ值4%~25%的變異,樣本量可解釋20%~77%的變異,而自變量個(gè)數(shù)可解釋14%~60%的變異。具體如下列各表所示:

*:R2=0.7492,F(xiàn)=294.97,P<0.0001,所有因子的回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義且P<0.0001。

*:R2=0.6268,F(xiàn)=165.87,P<0.0001,所有因子的回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義且P<0.0001。

*:R2=0.6857,F(xiàn)=215.49,P<0.0001,所有因子的回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義且P<0.0001。

討 論

在本次研究中優(yōu)勢分析、相對權(quán)重和乘積尺度法的估計(jì)結(jié)果十分接近,不僅驗(yàn)證了以往研究者的推斷,也證明了本次研究選取優(yōu)勢分析法作為方法比較基準(zhǔn)的可行性。值得注意的是,本研究中選取了優(yōu)勢分析法作為比較各方法的基準(zhǔn),這絕不是說優(yōu)勢分析是估計(jì)自變量相對重要性的最優(yōu)方法。目前的幾種重要性估計(jì)方法各有優(yōu)劣,而且學(xué)者對重要性方法的評價(jià)準(zhǔn)則尚存爭議。

*:R2=0.5227,F(xiàn)=108.14,P<0.0001,所有因子的回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義且P<0.0001。

在前期研究的基礎(chǔ)上將實(shí)驗(yàn)因子進(jìn)行適當(dāng)?shù)脑鰷p后 ,對比標(biāo)準(zhǔn)回歸系數(shù)平方、相關(guān)系數(shù)平方、乘積尺度、相對權(quán)重以及優(yōu)勢分析五種方法,發(fā)現(xiàn)標(biāo)準(zhǔn)回歸系數(shù)平方出現(xiàn)了較多的極端值,可能因?yàn)槟P椭谐霈F(xiàn)某些高度相關(guān)的自變量而導(dǎo)致。相關(guān)系數(shù)平方與優(yōu)勢分析的指標(biāo)差不受樣本量變化的影響,但自變量個(gè)數(shù)增大時(shí),指標(biāo)差會(huì)增大。乘積尺度法與優(yōu)勢分析的指標(biāo)差最為貼近,不受實(shí)驗(yàn)因子變化影響,但乘積尺度的最大缺點(diǎn)有負(fù)估計(jì)值的出現(xiàn),相對權(quán)重依然相比優(yōu)勢分析的重要性估計(jì)值偏小,且隨著樣本量和自變量個(gè)數(shù)增大而逐漸接近優(yōu)勢分析。

在估計(jì)自變量相對重要性時(shí),如果自變量間存在共線性,不應(yīng)使用標(biāo)準(zhǔn)回歸系數(shù)平方和簡單相關(guān)系數(shù)平方等傳統(tǒng)指標(biāo)。相對權(quán)重法要好于乘積尺度法。相對權(quán)重法可看作是優(yōu)勢分析的“有偏估計(jì)”,盡管優(yōu)勢分析法的計(jì)算較為復(fù)雜,但隨著計(jì)算機(jī)硬件的升級(jí),這一問題不再突出。因此,本文推薦使用優(yōu)勢分析法來進(jìn)行自變量的相對重要性估計(jì)。

本研究已經(jīng)討論的標(biāo)準(zhǔn)回歸系數(shù)平方、簡單相關(guān)系數(shù)平方、乘積尺度、相對權(quán)重以及優(yōu)勢分析,近年來還出現(xiàn)了PMVD法、隨機(jī)森林法[13]以及基于對策理論的Shapley value,不同方法間重要性估計(jì)的差異更有待研究,模擬研究以其研究結(jié)果可信、省時(shí)省力等優(yōu)點(diǎn)逐漸為研究者所接受并推廣。均可以本研究中的大規(guī)模Monte Carlo模擬來進(jìn)行比較和評價(jià)。以后的研究中可關(guān)注諸如共線性水平、自變量個(gè)數(shù)、樣本量大小等實(shí)驗(yàn)因子影響方法間重要性估計(jì)差異的機(jī)理??赡艿脑挘瑢ふ冶纫恢滦栽u價(jià)更合適的方法作為評價(jià)不同方法的重要性估計(jì)結(jié)果。

[1]張波,代魯燕,黃啟風(fēng).logistic回歸中自變量相對重要性的相對權(quán)重估計(jì).中國衛(wèi)生統(tǒng)計(jì),2012,29(2): 191-192.

[2]賈孝霞,伍立志,沈其君.線性回歸中自變量重要性估計(jì)的平均秩序方差分解法.中國衛(wèi)生統(tǒng)計(jì),2014,31(3): 535-537.

[3]JOHNSON JW.A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression.Multivariate Behavioral Research,2000,35(1): 1-19.

[4]CHAO YCE,ZHAO Y,KUPPER LL.Quantifying the Relative Importance of Predictors in Multiple Linear Regression Analyses for Public Health Studies.Journal of Occupational and Environmental Hygiene,2008,5(8): 519-529.

[5]伍立志,賈孝霞,沈其君.自變量相對重要性評價(jià)中優(yōu)勢分析法和相對權(quán)重法的模擬比較.中國衛(wèi)生統(tǒng)計(jì),2014,31(1): 104-106.

[6]BRING J.A geometric approach to compare variables in a regression model.The American Statistician,1996,50(3): 57-62.

[7]BUDESCU DV.Dominance analysis A new approach to the problem of relative importance of predictors in multiple regression.Psychological Bulletin,1993,114(3): 542-551.

[8]AZEN R,BUDESCU DV.The dominance analysis approach for comparing predictors in multiple regression.Psychological Methods,2003,8(2): 129-148.

[9]HUO Y,BUDESCU DV.An Extension of Dominance Analysis to Canonical Correlation Analysis.Multivariate Behavioral Research,2009,44(5): 688-709.

[10]LEBRETON JM,TONIDANDEL S.Multivariate relative importance: Extending relative weight analysis to multivariate criterion spaces.Journal of Applied Psychology,2008,93(2): 329-345.

[11]LEBRETON J M,PLOYHART R E,LADD R T.A Monte Carlo Comparison of Relative Importance Methodologies.Organizational Research Methods,2004,7(3): 258-282.

[12]FAN X,FELSOVALY A,SIVO SA.SAS for Monte Carlo Studies A Guide for Quantitative Researchers.SAS Publishing,2003.

[13]STROBL C,BOULESTEIX AL,ZEILEIS A.Bias in random forest variable importance measures: illustrations,sources and a solution.BMC Bioinformatics,2007,8(25): 1-21.

(責(zé)任編輯:郭海強(qiáng))

國家自然基金(81172771);浙江省自然科學(xué)基金(LQ14H260003)

1.浙江省疾病預(yù)防控制中心環(huán)境與職業(yè)衛(wèi)生所(310051)

2.寧波大學(xué)

3.浙江醫(yī)藥高等??茖W(xué)校

△通信作者:沈其君,E-mail:shenqijun@nbu.edu.cn

猜你喜歡
乘積回歸系數(shù)分析法
異步機(jī)傳統(tǒng)分析法之困難及其克服
乘積最大
Dirichlet級(jí)數(shù)及其Dirichlet-Hadamard乘積的增長性
多元線性回歸的估值漂移及其判定方法
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
基于時(shí)間重疊分析法的同車倒卡逃費(fèi)探析
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
層次分析法在SWOT分析法中的應(yīng)用
AHP和SWOT分析法在規(guī)劃編制中的應(yīng)用
復(fù)變?nèi)呛瘮?shù)無窮乘積的若干應(yīng)用
汝州市| 临西县| 赞皇县| 忻州市| 西宁市| 苍山县| 布尔津县| 桑植县| 图木舒克市| 长宁县| 开鲁县| 邹城市| 英超| 和龙市| 孝昌县| 富源县| 贺州市| 上饶市| 霍邱县| 江都市| 瓦房店市| 淄博市| 双鸭山市| 白山市| 沭阳县| 班戈县| 高唐县| 高邑县| 宁海县| 那坡县| 突泉县| 沂南县| 怀化市| 彩票| 山西省| 平邑县| 曲靖市| 晋宁县| 田林县| 竹山县| 平和县|