国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

線性回歸中自變量重要性估計的平均秩序方差分解法*

2014-03-10 05:25賈孝霞伍立志沈其君
中國衛(wèi)生統(tǒng)計 2014年3期
關(guān)鍵詞:次序個數(shù)方差

賈孝霞伍立志沈其君,2△

線性回歸中自變量重要性估計的平均秩序方差分解法*

賈孝霞1伍立志1沈其君1,2△

19世紀(jì)以來,在自變量間存在多重共線性時估計自變量相對重要性的方法研究取得了較大地突破和快速地發(fā)展[1-2]。Lindeman于1980年[3],Cox于1985年[4]和Kruskal于1987年[5-6]分別提出了基于平均秩序產(chǎn)生不同的方差分解法估計每個自變量對因變量的重要性。在1992和2000年,Soofi[7-8]等人提出了一個正式的判定方法和在一個統(tǒng)一準(zhǔn)則的基礎(chǔ)上提出了以最大化熵為基礎(chǔ)的平均所有次序的一般化的方法。近幾十年來,許多研究者從不同的角度重新改造和發(fā)展了這個理論,同時對每種方法以不同的名字命名。而實際上,這些方法的提出都是基于Shapely在1953年提出的對策理論的Shapley值的求解方法。

平均秩序的方差分解法

1.平均半偏相關(guān)系數(shù)平方法

平均半偏相關(guān)系數(shù)平方法也稱LMG法[3]是由Lindeman、Merenda和Gold于1980年提出,于1987年由Kruskal[5-6]推廣而被廣泛關(guān)注[9]。該方法是分別取三位學(xué)者名字的首字母而命名。該方法對于p個自變量的所有P!可能的排序,估計Xk的貢獻(xiàn)公式為:

其中,序列記為r,r=1,2…,p?。籹eqR2({Xk|r})為在第r個排序中自變量Xk所在模型的連續(xù)平方和。

2.比例邊界方差分解法

比例邊界方差分解法也稱Proportional Marginal Variance Decomposition(PMVD)[10-12],是由Feldman于2005年在LMG方法上做了一個加權(quán)提出的一種方法。計算公式為:

3.分層劃分法

分層劃分法也稱Hierarchical Partitioning[14],是由Chevan和Sutherland于1991年提出,這種方法指出因變量y和xi間的相關(guān)系數(shù)的平方r2劃分為一個獨立成分Ii和一個聯(lián)合成分Ji。其關(guān)系表達(dá)式為:

文獻(xiàn)指出,如果用R2測量模型擬合優(yōu)度,那么為正,表明相關(guān)自變量含有關(guān)于y的冗余信息。有時為負(fù),說明相關(guān)自變量含有關(guān)于y的冗余信息有時是錯誤的[15]。

4.優(yōu)勢分析法

優(yōu)勢分析也稱Dominance Analysis(DA)[16-20],是由Budescu和Azen于1993年提出,于2003年進(jìn)一步完善的自變量重要性的估計方法。優(yōu)勢分析中自變量xi的重要性計算公式為:

5.對策理論法

對策理論法也稱Shapley Value(SV)[21-26],是由Lipovetsky和Conklin于2001年提出[21],Conklin[22]于2004年進(jìn)一步完善的自變量重要性估計方法。這種方法對自變量xi的重要性估計公式如下:

6.信息測量法

信息測量法也稱Information Measures[27-28],是由Theil于1987年,Theil和Chung于1988年利用平均次序的思想但是使用不同的統(tǒng)計信息理論測量方法提出的一種方法。R2的信息測量定義為p個自變量半偏相關(guān)系數(shù)平方的信息和,其關(guān)系式表達(dá)為:

其中,I(x)=-0.5log(1-x),對于0≤x<1。信息測量法計算自變量權(quán)重通過平均所有p!次序得出。

7.臨界值法

臨界值法也稱Criticality[18],是由Azen等人于2001年提出在多元回歸模型中測量自變量重要性的一個新的方法。自變量的臨界值定義為對于一個給定的總體中,自變量被納入到最佳子模型中的概率。確定自變量的臨界值有以下四步:

(1)用bootstrap法從原始數(shù)據(jù)中抽取一個大樣本。

(2)對抽取的每個數(shù)據(jù)集,根據(jù)同一準(zhǔn)則選擇最佳模型。

(3)根據(jù)選擇的最佳模型分別得出2p-1個子模型的相對頻率。

(4)得出每個自變量被納入最佳模型的概率即臨界值。

臨界值法測量自變量重要性不是依賴于原始數(shù)據(jù)組成的特定模型,而是平均了由原始數(shù)據(jù)的重復(fù)抽樣組成的最佳模型中某個自變量被納入出現(xiàn)的概率值作為該自變量的重要性值,因此也算作平均秩次方法。

前提條件與對策理論的基礎(chǔ)

線性回歸模型中,基于平均秩次的方差分解法估計自變量重要性的方法的前提條件是當(dāng)自變量之間存在多重共線性以及自變量的重要性排序獨立且未知的情況下,求解自變量重要性除臨界值以外都是以模型的選擇和模型的擬合優(yōu)度為條件,即基于平均秩次的方法將模型的R2分配給每個自變量的非負(fù)貢獻(xiàn),也就是要求所有自變量的重要性的估計值之和必須等于模型的R2,且每個自變量的重要性估計值必須非負(fù)。而臨界值法的測量是不依賴模型的選擇而是考慮了所有可能的模型而不是自變量的次序。

基于平均秩次的方差分解法這個概念是由Lindeman、Merenda和Gold三人于1980年首先提出,后續(xù)的幾種方法除臨界值法都是在此方法上加以改變。但事實上,大量的文獻(xiàn)指出基于平均秩次的思想與Shapley在1953年提出在對策理論中計算效益分配問題的思想是一致的。Cox于1985年推導(dǎo)出對策理論中求解Shapley value的數(shù)學(xué)公式和基于平均次序的方差分解法求自變量重要性是等同的[4]。Stufken指出分層劃分法中的獨立成分I也是等同于Shapley Value[29]。Feldman[10,30]和Ortmann[31]也指出PMVD是對策論中求解Shapley Value的一個實例。優(yōu)勢分析和LMG法本質(zhì)上和Shapley Value法是等同的,都是將模型的R2通過平均秩次的方法分配給每個自變量。所以對策理論的Shapley Value法提供了另一個通過平均秩次計算自變量相對重要性的具有深淵意義的理論方法。對策理論解決的問題就是在一項多人參與工作中,找到一種方法將合作產(chǎn)生的效益公平、有效的分配給每個參與者,實際上就是對參與者貢獻(xiàn)的排序,這與線性回歸模型中求解自變量重要性的問題是同構(gòu)的。對策理論的基礎(chǔ)是在一個n人參與的聯(lián)盟中,找到一個能夠代表每個聯(lián)盟貢獻(xiàn)的特征函數(shù)v,v(S)表示參與者聯(lián)盟S(聯(lián)盟中成員的個數(shù)為s)的貢獻(xiàn),讓參與者i進(jìn)入聯(lián)盟S,計算參與者i的邊緣貢獻(xiàn){v(S∪i)-v(S)},考慮到參與者進(jìn)入聯(lián)盟的次序和組成聯(lián)盟的人數(shù)不同,平均參與者i組成的所有可能的子集的邊緣貢獻(xiàn),在1953年,Shapley在文獻(xiàn)中基于四個公理給出了計算公式-v(S)],后來Roberts也給出了詳細(xì)的數(shù)學(xué)推導(dǎo),使得計算公式也作為公理而被廣泛應(yīng)用。

總結(jié)和展望

本文總結(jié)了幾種近年來在不同領(lǐng)域文獻(xiàn)中出現(xiàn)的當(dāng)自變量存在多重共線時基于平均次序的方差分解法估計自變量的重要性的方法。基于平均次序的方差分解法估計自變量的重要性方法的提出使得回歸模型的應(yīng)用更加廣泛。這種方法是基于Achen于1982年提出三種重要性中的離散重要性,即各自變量對因變量變異的貢獻(xiàn)[32-33]。這些方法都克服了傳統(tǒng)方法的一些缺陷,因為它們考慮了所有可能的子模型。另外對策理論中的Shapley Value的求解是基于一些準(zhǔn)則和公理推導(dǎo)得出,這使得用Shapley value估計自變量的重要性更為準(zhǔn)確和可信[33]。但是,基于平均次序的方差分解法都是首先找到一個度量的方法,然后計算了自變量在不同組合序列中以不同的次序進(jìn)入模型求出其度量準(zhǔn)則然后求其平均,這就決定了平均次序方法對計算機的要求較高。平均次序方法對于中等的自變量的個數(shù)的相對權(quán)重的計算也需要較大的計算量,所以當(dāng)自變量的個數(shù)太多時,例如超過30,這種方法便不可用了。另外,在樣本中,如果自變量的個數(shù)超過觀測個數(shù)時,這種方法也不可用了[33]。當(dāng)自變量的個數(shù)較大時,計算量也增加的很快,這也限制了這種方法的進(jìn)一步使用[32-33]。因此,當(dāng)自變量存在多重共線時,如何在構(gòu)建統(tǒng)一的期望準(zhǔn)則下準(zhǔn)確、簡單地估計自變量重要性的方法仍是一個有待研究的問題。

1.代魯燕,張波,黃啟風(fēng).相對權(quán)重法在線性模型自變量相對重要性中的估計及其應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(1):19-22.

2.張波,代魯燕,黃啟風(fēng).logistic回歸中自變量相對重要性的相對權(quán)重估計.中國衛(wèi)生統(tǒng)計,2012;29(2):191-195.

3.Lindeman RH,Merenda PF,Gold RZ.Introduction to Bivariate and Multivariate Analysis:Scott,F(xiàn)oresman,1980.

4.Cox LA.A new measure of attributable risk for public health applications Management Science,1985,31(7):800-813.

5.KruskalW.Correction to“relative importance by averageing over orderings”.The American Statistician,1987a,41:341.

6.KruskalW.Relative Importance by Averaging Over Orderings.The A-merican Statistician,1987b,41(1):6-10.

7.Soofi ES.A generalizable formulation of conditional logitw ith diagnostics.American Statistical Association,1992,87:812-816.

8.Soofi ES.A framework formeasuring the importance of variables w ith applications to management research and decisionmodels.Decision Sciences,2000,31(3):1-31.

9.孫紅衛(wèi),王玖,羅文海.線性回歸模型中自變量相對重要性的衡量.中國衛(wèi)生統(tǒng)計,2012,29(6):900-902.

10.Feldman B.Relative importance and value,2005.

11.Gr?mping U.Estimators of Relative Importance in Linear Regression Based on Variance Decomposition.The American Statistician,2007,61(2):139-147.

12.Gr?mping U.Variable Importance Assessment in Regression:Linear Regression versus Random Forest.The American Statistician,2009,63(4):308-319.

13.Gr?mping U.Relative Importance for Linear Regression in R:The package relaimpo.Journal of Statistical Software,2006,17(1):1-27.

14.Chevan A,Sutherland M.Hierarchical Partitioning.The American Statistician,1991,45(2):90-96.

15.Cuadras CM.Interpreting an Inequality in Multiple Regression.The A-merican Statistician,1993,47(4):256-258.

16.Budescu DV.Dominance Analysis A New Approach to the Problem of Relative Importance of Predictors in Multiple Regreesion.Psychological Bulletin,1993,114(3):542-551.

17.Budescu DV.Dominance Analysis SAS Macros.2003[cited 2012 jamuary 17];Available from.

18.Azen R,Budescu DV,Reiser B.Criticality of predictors in multiple regression.British Journal of Mathematical and Statistical Psychology,2001,54:201-225.

19.Budescu DV,Azen R.Beyond GlobalMeasuresof Relative Importance:Some Insights from Dominance Analysis.Organizational Research Methods,2004,7(3):341-350.

20.Azen R,Budescu DV.The dom inance analysis approach for comparing predictors in multiple regression.Psychological Methods,2003,8(2):129-148.

21.Lipovetsky S,Conklin M.Analysis of regression in game theory approach.Applied Stochastic Models in Business and Industry,2001,17(4):319-330.

22.Conklin M,Powaga K,Lipovetsky S.Customer satisfaction analysis:Identification of key drivers.European Journal of Operational Research,2004,154(3):819-827.

23.Israeli O.A Shapley-based decomposition of the R-Square of a linear regression.The Journal of Econom ic Inequality,2006,5(2):199-212.

24.Yongjun L,Liang L.A Shapley value index on the importance of variables in DEA models.Expert Systems with Applications,2010,37(9):6287-6292.

25.Gr?mping U,Landau S.Do not adjust coefficients in Shapley value regression.Applied Stochastic Models in Business and Industry,2010,26(2):194-202.

26.Weiner JL,Tang J.Multicollinearity in Customer satisfaction research:Roland Clifford,2005.

27.Theil H.How many bits of information does an independent variable yield in a multiple regression?Statistics&Probability Letters,1987,6(2):107-108.

28.Theil H,Chung C-F.Information-Theoretic Measures of Fit for Univariate andmultivariate linear regressions.The American Statistician,1988,42(4):249-252.

29.Srufken J.On hierarchical partitioning.The American Statistician,1992,46:70-71.

30.Feldman B.The Proportional Value of a Cooperative Game.In:University BC,editor.First World Congress of the Game Theory Society(Games2000);July 24-28,2000;Bilbao,Spain:Fundacion B.B.V.;July 24-28,2000.

31.Ortmann KM.the proportional value of a positive cooperative game.Mathmatical Methods of Operation Research,2000,51:235-248.

32.Johnson JW,Lebreton JM.History and Use of Relative Importance Indices in Organizational Research.Organizational Research Methods,2004,7(3):238-257.

33.Jian B.A Review of Statistical Methods for Determ ination of Relative Importance of Correlated Predictors and Identification of Drivers of Consumer Liking.Journal of Sensory Studies,2012,27(2):87-101.

(責(zé)任編輯:丁海龍)

*:國家自然科學(xué)基金(81172771)

1.寧波大學(xué)醫(yī)學(xué)院預(yù)防醫(yī)學(xué)系(315211)

2.浙江醫(yī)藥高等??茖W(xué)校

△通信作者:沈其君,E-mail:shenqijun@nbu.edu.cn

猜你喜歡
次序個數(shù)方差
漢語義位歷時衍生次序判定方法綜觀
怎樣數(shù)出小正方體的個數(shù)
概率與統(tǒng)計(2)——離散型隨機變量的期望與方差
次序統(tǒng)計量概率分布近似計算
等腰三角形個數(shù)探索
怎樣數(shù)出小木塊的個數(shù)
方差越小越好?
計算方差用哪個公式
怎樣數(shù)出小正方體的個數(shù)
方差生活秀