適應(yīng)性回歸分析(Ⅱ)
——排除噪聲變量的干擾

2019-06-18 02:44羅艷虹胡良平

四川精神衛(wèi)生 2019年2期

羅艷虹，胡良平

(1.山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室，山西太原 030001；2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì)，北京 100029；3.軍事科學(xué)院研究生院，北京 100850

1 一個(gè)人工生成的數(shù)據(jù)集

1.1 生成數(shù)據(jù)的構(gòu)想

生成包含一個(gè)因變量和10個(gè)連續(xù)型自變量的模擬數(shù)據(jù)集，樣本含量N=400。生成的方法如下：

第一，每個(gè)連續(xù)型自變量都是從一個(gè)均勻分布總體U(0，1)中獨(dú)立抽樣產(chǎn)生的，它們分別被命名為x1～x10。

第二，因變量y僅由兩個(gè)連續(xù)型自變量x1和x2按式(1)計(jì)算而得到：

(1)

在給定了連續(xù)型自變量x1和x2的每一對(duì)數(shù)值后，將它們代入式(1)，并且，基于標(biāo)準(zhǔn)正態(tài)分布N(0，1)添加誤差而生成真實(shí)模型。把樣本含量設(shè)定為N=400[1]。

1.2 用SAS生成上述數(shù)據(jù)的方法

1.2.1生成包含11個(gè)變量及其400個(gè)觀測(cè)值所需要的SAS程序

data artificial;

drop i;

array x{10};

do i=1 to 400;

do j=1 to 10;

x{j} = ranuni(1);

end;

y=40*exp(8*((x1-0.5)**2+(x2-0.5)**2))/

exp(8*((x1-0.2)**2+(x2-0.7)**2))+

exp(8*((x1-0.7)**2+(x2-0.2)**2)))+rannor(1);

output;

end;

run;

1.2.2輸出數(shù)據(jù)集前10個(gè)觀測(cè)所需要的SAS程序

proc print data=artificial(obs=10);

var x1-x10 y;

run;

1.2.3 輸出數(shù)據(jù)集前10個(gè)觀測(cè)

Obsx1x2x3x4x5x6x7x8x9x10y10.184960.970090.399820.259400.921600.969280.542980.531690.049790.06657-0.0849620.853390.067180.957020.297190.272610.689930.976760.226510.688240.412760.3975930.475790.844990.634520.590360.582580.377010.728360.506600.931210.929122.0736240.391040.472430.679530.168090.166530.871100.298790.934640.900470.568789.0991950.511320.433200.176110.665040.404820.124550.453490.199550.574840.738478.2638460.522380.343370.022710.712890.937060.445990.946940.712900.103270.175174.9927570.420710.071740.358490.711430.189850.147970.561840.270110.325200.569182.6193980.917440.525840.731820.905220.576000.187940.331330.698870.121560.180671.0604790.421370.037980.270810.427730.820100.843450.876910.267220.306020.397054.63711100.543400.612570.552910.735910.371860.645650.557180.875040.571240.756777.93675

1.3 數(shù)據(jù)結(jié)構(gòu)的特點(diǎn)

x1～x10都是在“0～1”之間取值且服從均勻分布的隨機(jī)變量，它們之間是互相獨(dú)立的；y是在依據(jù)式(1)計(jì)算結(jié)果的基礎(chǔ)上，添加一個(gè)服從“均值為0、方差為1”的標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量的取值(或稱(chēng)為誤差)。顯然，11個(gè)變量都是計(jì)量的，且y僅依賴(lài)于x1和x2兩個(gè)變量，獨(dú)立于“x3～x10”這8個(gè)變量。

1.4 回歸分析的目的

【實(shí)例1】基于前述的數(shù)據(jù)集，試建立y依賴(lài)于x1～x10的多重回歸模型。

【實(shí)例2】基于前述的數(shù)據(jù)集，試建立y依賴(lài)于x1和x1～x10的多重回歸模型(即丟棄x2)。

【實(shí)例3】基于前述的數(shù)據(jù)集，試建立y依賴(lài)于x2～x10的多重回歸模型(即丟棄x1)。

【實(shí)例4】基于前述的數(shù)據(jù)集，試建立y依賴(lài)于x3～x10的多重回歸模型(即丟棄x1和x2)。

2 利用ADAPTIVEREG過(guò)程建模[1-2]

2.1 對(duì)實(shí)例1進(jìn)行適應(yīng)性回歸分析

2.1.1 所需要的SAS過(guò)程步程序

ods graphics on;

proc adaptivereg data=artificial plots=fit;

model y=x1-x10;

run;

2.1.2 SAS輸出結(jié)果及解釋

擬合統(tǒng)計(jì)量GCV1.55656GCV R-Square0.86166Effective Degrees of Freedom27R-Square0.87910Adjusted R-Square0.87503Mean Square Error1.40260Average Square Error1.35351

以上為“擬合統(tǒng)計(jì)量”的計(jì)算結(jié)果，模型對(duì)資料的擬合優(yōu)度界值GCV=1.55656；R2和調(diào)整R2分別為0.87910和0.87503；均方誤差和平均平方誤差分別為1.40260和1.35351。

向后選擇后的回歸樣條模型名稱(chēng)系數(shù)父級(jí)變量結(jié)點(diǎn)Basis012.3031InterceptBasis113.1804Basis0x10.05982Basis3-23.4892Basis0x20.1387Basis4-171.03Basis0x20.1387Basis5-86.1867Basis3x10.6333Basis7-436.86Basis4x10.5488Basis8397.18Basis4x10.5488Basis911.4682Basis1x20.6755Basis10-19.1796Basis1x20.6755Basis13126.84Basis11x10.6018Basis1440.8134Basis11x10.6018Basis1522.2884Basis0x10.7170Basis17-53.8746Basis12x10.2269Basis19598.89Basis4x10.2558

以上為“向后選擇后的回歸樣條模型”的計(jì)算結(jié)果。此結(jié)果中涉及到很多“基函數(shù)(Basis)”，而基函數(shù)中的“元素”基本上只有“x1”“x2”以及由它們以不同的系數(shù)聯(lián)系起來(lái)的“交互作用項(xiàng)”。

ANOVA分解功能性成分基數(shù)DF變化量(若忽略)失擬GCVx124405.181.1075x224947.872.6348x2 x19182583.216.6187

以上是基于“方差分析分解”的算法對(duì)所構(gòu)建的模型進(jìn)行逐項(xiàng)分解的結(jié)果。其中，涉及到“x1”的基函數(shù)有2個(gè)，占用了4個(gè)自由度，其對(duì)應(yīng)的“失擬”LOF=405.18，GCV=1.1075；涉及到“x2”的基函數(shù)有2個(gè)，占用了4個(gè)自由度，其對(duì)應(yīng)的LOF=947.87，GCV=2.6348；涉及到“x1”與“x2”交互作用項(xiàng)的基函數(shù)有9個(gè)，占用了18個(gè)自由度，其對(duì)應(yīng)的LOF=2583.21，GCV=6.6187。

【說(shuō)明】在上面的輸出結(jié)果中，最后兩列的頂端“變化量(若忽略)”，其含義是：若忽略掉各行上的“項(xiàng)”(第1行為“x1”、第2行為“x2”、第3行為“x1×x2”)，將會(huì)使“失擬(LOF)”或“廣義交叉驗(yàn)證(GCV)”發(fā)生改變的數(shù)量大小，此“變化量”越大，表明對(duì)應(yīng)行上的“項(xiàng)”對(duì)因變量的影響越大。

變量重要性變量基數(shù)重要性x111100.00x21199.19

以上結(jié)果表明：x1與x2對(duì)因變量y的重要性接近相等，分別為100.00%、99.19%。

因變量y關(guān)于x1與x2的二次曲面回歸模型在二維直角坐標(biāo)系內(nèi)以“等高線”呈現(xiàn)出來(lái)的圖形見(jiàn)圖1。

圖1 因變量y關(guān)于x1與x2的二次曲面回歸模型的等高線圖

圖1是以“等高線”形式呈現(xiàn)式(1)所代表的二次曲面。由于式(1)屬于三維空間里的二次曲面，無(wú)法采用二維平面圖來(lái)呈現(xiàn)其立體形狀。設(shè)想：采用一系列平行于二維平面的“平面”去切割三維空間里的“二次曲面”，所形成的“切口”自上而下沿垂直于縱軸y的方向投影到由(x1，x2)所形成的二維平面上，就出現(xiàn)了圖1中的“曲線”。每一條曲線的高度“y”是相同的，故被稱(chēng)為“等高線”。等高線上標(biāo)注的“數(shù)據(jù)”(例如12.5、10.0、7.5、5.0和2.5等)代表“切割平面”離“底部二維平面”的“高度”的數(shù)值。

由圖1中多條等高線的形狀可知：式(1)所代表的“二次曲面”比較復(fù)雜；若是一個(gè)“圓球”曲面模型，則其所有等高線就會(huì)形成一系列的“同心圓”。

2.2 對(duì)實(shí)例2進(jìn)行適應(yīng)性回歸分析

2.2.1 所需要的SAS過(guò)程步程序

在前面的SAS過(guò)程步程序的“MODEL語(yǔ)句”中，不寫(xiě)入“ x2即可。

2.2.2 SAS輸出結(jié)果及解釋

下面僅給出最后一部分輸出結(jié)果：

變量重要性變量基數(shù)重要性x19100.00x4226.54x3512.10x5211.32x618.77x927.83x723.78

以上結(jié)果表明：除x1真正對(duì)因變量y有影響外，還得出x4對(duì)因變量有較大的影響；甚至還有x3和x5。而實(shí)際上，除x1之外，其他變量對(duì)因變量y沒(méi)有任何影響。

2.3 對(duì)實(shí)例3進(jìn)行適應(yīng)性回歸分析

2.3.1 所需要的SAS過(guò)程步程序

在前面的SAS過(guò)程步程序的“MODEL語(yǔ)句”中，不寫(xiě)入“x1”即可。

2.3.2 SAS輸出結(jié)果及解釋

下面僅給出最后一部分輸出結(jié)果：

變量重要性變量基數(shù)重要性x211100.00x3229.25x5219.20x6214.95x417.38x716.12x823.90

以上結(jié)果表明：除x2真正對(duì)因變量y有影響外，還得出x3對(duì)因變量y有較大的影響；甚至還有x5和x6。而實(shí)際上，除x2之外，其他變量對(duì)因變量y沒(méi)有任何影響。

2.4 對(duì)實(shí)例4進(jìn)行適應(yīng)性回歸分析

2.4.1 所需要的SAS過(guò)程步程序

在前面的SAS過(guò)程步程序的“MODEL語(yǔ)句”中，不寫(xiě)入“x1”和“x2”即可。

2.4.2 SAS輸出結(jié)果及解釋

下面僅給出最后一部分輸出結(jié)果：

變量重要性變量基數(shù)重要性x36100.00x4260.87x7242.66x8116.58

以上結(jié)果表明：在x3～x10這8個(gè)與因變量y毫無(wú)關(guān)系的變量中，得出：x3和x4對(duì)因變量y的影響很大；x7和x8對(duì)因變量y的影響也比較大。顯然，這個(gè)結(jié)果是不可信的。

3 討論與結(jié)論

3.1 討論

基于對(duì)“實(shí)例1”的分析結(jié)果來(lái)看，“ADAPTIVEREG過(guò)程”對(duì)于包含多個(gè)“噪聲變量”的數(shù)據(jù)結(jié)構(gòu)具有很強(qiáng)的“甄別能力”，能夠“挖掘”出“隱藏”在復(fù)雜數(shù)據(jù)結(jié)構(gòu)中的“真正規(guī)律”；而基于對(duì)“實(shí)例2”和“實(shí)例3”的分析結(jié)果來(lái)看，“ADAPTIVEREG過(guò)程”對(duì)于包含多個(gè)“噪聲變量”的數(shù)據(jù)結(jié)構(gòu)具有較強(qiáng)的“甄別能力”，能夠“突顯”出“隱藏”在復(fù)雜數(shù)據(jù)結(jié)構(gòu)中的“真正規(guī)律”，但也在較大程度上受到了“噪聲變量”的干擾和影響；再基于對(duì)“實(shí)例4”的分析結(jié)果來(lái)看，“ADAPTIVEREG過(guò)程”對(duì)于全部由“噪聲變量”組成的數(shù)據(jù)結(jié)構(gòu)不具有“甄別能力”。

通常，真實(shí)資料的數(shù)據(jù)結(jié)構(gòu)是錯(cuò)綜復(fù)雜的，其是否包含有變量之間的真實(shí)數(shù)量聯(lián)系是未知的，比較可靠的做法是依據(jù)基本常識(shí)和專(zhuān)業(yè)知識(shí)盡可能找全找準(zhǔn)與結(jié)果變量有聯(lián)系的“自變量”和/或“中間變量”，并適當(dāng)引入由前述提及的那些變量產(chǎn)生的“派生變量”[3-4]。在此基礎(chǔ)上，盡可能使收集數(shù)據(jù)的過(guò)程受控于“標(biāo)準(zhǔn)操作規(guī)程”和“質(zhì)量控制策略”[5]，確保樣本能很好地代表研究總體且具有足夠大的樣本含量。再盡可能多采用一些統(tǒng)計(jì)模型和技術(shù)方法去擬合數(shù)據(jù)，并基于測(cè)試數(shù)據(jù)集評(píng)估模型的擬合效果。

3.2 結(jié)論

適應(yīng)性回歸樣條算法(即由“ADAPTIVEREG過(guò)程”來(lái)實(shí)現(xiàn))并不是“萬(wàn)能的”，它僅適合于數(shù)據(jù)結(jié)構(gòu)中確實(shí)包含了“具有某種聯(lián)系的變量集合”，而并不適合于“因變量與自變量之間不存在任何數(shù)量聯(lián)系”的數(shù)據(jù)結(jié)構(gòu)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

適應(yīng)性回歸分析(Ⅱ)——排除噪聲變量的干擾

1 一個(gè)人工生成的數(shù)據(jù)集

1.1 生成數(shù)據(jù)的構(gòu)想

1.2 用SAS生成上述數(shù)據(jù)的方法

1.3 數(shù)據(jù)結(jié)構(gòu)的特點(diǎn)

1.4 回歸分析的目的

2 利用ADAPTIVEREG過(guò)程建模[1-2]

2.1 對(duì)實(shí)例1進(jìn)行適應(yīng)性回歸分析

2.2 對(duì)實(shí)例2進(jìn)行適應(yīng)性回歸分析

2.3 對(duì)實(shí)例3進(jìn)行適應(yīng)性回歸分析

2.4 對(duì)實(shí)例4進(jìn)行適應(yīng)性回歸分析

3 討論與結(jié)論

3.1 討論

3.2 結(jié)論

適應(yīng)性回歸分析(Ⅱ)
——排除噪聲變量的干擾