国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

因變量數(shù)據(jù)波動(dòng)對直線回歸和相關(guān)的影響

2019-03-05 06:00
統(tǒng)計(jì)與決策 2019年2期
關(guān)鍵詞:因變量斜率波動(dòng)

丁 勇

(南京醫(yī)科大學(xué)康達(dá)學(xué)院 理學(xué)部,江蘇 連云港 222000)

0 引言

回歸和相關(guān)是統(tǒng)計(jì)學(xué)研究的重要內(nèi)容,也是在實(shí)際問題中得到廣泛應(yīng)用的統(tǒng)計(jì)方法[1-4]。原始數(shù)據(jù)的獲得,由于各種原因,或多或少的帶有一些誤差,這些誤差會(huì)導(dǎo)致數(shù)據(jù)的波動(dòng),從而對計(jì)算結(jié)果產(chǎn)生一定的干擾,當(dāng)數(shù)據(jù)量龐大、計(jì)算過程較復(fù)雜時(shí),這些干擾會(huì)相互影響、傳播到下一步。因此,分析數(shù)據(jù)波動(dòng)對結(jié)果的影響,尋找更穩(wěn)健的算法,減少數(shù)據(jù)波動(dòng)帶來的干擾,使結(jié)果更客觀準(zhǔn)確、分析更可靠,是一個(gè)值得研究的課題[5],特別是在大數(shù)據(jù)時(shí)代的今天。經(jīng)典的最小二乘法、最小一乘法以及各種加權(quán)法,本質(zhì)上就是從不同的角度出發(fā),探討如何盡可能地減少數(shù)據(jù)波動(dòng)的影響[6-9]。本文就最常用的直線回歸和相關(guān)問題探討因變量數(shù)據(jù)波動(dòng)的影響,發(fā)現(xiàn)其中的規(guī)律性。

1 定理、性質(zhì)和幾何意義

設(shè) 有 一 組 觀 察 數(shù) 據(jù)x=(x1,x2,…,xn)、y=(y1,y2,…,yn),將x作為自變量,y作為因變量,擬合直線回歸方程y=a+bx,則由最小二乘法可得[8,9]:斜率截距a=yˉ-bxˉ以 及 相 關(guān) 系 數(shù)其 中為自變量的離均差平方和為因變量的離均差平方和,為離均差積和。

在統(tǒng)計(jì)學(xué)中,回歸和相關(guān)是緊密聯(lián)系的兩個(gè)部分。當(dāng)因變量的數(shù)據(jù)有波動(dòng)時(shí),因變量的值會(huì)隨之改變,下面討論yj的改變對回歸直線和相關(guān)的影響。

函數(shù)在某一點(diǎn)的導(dǎo)數(shù)描述了這個(gè)函數(shù)在這一點(diǎn)附近的變化率,因此,可用求導(dǎo)數(shù)的方法,探討某個(gè)因變量yj的數(shù)據(jù)波動(dòng)對斜率、截距和相關(guān)系數(shù)的影響。對相關(guān)問題,本文更關(guān)心的是兩個(gè)變量之間的相關(guān)程度|r|,但由于對絕對值求導(dǎo)數(shù)不方便,故而考慮r2,因?yàn)楫?dāng)r的絕對值變大(?。r(shí),r2也變大(?。.?dāng)lxy=0時(shí),b=0,r=0,此時(shí)直線和相關(guān)都沒有什么意義,所以不考慮lxy=0的情況。

所以:

引理1[10]:Cauchy不等式:為任意實(shí)數(shù)(i=1,2,…,n),等號(hào)當(dāng)且僅當(dāng)ai與bi對應(yīng)成比例時(shí)成立。

從而,當(dāng)xj≠xˉ時(shí):

由定理1可得如下3個(gè)性質(zhì)。

性質(zhì)1:當(dāng)xj<xˉ時(shí),b隨著yj的增大(減?。┒鴾p小(增大);當(dāng)xj=xˉ時(shí),b不受yj的大小影響;當(dāng)xj>xˉ時(shí),b隨著yj的增大(減?。┒龃螅p?。?。

數(shù)理統(tǒng)計(jì)已證明[8,9],回歸直線經(jīng)過點(diǎn) (xˉ,yˉ)。

由公式(1)可得性質(zhì)1,性質(zhì)1的幾何意義為:在自變量樣本均數(shù)xˉ這一點(diǎn),函數(shù)值波動(dòng)對斜率沒有影響,從來看,也是顯然的,當(dāng)時(shí)與yj無關(guān);該點(diǎn)的函數(shù)值增加(減少)時(shí),回歸直線平行地上(下)移。在其左邊的點(diǎn),函數(shù)值的增大(減?。⑹剐甭首冃。ù螅辉谄溆疫叺狞c(diǎn),函數(shù)值的增大(減小)將使斜率變大(?。?/p>

性質(zhì)2:當(dāng)xˉ=0時(shí),a隨著yj(j=1,2, …,n)的增大(減少)而增大(減少);當(dāng)時(shí),a不受yj的大小影響;如果xˉ<0 ,則當(dāng)時(shí),a隨著yj的增大(減?。┒龃螅p小);當(dāng)時(shí),a隨著yj的增大(減?。┒鴾p?。ㄔ龃螅?;如果xˉ>0,則當(dāng)時(shí),a隨著yj的增大(減?。┒鴾p小(增大);當(dāng)時(shí),a隨著yj的增大(減?。┒龃螅p?。?。

由公式(3)可得性質(zhì)3。當(dāng)xj≠xˉ時(shí),由公式(4)、公式(5)可得性質(zhì)3的幾何解釋:將經(jīng)過兩點(diǎn) (xˉ,yˉ)、(xj,yj)的直線斜率與確定值進(jìn)行比較,或者將回歸直線的斜率b與斜率的比值,與相關(guān)系數(shù)的平方r進(jìn)行比較,可以判斷相關(guān)系數(shù)如何受函數(shù)值的影響。例如,當(dāng)時(shí),在左邊的函數(shù)值增大(減少)將使相關(guān)系數(shù)的絕對值減小(增大)。

定理2:

由r與b的計(jì)算公式可知,r、b都與lxy同號(hào),所以不等式(6)和式(7)幾何意義說明,以下4種情況的因變量的數(shù)據(jù)波動(dòng),在不超過回歸直線的情況下,可以提高數(shù)據(jù)的相關(guān)性:

①正相關(guān)(lxy>0),在xˉ左邊、回歸直線上面的點(diǎn)向下移動(dòng);

②正相關(guān)(lxy>0),在xˉ右邊、回歸直線下面的點(diǎn)向上移動(dòng);

③負(fù)相關(guān)(lxy<0),在xˉ左邊、回歸直線下面的點(diǎn)向上移動(dòng);

④負(fù)相關(guān)(lxy<0),在xˉ右邊、回歸直線上面的點(diǎn)向下移動(dòng)。

特別若r2≈1時(shí),如果yj<a+bxj,則:

類似可知,如果yj>a+bxj,則

由公式(3)可知,當(dāng)相關(guān)系數(shù)較大時(shí),在回歸直線下面的點(diǎn)向上移動(dòng)或回歸直線上面的點(diǎn)向下移動(dòng)(不超過回歸直線),都可以提高變量的相關(guān)性。

2 實(shí)例分析

2.1 數(shù)據(jù)構(gòu)造

為驗(yàn)證性質(zhì)1至性質(zhì)3,本文構(gòu)造自變量包含xˉ和數(shù)據(jù)。在引理中,取ai=xi,bi=1,可知這兩個(gè)數(shù)的大小關(guān)系為:如果xˉ<0 ,則如果0 ,則

記x=(x1,x2,…,xn-2,xn-1,xn),不妨設(shè)x1,x2,…,xn-2(n>2)已知,令xn-1=xˉ,則有:

解一元二次方程得:

將得到的xn-1代入式(8)可得相應(yīng)的xn。

取x1,x2,x3,x4為一組正數(shù)1,4,7,10,為使x5,x6也為正數(shù),式(9)的開方取正號(hào)(取負(fù)號(hào)也行,可以得到另外一組數(shù)據(jù))。按公式(8)和公式(9),得到表1的一組x數(shù)據(jù)(數(shù)據(jù)重新按從小到大排序),再取一組y數(shù)據(jù)(見表1),由這批數(shù)據(jù)可求出:xˉ=5.8375,yˉ=22.1667,lxx=47.2776,7.1873,r=0.9733,b=3.5891,a=1.2152。

表1 數(shù)據(jù)計(jì)算

2.2 結(jié)果分析

表1的散點(diǎn)圖和回歸直線如圖1所示,已知回歸直線經(jīng)過中心點(diǎn)(xˉ,yˉ)(圖1中“○”),當(dāng)某個(gè)yj有微小的波動(dòng)時(shí),近似認(rèn)為對yˉ沒有影響。對于xj<xˉ的情況,如果yj變大,可以看成回歸直線圍繞中心點(diǎn)在左邊向上升,從而直線的斜率變小;如果yj變小,此時(shí)回歸直線圍繞中心點(diǎn)在左邊向下降,從而直線的斜率變大;對xj>xˉ有類似的結(jié)果,這與性質(zhì)1是相符的。

圖1 直線回歸圖

一般的直觀感覺認(rèn)為,當(dāng)數(shù)據(jù)點(diǎn)向回歸直線靠近時(shí),變量的相關(guān)性會(huì)提高(相關(guān)系數(shù)絕對值增大),但事實(shí)并非完全如此。定理2證明了4種情況下這個(gè)結(jié)論是正確的,而另外4種情況(正相關(guān)、在左邊、回歸直線下面的點(diǎn)向上移動(dòng),正相關(guān)、在xˉ右邊、回歸直線上面的點(diǎn)向下移動(dòng),負(fù)相關(guān)、在xˉ左邊、回歸直線上面的點(diǎn)向下移動(dòng),負(fù)相關(guān)、在xˉ右邊、回歸直線下面的點(diǎn)向上移動(dòng))則不一定,下面通過一個(gè)例子進(jìn)行說明。

取x如表1所示,y=[0 1.1 0.5 1.6 0.6 1.7](圖2中“*”,回歸直線為虛線),此時(shí)相關(guān)系數(shù)r=0.7526,由圖2可知,y1=0(圖2中“*”)在回歸直線(圖2中虛線)下面,將y1向上移動(dòng),變?yōu)?.1(圖2中“○”),此時(shí)相關(guān)系數(shù)r=0.7350(此時(shí)的回歸直線見圖2實(shí)線),相關(guān)性反而變差了。

圖2 數(shù)據(jù)點(diǎn)移動(dòng)對相關(guān)系數(shù)的影響

3 討論

直線相關(guān)與回歸是統(tǒng)計(jì)的基礎(chǔ)內(nèi)容,其研究成果也很成熟。本文從因變量數(shù)據(jù)波動(dòng)入手,深入探討了數(shù)據(jù)波動(dòng)對直線相關(guān)和回歸影響的問題,挖掘出一些有價(jià)值的新信息。從公式(1)至公式(3)得到相應(yīng)的3個(gè)重要指標(biāo):自變量均值xˉ、自變量的二階原點(diǎn)矩與一階原點(diǎn)矩的比值因變量離均差平方和與離差平方和的比值這3個(gè)指標(biāo)分別對應(yīng)斜率、截距和相關(guān)系數(shù):前2個(gè)指標(biāo)值可看成閾值,通過自變量與其比較大小來判斷因變量波動(dòng)對回歸影響,在這2個(gè)點(diǎn),因變量波動(dòng)不影響回歸直線的斜率、截距;后一個(gè)指標(biāo),要通過某個(gè)點(diǎn)與平均值的點(diǎn)的斜率與該指標(biāo)比較大小來判斷該點(diǎn)因變量波動(dòng)對相關(guān)的影響,例如,當(dāng)時(shí),因變量波動(dòng)不影響相關(guān)系數(shù)。另一個(gè)有趣的現(xiàn)象是:兩個(gè)斜率(回歸直線的斜率與某個(gè)點(diǎn)與平均值點(diǎn)的斜率)之比與相關(guān)系數(shù)平方(r2)的大小的比較,也有同樣的效果。

3個(gè)公式的偏導(dǎo)數(shù)大小也是判斷數(shù)據(jù)波動(dòng)影響大小的依據(jù),從導(dǎo)數(shù)的數(shù)學(xué)意義可知,其絕對值越大,數(shù)據(jù)波動(dòng)產(chǎn)生的影響也越大,表1的實(shí)例數(shù)據(jù)也充分說明了這一點(diǎn)。

本文還糾正了一般的直觀感覺:認(rèn)為當(dāng)數(shù)據(jù)點(diǎn)向回歸直線靠近時(shí),變量的相關(guān)性會(huì)提高,這樣的情況僅在一定的條件是正確的,本文給出了這樣的條件以及不滿足這樣條件的一個(gè)反例。

通過以上分析,使我們對因變量數(shù)據(jù)波動(dòng)對直線回歸和相關(guān)的影響有了更深入的認(rèn)識(shí)。

猜你喜歡
因變量斜率波動(dòng)
調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
2021年麥?zhǔn)写蠓▌?dòng)概率不大
物理圖像斜率的變化探討
羊肉價(jià)回穩(wěn) 后期不會(huì)大幅波動(dòng)
11月匯市:波動(dòng)率降低 缺乏方向
微風(fēng)里優(yōu)美地波動(dòng)
偏最小二乘回歸方法
談?wù)勅绾沃v解多元復(fù)合函數(shù)的求導(dǎo)法則
精心設(shè)計(jì)課堂 走進(jìn)學(xué)生胸膛
求斜率型分式的取值范圍