余云彩
(湖北師范大學數(shù)學與統(tǒng)計學院,湖北黃石 435002)
穩(wěn)健方法在線性回歸模型中的應用
余云彩
(湖北師范大學數(shù)學與統(tǒng)計學院,湖北黃石 435002)
從影響函數(shù)和崩潰點角度分析了線性回歸模型中最小二乘估計的不穩(wěn)健性,進而引出M估計這類穩(wěn)健估計,從理論上分析穩(wěn)健估計的抗差性,并用R軟件對實際數(shù)據(jù)進行實證研究.結果表明,在處理含有異常點的數(shù)據(jù)過程中,穩(wěn)健估計優(yōu)于最小二乘估計.
線性回歸模;M估計;穩(wěn)健性
考慮線性回歸模型:
寫成向量形式為:
其中,Y=(Y1,…,Yn)T是n×1的觀測向量,β=(β1,…,βn)T是p×1未知參數(shù)向量,e=(e1,…,en)T是n×1誤差向量.
為估計向量β,最常用的方法是最小二乘法,即
其中x'i=(x1i,x2i…,xni).在X滿秩的條件下求得β的最小二乘估計:
最小二乘估計雖然有許多優(yōu)良性質,如在Gauss-Markov假設下,最小二乘估計βLS具有很好的漸近效率,并且βLS是β估計的最佳線性無偏估計(簡稱BLUE),這一事實奠定了它在線性回歸估計中的重要地位.然而它并不是一個穩(wěn)健的估計,下面我們將從估計量穩(wěn)健性的兩個基本指標影響函數(shù)和崩潰點來說明βLS的不穩(wěn)健性.
假設樣本X1,…,Xn獨立同分布,X1~H(x),樣本協(xié)方差陣正定且有界,誤差e1,…,en,獨立同分布,e1~F(x).
在模型(1)下,(x1,y1),(x2,y2),…(xn,yn)獨立同分布,其聯(lián)合分布為:
最小二乘估計βLS的統(tǒng)計泛函(記為βLS)是下列方程的解
它的影響函數(shù)為:
其中B=∫xxTd H(x)是正定矩陣.顯然βLS的影響函數(shù)無界,無論是響應變量y還是x的觀測數(shù)據(jù)受到污染,都可能對βLS的估計有很大的影響,并且βLS的漸近崩潰點為:
一個非常穩(wěn)健的估計應該具有受限制的影響和高崩潰點,顯然最小二乘估計表現(xiàn)出非常不穩(wěn)健的特性.為克服這一缺點,我們引入穩(wěn)健統(tǒng)計中一類常用的M估計.
設X1,…,Xn是來自某總體的一個樣本,ρ(x;θ)為非負函數(shù),若θ =θ (X)滿足
M估計包括很多估計方法,如那些分類為M估計,GM估計,S估計及MM估計的方法,它們都是將最大似然的思想推廣用于尺度和位置的穩(wěn)健測度(Huber[1])M估計的性質取決于選取的ρ(·),或者與之等價的ψ.如果選取ρ(x;θ)=-logf(y;θ),得到的是普通最大似然估計.如果ψ無界,漸近崩潰點則為0.為了產生一個能抵抗特異值干擾的估計,我們應該對分布尾部靠外的觀察值給予較小的權重,如Huber估計,雙權數(shù)估計.
Huber估計由Huber函數(shù)決定:
對(4)式求導,得到影響函數(shù):
其中c是一個常數(shù),由上述Huber權重的函數(shù)可以看出M估計非常穩(wěn)健,并且與其他用于大樣本的穩(wěn)健測量相比,M估計具有較高的漸進效率,并且隨著樣本量的增大而具有更高的效率(參考Hogg[2]).下面我們將定義線性回歸模型中的M估計:
其中Q(β)為目標函數(shù),β=(β1,β2,…,βp)是p維向量.
將目標函數(shù)Q(β)限定為帶有非降的導數(shù)ψ(·),即ρ為凸函數(shù),則(5)可等價地寫成
回歸的M估計是位置M估計的一種擴展,從形式上看,它是將殘差的某種函數(shù)進行最小化,其穩(wěn)健性也取決于函數(shù)ρ和ψ的選擇.
求解回歸M估計的過程是一個復雜過程,因為殘差在模型未建立起來之前是一個未知量,而估計結果在殘差未知的情況下也無法直接求出來,所以必須用迭代程序.主要做法是開始給一個好的初始估計β(0),然后在式(5)中應用一步牛頓法,一般地,把最小二乘估計作為初始估計β(0)(盡管最小二乘估計具有比較差的穩(wěn)健性質).
M估計對重尾誤差和不定誤差具有很好的耐抗性,通常也有很高的漸近效率和崩潰點,然而它不能處理杠桿效應,對異常變化的隨機量X沒有很好的抵抗性.通常情況下可以用改進的M估計,利用M-S算法得到MM估計來處理杠桿效應,詳細過程可參考Rousseeuw[3].
下列是來源于Rousseeuw[3](p.27,table 3)的天鵝座方向郝-羅素圖數(shù)據(jù),變量log.Te表示的是恒星表面的實際溫度(取對數(shù)),變量log.light表示的是光密度(取對數(shù)).
表1 天鵝座方向郝-羅素圖數(shù)據(jù)
考察星座光密度與星座表面的實際溫度的關系,可以模擬一元線性回歸模型:
用最小二乘法得到回歸直線:
我們將這條直線與星座光密度對星座表面的實際溫度的散點圖共同繪制在圖1中.
圖1 光密度對星座表面的實際溫度的散點圖和擬合的最小二乘回歸直線
從散點圖看,光密度與星座表面的實際溫度應該是正相關,而我們擬合的最小二乘回歸線的斜率為負,意味著負相關,與實際情況不同.從圖1可以發(fā)現(xiàn),回歸線被拉向第11,20,30,34這4個點,說明這四個點嚴重影響了我們建立的回歸模型,我們稱這4個點為異常點,也可以叫杠桿效應點.為了處理異常點,下面采取穩(wěn)健的方法來模擬模型(7).
1)用M估計(用Huber函數(shù))得到穩(wěn)健回歸直線:
2)用MM估計得到穩(wěn)健回歸直線:
為了方便比較,我們把散點圖和所有模擬的回歸直線共同繪制在圖2中.
圖2 光密度對星座表面的實際溫度的散點圖和擬合的最小二乘和穩(wěn)健回歸直線
圖2表明,M估計(Huber函數(shù))雖然降低了異常點的權重,但是斜率仍然是負值,甚至其模擬結果比最小二乘還要差,可見Huber估計還是會受杠桿效應的影響,而改進后的MM估計能很好地抵抗異常的干擾.
參考文獻:
[1]Yohai V J.Robust estimation in the linear model[J].Ann Statist,1974,2:562~567.
[2]Hogg R V.Adaptive robust procedures[J].Amer Statist Associ,1974,69:909~927.
[3]Rousseeuw P J,Leroy A M.Robust regression and outlier detection[M].New York:Wiley,1987.
[4]陳希孺,趙林城.線性模型中的M方法[M].上海:上海科學技術出版社,1996.
[5]Huber P J.Robust statistics[M].New York:Wiley,1981.
[6]Yohai V J,Maronna R A.Asymptotic behavior of M-estimates for the linear model[J].Ann Statist,1979,7:258 ~268.
[7]Zhao L C.Strong consistency of M-estimates in linear models[J].Sci China Ser A,2002,45:1420~1427.
[8]Wu L,Qiu J.Applied multivariate statistical analysis and related topics with R[M].Beijing:Science Press,2013.
[9]Chatterjee S,Hadi A S.Regression analysis by example,5th edn[M].Beijing:China Machine Press,2013.
[10]Yohai V J.High Breakdown-Point and high efficiency robust estimates for regression[J].Ann Statist,1987,15:642~656.
[11]Chatterjee S,Price B.Regression analysis by example[M].New York:Wiley,1977.
Robust methods applied in linear regression models
YU Yun-cai
(College of Mathematics and Statistics,Hubei Normal University,Huangshi 435002,China)
This paper considers some estimators in linear regression model,least-squares estimator is Confirmed the lack of robustness by analyzing their influence function and breakdown point,robust estimators such as M-estimator is investigated.In addition,the resistant of the robust estimators are analyzed theoretically and empirical application to the actual data by R software illustrates that robust estimators are significantly superior to least squares estimate when data contain outliers.
linear regression model;M-estimator;robustness
O212.1
A
1009-2714(2016)04-0035-05
10.3969/j.issn.1009-2714.2016.04.009
2016—02—18
余云彩(1990— ),男,湖北陽新人,碩士,研究方向為回歸分析.