劉清,葛永慧
線性回歸模型是用于解決數(shù)理統(tǒng)計問題中變量之間關(guān)系的常規(guī)模型,最小二乘法是求解其回歸系數(shù)最經(jīng)典的方法。最小二乘法在求解回歸系數(shù)時只考慮線性回歸模型中觀測值含隨機(jī)誤差的情況,總體最小二乘法(TLS)是為了顧及觀測值和系數(shù)矩陣同時含有隨機(jī)誤差的狀況。然而無論是最小二乘法還是總體最小二乘法都不具有抵抗粗差的能力,當(dāng)觀測值或系數(shù)矩陣中包含粗差時,參數(shù)估計的結(jié)果將會被歪曲[1]。
由于測量人員的工作疏漏以及儀器精密度不同等各種主觀因素,數(shù)據(jù)采集過程中粗差會不可避免地出現(xiàn)。為了剔除或減弱粗差對參數(shù)估計的影響,在回歸分析中應(yīng)用穩(wěn)健估計原理,定義穩(wěn)健回歸的理念。RLS法僅能顧及誤差方程中觀測向量含粗差的情況,因此,在RLS法的基礎(chǔ)上提出了RTLS法——作為一種可顧及系數(shù)矩陣和觀測向量中涉及粗差的參數(shù)估計方法被提出。一些學(xué)者將RTLS法引入到線性回歸模型中,并通過個別算例中RTLS法得到比RLS法更小的單位權(quán)中誤差和精度較高的參數(shù)解,從而得出在線性回歸中RTLS法比RLS法更為有效的結(jié)論。
穩(wěn)健最小二乘法(RLS)的研究已取得了大量的研究成果[2],穩(wěn)健總體最小二乘法(RTLS)的研究也取得了一些成果。楊娟等[3]同樣把基于穩(wěn)健估計的TLS法應(yīng)用于GPS高程異常擬合問題,指出基于穩(wěn)健估計的TLS法能更好地解決GPS高程擬合模型中控制點已知坐標(biāo)含誤差的問題。陳瑋嫻等[4]提出了穩(wěn)健總體最小二乘方法為了解決誤差模型中觀測值含有粗差的狀況,并以小角度坐標(biāo)轉(zhuǎn)換得出當(dāng)兩套坐標(biāo)均含隨機(jī)誤差且未含粗差時TLS法優(yōu)于LS法,當(dāng)兩套坐標(biāo)均含隨機(jī)誤差且觀測值同時受粗差影響時RTLS法優(yōu)于TLS法。汪奇生等[5]針對線性回歸中自變量和因變量可能含有粗差的情況,提出線性回歸模型的穩(wěn)健總體最小二乘算法,并以一元線性回歸為例,得出RTLS法較LS法、TLS法、RLS法能更有效地剔除粗差。
迄今為止,并沒有明確的理論研究說明在一元線性回歸中RTLS法的相對有效性,如果僅僅通過特殊或極個別算例就論證在線性回歸中穩(wěn)健總體最小二乘法一定優(yōu)于穩(wěn)健最小二乘法太過片面,并不足以讓人信服。其次,判斷兩種參數(shù)估計方法的相對有效性的比較指標(biāo)應(yīng)選取均方誤差,并不能簡單地以單位權(quán)中誤差來衡量精度。基于上述分析,為了更精確地進(jìn)行測量數(shù)據(jù)處理和后續(xù)理論的研究指導(dǎo),對穩(wěn)健總體最小二乘法在一元線性回歸中的相對有效性加以分析研究,仍具有一定的迫切性和必要性。
測量數(shù)據(jù)不可避免地會受隨機(jī)誤差和粗差的影響,當(dāng)運(yùn)用不同的參數(shù)估計方法或建立不同的函數(shù)模型時,使得不同的測量數(shù)據(jù)在參數(shù)估計模型中所起的作用也不相同。因此,對一元線性回歸中觀測值和系數(shù)矩陣受粗差和隨機(jī)誤差不同影響的變化情形下,劃分為三種不同的誤差影響模型,如下:
模型1:此誤差影響模型中僅觀測值含有隨機(jī)誤差和粗差,系數(shù)矩陣不含隨機(jī)誤差和粗差。即線性回歸模型中體現(xiàn)為僅因變量含隨機(jī)誤差和粗差。
模型2:此誤差影響模型中僅觀測值含隨機(jī)誤差,系數(shù)矩陣含隨機(jī)誤差和粗差。即線性回歸模型中體現(xiàn)為自變量含隨機(jī)誤差和粗差,因變量僅含隨機(jī)誤差。
模型3:此誤差影響模型中觀測值含隨機(jī)誤差和粗差,系數(shù)矩陣僅含有隨機(jī)誤差。即線性回歸模型中體現(xiàn)為因變量含隨機(jī)誤差和粗差,自變量僅含隨機(jī)誤差。
6種常用的穩(wěn)健估計方法如下[2]:
(1)Huber法:
(2)L1法(殘差絕對和最小法):
(4)German-McClure法:
(5)IGG方案:
(6)IGGⅢ方案:
1.3 比較參數(shù)估計方法的指標(biāo)[2]
(1)殘余真誤差均方誤差(參數(shù)估計的絕對指標(biāo))
其中,設(shè)觀測值為Lk;觀測值真值由L?k表示;由參數(shù)估計方法獲得的Lk的估值由L?k表示;Lk的真誤差由Δk表示;由參數(shù)估計方法獲得的Lk的改正數(shù)由Vk表示。其
殘余真誤差均方誤差(Mean Square of Residual True Error),由MSRTE表示:
σ?f為殘余真誤差均方誤差,此指標(biāo)能從根本上將參數(shù)估計方法的優(yōu)劣性和有效性進(jìn)行實質(zhì)說明。用統(tǒng)計學(xué)的思想對比兩種參數(shù)估計方法的相對優(yōu)劣性和相對有效性,針對同一個參數(shù)估計問題,相同參數(shù)估計方法進(jìn)行1000次仿真實驗所獲取的MSRTE的平均值定為殘余真誤差均方誤差[6],由σ?f來表示。
(2)參數(shù)估計的MSRTE之比(相對指標(biāo))
在同一參數(shù)估計問題中,σ?fa表示由方法A得到的MSRTE,σ?fb表示由方法B得到的MSRTE,令:
R稱為殘余真誤差均方誤差比。式中,是A方法得到的MSRTE,是B方法得到的MSRTE。當(dāng)R>1.0時,A方法優(yōu)于B方法;當(dāng)R<1.0時,B方法優(yōu)于A方法;當(dāng)R趨向于1.0時,A和B兩種方法等價。R作為能從實質(zhì)上對兩種參數(shù)估計有效性根本說明的指標(biāo)存在。繼而,運(yùn)用統(tǒng)計學(xué)的思想對兩種參數(shù)估計方法的相對有效性進(jìn)行說明,和通常是指A、B兩種參數(shù)估計方法對于同一個參數(shù)估計問題仿真實驗多次(如1000次)的平均值。
在本文中,RTLS法得到的觀測值(回歸系數(shù))估值的殘余真誤差均方誤差與RLS法得到的觀測值(回歸系數(shù))估值的MSRTE之比用指標(biāo)RR特指,從根本上說明在一元線性回歸中,穩(wěn)健最小二乘法和穩(wěn)健總體最小二乘法的相對有效性。
一元線性回歸模型的理論方程為:
從區(qū)間[10,37]中任意選取10個均勻分布的數(shù)為x,并通過上述方程獲取真值Y?i,組成10對點作為理論模擬值。由模擬觀測真值Y?i、x,在三種不同誤差影響模型下,加上包含粗差ε=10σ0、其余服從正態(tài)分布N(0,0.12)的隨機(jī)誤差得到相應(yīng)的模擬觀測值yi、xi。
以穩(wěn)健估計Huber法計算結(jié)果為例,運(yùn)用RLS法和RTLS法分別進(jìn)行參數(shù)估計運(yùn)算,得出觀測值的改正數(shù)V、觀測值估值的殘余真誤差以及回歸系數(shù)估值a?0、a?1和回歸方程,并通過觀測值估值的殘余真誤差fk計算觀測值估值的MSRTE以及通過回歸系數(shù)估值a?0、a?1計算回歸系數(shù)估值的殘余真誤差。其中,RTLS具體計算步驟參照文獻(xiàn)[5]。三種誤差影響模型下RLS法和RTLS法的模擬觀測數(shù)據(jù)和實驗結(jié)果見表1。觀測值(因變量)真值由Y?i表示,其中元數(shù)由i表示,i=1,2,3。x表示自變量真值,Δ表示服從正態(tài)分布N(0,0.12)的隨機(jī)誤差,y表示由Y?i和隨機(jī)誤差Δ、粗差ε=10σ0共同生成的模擬觀測值。RLS法的觀測值改正數(shù)由VA表示,RLS的殘余真誤差由△A表示。RTLS的觀測值改正數(shù)由VB表示,RTLS的殘余真誤差由△B表示。
表1 模擬觀測值和真值與RLS法和RTLS法的實驗結(jié)果
由RLS 法計算得到的回歸系數(shù)估值a?0=3.0233,a?1=0.2481。回歸方程:
由表1中△A列數(shù)據(jù)可計算得到RLS法觀測值估值y?的MSRTE為:σ?f1=0.73。
RTLS 法 得 到 的 回 歸 系 數(shù) 估 值a?0=1.0436,a?1=0.3338?;貧w方程:
由表1中△B數(shù)據(jù)得到的RTLS法的y?的MSRTE為:σ?f2=1.05 。
觀測值估值y?的RTLS法和RLS法的殘余真誤差均方誤差比:
通過一次計算就可以獲得觀測值估值y?的MSRTE,對于仿真1000次實驗計算,取其平均值作為觀測值的MSRTE。
由RLS法計算得到回歸系數(shù)估值a?0的殘余真誤差為Δ3=a?0-a?0=0.7733 ,回歸系數(shù)估值a?1的殘余真誤差為Δ4=a?1-a?1=-0.0019 。
回歸系數(shù)估值a?0通過RTLS法得到的殘余真誤差為Δ3=a?0-a?0=-1.2064 ,回歸系數(shù)估值a?1的殘余真誤差為Δ4=a?1-a?1=0.0838 。
回歸系數(shù)估值的殘余真誤差可以通過一次仿真實驗計算出,其殘余真誤差均方誤差可由1000次的仿真實驗計算出。
當(dāng)給定a?0、a?1和自變量x的取值時,就可通過一元線性回歸的理論模型y?=a?0+a?1x得到理論模擬值,通過運(yùn)用三種不同誤差影響模型,由理論觀測值加上隨機(jī)誤差或粗差生成模擬觀測值。
選取三組不同斜率的一元線性回歸方程:A組、B組、C組,分別為斜率約為tan15°、tan45°、tan75°的一元線性回歸模型,相對應(yīng)的理論回歸方程為:y?=2.25+0.25x、y?=2.25+1.05x、y?=2.25+3.75x。
在上述A、B、C三組方程中分別根據(jù)三種不同誤差影響模型、不同穩(wěn)健估計方法在觀測值n=6(n表示觀測值個數(shù))的情形下進(jìn)行仿真實驗。
以觀測值n=6為例,由上述三種不同斜率(tan15°、tan45°和tan75°)的一元線性回歸模型生成的理論模擬值見表2。
表2 不同斜率的理論模擬值(n=6)
理論模擬值加上隨機(jī)誤差或粗差(ε=10σ0)生成模擬觀測值。對于觀測值n=6、三種不同的斜率、三種不同誤差影響模型的情形分別進(jìn)行1000次仿真實驗(方法同算例2.1)。
n=6,ε=10σ0時RLS和RTLS得到的觀測值估值y?的殘余真誤差均方誤差見表3,由表3可計算得RTLS與RLS觀測值估值y?的殘余真誤差均方誤差之比見表4,回歸系數(shù)的估值a?0和a?1通過RTLS和RLS所獲得的MSRTE之比見表5。
表3 RLS和RTLS的觀測值估值y?的殘余真誤差均方誤差(n=6,ε=10σ0)
表4 RTLS和RLS的觀測值估值 y?的MSRTE之比(n=6,ε=10σ0)
表5 RTLS和RLS的回歸系數(shù)的估值a?0和 a?1MSRTE之比 (n=6,ε=10σ0)
(1)第一種誤差影響模型(僅觀測值(因變量)含有粗差和隨機(jī)誤差)
對于A、B、C三組不同斜率(tan15°、tan45°和tan75°)以及觀測值(因變量)含有粗差和隨機(jī)誤差的情況,通過RLS和RTLS發(fā)現(xiàn)所得到的觀測值估值y?的殘余真誤差均方誤差之比(表4)都有RRi>1.0;RTLS和RLS得到的回歸系數(shù)的估值 a?0和 a?1的殘余真誤差均方誤差之比(表5)是絕大多數(shù)情況下RRi>1.0和個別情況下RRi接近1.0。所以RLS無論是對于觀測值估值y?還是對于回歸系數(shù)的估值a?0和 a?1相對于RTLS都更有效。
(2)第二種誤差影響模型(系數(shù)矩陣含有隨機(jī)誤差和粗差,觀測值僅含有隨機(jī)誤差的)
對于6種常用的相對有效穩(wěn)健估計方法,RTLS和RLS在斜率約為tan15°時,所獲得的觀測值估值y?的殘余真誤差均方誤差之比(表4)是絕大多數(shù)情況下RRi>1.0和個別情況下RRi接近1.0,RLS相對于RTLS更有效;RTLS和RLS在斜率約為tan45°時,所獲得的觀測值估值 y?的殘余真誤差均方誤差之比(表4)1.50>=RRi>=0.52,RLS和RTLS有效性很難被說明;RTLS和RLS在斜率約tan75°時,所獲得的觀測值估值y?的殘余真誤差均方誤差之比(表4)有 RRi<=0.27;RTLS相對于RLS更有效。
對于(tan15°、tan45°和tan75°)這三種不同的斜率以及6種常用的相對有效的穩(wěn)健估計方法而言,通過RTLS和RLS計算獲取的回歸系數(shù)估值 a?0和 a?1的MSRTE之比(表5)在絕大多數(shù)情況下RRi>1.0和個別情況下RRi接近1.0。RLS 對于回歸系數(shù)的估值 a?0和 a?1比 RTLS 更為有效。
(3)第三種誤差影響模型(觀測值含有隨機(jī)誤差和粗差,系數(shù)矩陣僅含有隨機(jī)誤差)
對于A、B、C三組不同斜率(tan15°、tan45°和tan75°)以及6種常用的相對有效的穩(wěn)健估計方法而言,RTLS和RLS得到的觀測值估值 y?的殘余真誤差均方誤差之比(表4)是絕大多數(shù)情形下RRi>1.0和個別情況下RRi接近1.0;RTLS和RLS得到的回歸系數(shù)的估值 a?0和a?1的殘余真誤差均方誤差之比(表5)都有RRi>1.0。即無論是觀測值估值 y?還是回歸系數(shù)的估值 a?0和 a?1,RLS相對于RTLS更有效。
利用類似的方法,對和n=10和ε=10σ0的情形進(jìn)行了類似的仿真實驗,所得到的結(jié)果與ε=10σ0和n=6的情形相同。
本文用不同的誤差(粗差)影響模型、不同的穩(wěn)健估計方法和不同的斜率,運(yùn)用仿真實驗的方法,討論了一元線性回歸中RLS法和RTLS法的相對有效性。
針對A、B、C三組(斜率約為tan15°、tan45°和tan75°)的一元線性回歸模型:就觀測值(因變量)的估值而言,在第一種和第三種誤差影響模型下,RLS優(yōu)于RTLS。在第二種誤差影響模型下,當(dāng)斜率較?。stan15°)時,RLS比RTLS相對更為有效;當(dāng)斜率約為tan45°時,難以說明RTLS與RLS哪個更有效;當(dāng)斜率較大(約tan75°)時,就RLS而言RTLS相對更為有效。在三種不同的誤差影響模型下,針對回歸系數(shù)的估值而言,RLS始終都比RTLS相對更為有效。因此,綜上所述,對于一元線性回歸RTLS相對于RLS并沒有明顯的優(yōu)越性。
[1]孫同賀,閆國慶,周強(qiáng)波.穩(wěn)健初值的選權(quán)迭代法剔除DEM數(shù)據(jù)粗差[J].測繪科學(xué),2011,36(3).
[2]葛永慧.再生權(quán)最小二乘法穩(wěn)健估計[M].北京:科學(xué)出版社,2015.
[3]楊娟,陶葉青.GPS高程異常擬合的文件總體最小二乘算法[J].大地測量與地球動力學(xué),2014,34(5).
[4]陳瑋嫻,袁慶.抗差總體最小二乘方法[J].大地測量與地球動力學(xué),2012,32(6).
[5]汪奇生,楊德宏,楊騰飛.線性回歸模型的穩(wěn)健總體最小二乘解算[J].大地測量與地球動力學(xué),2015,35(2).
[6]葛永慧.再生權(quán)最小二乘法研究[J].測繪通報,2014,(8).