關(guān) 靜,楊香云
(天津大學(xué) 數(shù)學(xué)學(xué)院,天津 300354)
在經(jīng)濟(jì)、醫(yī)學(xué)、金融等研究領(lǐng)域,預(yù)測變量的測量經(jīng)常帶有誤差,例如在醫(yī)學(xué)研究脂肪吸收量與乳腺癌患病率之間的關(guān)系這一問題中,脂肪的吸收量是無法直接觀測的,只能根據(jù)脂肪的攝入量來計算。在分析帶有測量誤差的數(shù)據(jù)時,如果忽略測量誤差所得結(jié)果是不可靠的,通常會導(dǎo)致均值回歸或者分位數(shù)回歸的參數(shù)估計是有偏的。
關(guān)于帶測量誤差的均值回歸,F(xiàn)uller給出經(jīng)典最小二乘在忽略測量誤差存在的情況下做出的參數(shù)估計不再是無偏的,并推導(dǎo)出了偏差的具體形式[1]1-4。為了解決測量誤差帶來的有偏問題,相關(guān)的方法包括:回歸遞減法[2](修正偏差:Correction Regression)、模擬外推法(SIMEX)[3]、工具變量法(增加工具變量信息)[4]147-150、正交回歸法[5]等。
分位數(shù)回歸用于研究在給定預(yù)測變量條件下,響應(yīng)變量在不同分位數(shù)下的分布情況[6-7]。比普通的最小二乘均值回歸能夠獲取更多的關(guān)于響應(yīng)變量的分布信息,可以說傳統(tǒng)的最小二乘只是均值的回歸,而分位數(shù)回歸不僅可以反映均值的信息,而且還可以反映分布的上尾和下尾的信息。特別地,實際問題中響應(yīng)變量與預(yù)測變量之間的關(guān)系較為復(fù)雜,比如當(dāng)數(shù)據(jù)出現(xiàn)尖峰或厚尾的分布和存在顯著的異方差等情況時,傳統(tǒng)的均值回歸并不能充分利用數(shù)據(jù)信息來反映變量之間的真實關(guān)系。
本文將測量誤差引入分位數(shù)回歸模型中,重點研究帶測量誤差的分位數(shù)回歸模型的參數(shù)估計問題。相對于帶測量誤差的均值回歸,這類研究相對很少,因為校正分位數(shù)回歸中預(yù)測變量的測量誤差有兩大難點[8]:第一,回歸誤差項以及測量誤差項的分布形式未知(若已知可利用似然函數(shù)法得到一致估計);第二,不同于均值回歸,隨機變量和的期望等于期望之和,而分位數(shù)回歸中隨機變量和的分位數(shù)不等于分位數(shù)之和。He等提出了正交回歸法,通過最小化正交殘差的分位數(shù)損失函數(shù)得到參數(shù)估計[9],該方法要求回歸誤差與測量誤差服從球形對稱分布;Hu等提出了基于條件密度函數(shù)的非參數(shù)模型對參數(shù)進(jìn)行估計[10];Wei等提出了通過對整個分位數(shù)過程進(jìn)行建模估計給定x條件下y的密度函數(shù),從而用迭代的方法得到參數(shù)估計[11],但計算量龐大且過于復(fù)雜;Wang等提出帶測量誤差分位數(shù)回歸的校正損失估計[8];Jiang提出的復(fù)合分位數(shù)回歸方法[12]與Shim提出的加權(quán)正交回歸的估計方法[13],同樣假設(shè)誤差服從球形對稱分布;Yang等對帶測量誤差的中位數(shù)回歸提出隨機加權(quán)估計,為帶測量誤差的分位數(shù)估計提供了可選的思路[14],但是同樣受限于誤差服從球形對稱分布。
本文提出利用修正因子得分法解決帶有測量誤差的分位數(shù)回歸的參數(shù)估計問題:首先,利用因子得分法對預(yù)測變量進(jìn)行估計[15];其次,利用響應(yīng)變量y與估計的預(yù)測變量做分位數(shù)回歸,并對估計結(jié)果進(jìn)行修正得到最終估計,即修正因子得分估計;再次,通過隨機模擬,比較在不同情形下修正因子得分(CFS)估計與Naive估計(忽略測量誤差的估計)以及正交回歸(H-L)估計的優(yōu)劣。
考慮帶測量誤差的分位數(shù)回歸模型:
τ∈(0,1)
(1)
W=X+u
(2)
(3)
得到參數(shù)的一致估計,其中ρτ(u)=u(τ-I(u<0)),I(·)為示性函數(shù)。Koenker給出了估計方法與相應(yīng)的性質(zhì)[16]69-105。當(dāng)預(yù)測變量X帶有測量誤差時,原有的方法將不再適用,而帶有測量誤差的均值回歸所提出的方法,如回歸遞減法、模擬外推法、工具變量法、正交回歸法等,對于帶有測量誤差的分位數(shù)回歸模型也不能直接使用。針對測量誤差分位數(shù)回歸模型,He和Liang提出正交分位數(shù)回歸模型,并在測量誤差與回歸誤差服從球形對稱分布的假設(shè)下得到了參數(shù)的一致估計。
Thoresen和Laake于1999年在研究帶測量誤差的Logistic回歸模型參數(shù)估計中,提出了利用因子分析中的因子得分理論通過工具變量信息估計預(yù)測變量X,進(jìn)而估計回歸參數(shù)的方法[15]。下面在式(2)的基礎(chǔ)上引入工具變量:
Z=α0+α1X+δ
(4)
其中Z與X相關(guān),且誤差項δ服從正態(tài)分布。結(jié)合式(2)和式(4)可寫成以下形式:
(5)
假設(shè)Var(u)=Var(δ)=ψ2,Var(X)=γ2,則有:
對于帶測量誤差的分位數(shù)回歸模型,本文提出修正因子得分法。利用因子得分法估計預(yù)測變量,然后用Y與所估計的預(yù)測變量做分位數(shù)回歸,并對其估計結(jié)果進(jìn)行修正,從而得到參數(shù)(β0,β1)的最終估計。
1.將因子得分法在原方法基礎(chǔ)上進(jìn)行改善。在因子得分法中假設(shè)測量誤差u和工具變量與X的回歸誤差δ的方差相等,通過添加替代變量W的重復(fù)測量信息W1從而去掉該假定,W1滿足:
W1=X+u1
(6)
圖1 測量誤差影響下的中位數(shù)估計圖
圖2 測量誤差影響下的75%分位數(shù)估計圖
本文應(yīng)用R軟件對修正因子得分估計法和正交回歸估計法進(jìn)行隨機模擬,并對模擬結(jié)果進(jìn)行分析比較。
表1 β0=2 β1=1 ε~N(0,1) u~N(0,1) δ~N(0,1)
表2 β0=2 β1=1 ε~N(0,1) u~N(0,2) δ~N(0,1)
整體來看,在各個分位數(shù)水平下,本文所提出的修正因子得分(CFS)估計都有較優(yōu)的估計效果,并且通過改變樣本大小,發(fā)現(xiàn)隨著樣本量的增大估計效果更優(yōu),這一點在低分位數(shù)和高分位數(shù)的截距項的估計結(jié)果中尤為明顯。
表3 β0=2 β1=1 ε~N(0,2) u~N(0,1) δ~N(0,1)
測量誤差模型在經(jīng)濟(jì)、金融、生物、醫(yī)學(xué)等領(lǐng)域迅速發(fā)展,是近年來統(tǒng)計學(xué)研究的熱點問題之一,而分位數(shù)回歸模型理論的不斷完善也使其受到了廣泛應(yīng)用。因此,本文針對帶測量誤差分位數(shù)回歸的參數(shù)估計問題展開研究。
在介紹線性測量誤差模型的基礎(chǔ)上給出測量誤差的存在造成的參數(shù)估計的偏差,引入分位數(shù)回歸模型,并給出現(xiàn)有的帶測量誤差的分位數(shù)回歸估計方法(正交回歸法等);因子得分法由Thoresen和Laake提出,用于估計預(yù)測變量X;本文在此方法的基礎(chǔ)上進(jìn)行了改進(jìn),用改進(jìn)后的方法估計預(yù)測變量X,用估計的X與Y回歸,并對估計結(jié)果進(jìn)行修正,提出了修正因子得分法。
本文提出的修正因子得分法的優(yōu)勢在于:其一,在使用因子得分法估計預(yù)測變量時加入重復(fù)測量,克服了需要假設(shè)測量誤差與工具變量誤差方差相等或者等比例的缺陷,放寬了因子得分法的約束條件;其二,只假定回歸誤差、測量誤差、工具變量誤差均服從正態(tài)分布,對不同誤差分布的方差不做其他假定。相對于正交回歸法,放寬了約束條件。
模擬結(jié)果顯示:修正因子得分法比Naive估計有了很大改善,在球形對稱分布假設(shè)條件下修正因子得分法的估計效果與正交回歸法相當(dāng),但當(dāng)回歸誤差方差與測量誤差方差不等的情形下(不滿足球形對稱分布假設(shè)),修正因子得分法仍然有較好的估計,在估計的平均偏差和標(biāo)準(zhǔn)誤等方面表現(xiàn)出良好的性質(zhì),而此時正交回歸法不再適用。綜合來看,修正因子得分法作為帶測量誤差分位數(shù)模型的估計方法具有一定的優(yōu)良性。
參考文獻(xiàn):
[1]Fuller W A.Measurement Error Model[M].New York:John Wiley,1987.
[2]Wang N,Lin X H,Guttierrez R G.A Bias Correction Regression Calibration Appoach in Generalized Linear Mixed Measurement Error Model[J].Communications in Statistics-Theory and Methods,1999,28(1).
[3]Cook J R,Stefanski L A.Simulation-Extrapolation Estimation in Parametric Measurement Error Models[J].Journal of the American Statistical Association,1994,89.
[4]李子奈,潘文卿.計量經(jīng)濟(jì)學(xué)[M].北京:高等教育出版社,2010.
[5]Brown M L.Robust Line Estimation with Error in Both Variables[J].Statistical Association,1982,77.
[6]袁曉惠,劉天慶.數(shù)據(jù)隨機缺失下分位數(shù)回歸模型的誘導(dǎo)光滑估計法[J].統(tǒng)計與信息論壇,2017(6).
[7]李育安.分位數(shù)回歸及應(yīng)用簡介[J].統(tǒng)計與信息論壇,2006(3).
[8]Wang H J,Stefanski L A,Zhu Z.Corrected-Loss Estimation for QuantLle Regression with Covariate Measurement Errors[J].Biometrika,2012,99(2).
[9]He X,Liang H.Quantile Regression Estimates for a Class of Linear and Partially Linear Errors-in-Variables Models[J].Statist Sinica,2000,10(1).
[10] Hu Y,Schennach S M.Identification and Estimation of Nonclassical Nonlinear Errors-in-Variables Models with Continuous Distributions Using Instruments[J].Econometrica,2008,76.
[11] Wei Y,Carroll R J.Quantile Regression with Measurement Error[J].Journal of the American Statistical Association,2009,104(487).
[12] Jiang R.Composite Quantile Regression for Linear Errors-in-Variables Models[J].Hacettepe Journal of Mathematics and Statistics,2015,44(3).
[13] Shim Jooyong.Quantile Regression with Errors in Variables[J].Journal of the Korean Data and Information Science Sociaty,2014(2).
[14] Yang X H,Jiang R,Qian W M.Randomly Weighted LAD-Estimation for Partially Linear Errors-in-Variables Models[J].Chinese Annals of Mathematics Series B,2015,36(4).
[15] Thoresen M,Laake P.Instrumental Variable Estimation in Logistic Measurement Error Models by Means of Factor Scores[J].Communicationsin Statistics-theory and Methods,1999,28(2).
[16] Koenker R.Quantile Regression[M].New York:Cambridge University Press,2005.