龐新生,李 萌
(北京林業(yè)大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100083)
基于半?yún)?shù)模型的插補(bǔ)方法研究
龐新生,李 萌
(北京林業(yè)大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100083)
數(shù)據(jù)缺失是在數(shù)據(jù)收集中普遍存在的現(xiàn)象,因而缺失數(shù)據(jù)的插補(bǔ)問題就成了數(shù)據(jù)分析領(lǐng)域的重要命題.常用的插補(bǔ)模型有參數(shù)模型、非參數(shù)模型和半?yún)?shù)模型,其中關(guān)于半?yún)?shù)模型的研究較少,考慮到半?yún)?shù)模型的優(yōu)越性,文章將半?yún)?shù)回歸模型與插補(bǔ)方法相結(jié)合,利用最小二乘核估計(jì)構(gòu)建半?yún)?shù)模型,再利用輔助變量對(duì)目標(biāo)變量進(jìn)行估計(jì)來建立缺失數(shù)據(jù)的插補(bǔ)數(shù)據(jù)集,進(jìn)而實(shí)現(xiàn)缺失數(shù)據(jù)的插補(bǔ),并通過案例探究該方法的實(shí)現(xiàn)及其可行性.
缺失數(shù)據(jù);插補(bǔ)方法;半?yún)?shù)模型
通常情況下,在統(tǒng)計(jì)研究過程中研究人員都假設(shè)用于研究的數(shù)據(jù)分布是明確的,不存在缺失數(shù)據(jù)和不正確的值,然而,事實(shí)上并不是這樣的,在數(shù)據(jù)的收集和整理過程中由于各種可控和不可控的原因往往會(huì)造成數(shù)據(jù)的缺失,這使得實(shí)際得到的數(shù)據(jù)與可用于模型處理的數(shù)據(jù)之間存在很大的差距,這一現(xiàn)象對(duì)統(tǒng)計(jì)質(zhì)量的影響是顯著的.缺失數(shù)據(jù)不僅會(huì)增加研究的復(fù)雜性,還會(huì)造成推論中估計(jì)的偏差增大,從而使得研究結(jié)果缺乏說服力.因此,需要采用一定的方法對(duì)數(shù)據(jù)缺失的現(xiàn)象進(jìn)行補(bǔ)救.常用的補(bǔ)救方法主要包括加權(quán)調(diào)整、插補(bǔ)和參數(shù)似然估計(jì)等,加權(quán)調(diào)整主要用于處理調(diào)查中單位無回答,插補(bǔ)主要用于處理項(xiàng)目無回答,參數(shù)似然估計(jì)法不受無回答類型的限制,但要求知道數(shù)據(jù)分布.本文主要就插補(bǔ)方法進(jìn)行討論,插補(bǔ)方法的優(yōu)劣取決于插補(bǔ)模型的選擇,合理選擇插補(bǔ)模型有助于提高插補(bǔ)效率.常用的插補(bǔ)模型有參數(shù)模型、非參數(shù)模型和半?yún)?shù)模型,半?yún)?shù)模型將參數(shù)模型與非參數(shù)模型相結(jié)合,這使得模型既解決了單純的參數(shù)模型與非參數(shù)模型難以解決的問題,增強(qiáng)了模型的適應(yīng)性;又克服了非參數(shù)模型信息損失過多的問題,能夠在充分利用數(shù)據(jù)的同時(shí)更接近于真實(shí),具有極強(qiáng)的解釋能力.
半?yún)?shù)模型在20世紀(jì)80年代提出并發(fā)展起來,它弱化了建立線性或非線性回歸模型的假設(shè)條件,同時(shí)克服了非參數(shù)方法中信息損失過多的問題,在處理數(shù)據(jù)時(shí)能更充分地利用數(shù)據(jù)提供的信息及經(jīng)驗(yàn),對(duì)實(shí)際問題的描述更接近于真實(shí),有著廣泛的應(yīng)用前景,受到了許多學(xué)者的關(guān)注.
目前國(guó)內(nèi)外文獻(xiàn)中討論的插補(bǔ)方法,主要是通過建立參數(shù)模型實(shí)現(xiàn)的,而有關(guān)非參數(shù)模型和半?yún)?shù)模型下的插補(bǔ)研究的文獻(xiàn)很少,主要研究集中在對(duì)數(shù)據(jù)缺失情況下半?yún)?shù)模型的估計(jì)及估計(jì)量性質(zhì)的探討.Wang Qihua,Zheng Zhongguo(1997)針對(duì)觀測(cè)值存在右側(cè)隨機(jī)刪失的情況,討論了半?yún)?shù)回歸模型中參數(shù)部分和非參數(shù)部分的性質(zhì).Wang Qihua, Oliver Linton和 Wolfgang H?rdle(2004)分析了當(dāng)數(shù)據(jù)存在隨機(jī)缺失時(shí),半?yún)?shù)模型的邊際平均估計(jì)量和傾向得分加權(quán)估計(jì)量的漸進(jìn)正態(tài)性.Chen Xiaolin,Wang Qihua,Cai Jianwen和Viswanathan Shankar(2012)建立了一個(gè)通用的半?yún)?shù)邊際稅率回歸模型,并證明了所提出估計(jì)的一致性和漸近正態(tài)性;并利用這一模型對(duì)生物醫(yī)學(xué)研究中的多類型復(fù)發(fā)事件做了相關(guān)研究,其中也有對(duì)存在數(shù)據(jù)缺失情況的相關(guān)研究.王啟華(1995)針對(duì)被解釋變量因受某種隨機(jī)干擾而被右截?cái)嗟那闆r,對(duì)半?yún)?shù)模型的相合性進(jìn)行了討論.齊化富(2006)針對(duì)存在缺失數(shù)據(jù)的情況,用經(jīng)驗(yàn)似然法對(duì)線性模型和部分線性模型(半?yún)?shù)模型)做了研究,得到經(jīng)驗(yàn)似然置信區(qū)間.羅雙華等(2007,2008)對(duì)缺失數(shù)據(jù)下半?yún)?shù)回歸模型的漸近性質(zhì)和局部線性光滑做了討論,并給出了相應(yīng)的證明.范承華,薛留根(2008)針對(duì)響應(yīng)變量存在缺失的半?yún)?shù)回歸模型,對(duì)未知參數(shù)構(gòu)造了經(jīng)驗(yàn)對(duì)數(shù)似然比統(tǒng)計(jì)量,并與最小二乘法進(jìn)行了優(yōu)劣比較.劉妍(2009)針對(duì)數(shù)據(jù)缺失的情形,結(jié)合缺失機(jī)制、缺失方式和對(duì)缺失問題的處理方法,研究了目標(biāo)變量滿足MAR缺失機(jī)制時(shí)半?yún)?shù)回歸模型的二階段估計(jì)及估計(jì)量的漸近性質(zhì).裴曉換(2011)利用最小二乘法和一般的非參數(shù)權(quán)估計(jì)方法,對(duì)隨機(jī)缺失和固定設(shè)計(jì)下的半?yún)?shù)回歸模型進(jìn)行了估計(jì);并在較弱的條件下,證明了參數(shù)向量、非參數(shù)部分及誤差方差的強(qiáng)相合性.
將半?yún)?shù)模型與插補(bǔ)方法相結(jié)合的討論很少,比較有代表性的有:Lipsitz,N.R.等(1998)將半?yún)?shù)方法引入了多重插補(bǔ)中;Scharfsten,Rotnitzky和Robins(1999)利用半?yún)?shù)回歸模型對(duì)不可忽略的缺失數(shù)據(jù)進(jìn)行了調(diào)整;Qin,Leung和Shao(2002),Tang,Little和Raghunathan(2003)分別提出了兩種不同的半?yún)?shù)方法用于處理不可忽略缺失機(jī)制下缺失數(shù)據(jù)問題;Qin Yongsong,Zhang Shichao,Zhu Xiaofeng,Zhang Jilian和Zhang Chengqi(2007)對(duì)半?yún)?shù)模型下的插補(bǔ)方法做過討論;盡管對(duì)半?yún)?shù)插補(bǔ)的介紹很少,但考慮到半?yún)?shù)模型所具有的優(yōu)勢(shì),對(duì)這一方法的研究有助于插補(bǔ)方法的完善和進(jìn)一步發(fā)展.
如果針對(duì)一個(gè)數(shù)據(jù)集可以建立適當(dāng)?shù)膮?shù)模型,或研究者可以為數(shù)據(jù)集指定正確的參數(shù)模型,那么基于參數(shù)回歸模型的插補(bǔ)方法是較優(yōu)的選擇.如果研究者指定的模型是錯(cuò)誤的,參數(shù)估計(jì)的結(jié)果就會(huì)有較大的偏差.當(dāng)研究者對(duì)數(shù)據(jù)集的實(shí)際分布情況并不了解時(shí),非參數(shù)插補(bǔ)是一個(gè)很好的選擇.非參數(shù)插補(bǔ)法最初是基于大樣本的情況提出的,是通過掌握數(shù)據(jù)集的結(jié)構(gòu)得到近似真值的插補(bǔ)值,然而這種方法會(huì)損失過多的信息,并且不適用于高維度的數(shù)據(jù)集.考慮到半?yún)?shù)模型兼顧了參數(shù)模型與非參數(shù)模型優(yōu)點(diǎn)而具有更強(qiáng)的適應(yīng)性和解釋能力,可以將半?yún)?shù)模型用于插補(bǔ)方法中.
2.1半?yún)?shù)回歸模型
半?yún)?shù)模型于1977年由Stone提出的,模型的具體形式如下:
(1)
2.2半?yún)?shù)回歸模型的估計(jì)
本文采用最小二乘核估計(jì)的方法對(duì)模型進(jìn)行估計(jì),令K(·)為核函數(shù),h=hm為窗寬序列,h隨著樣本量的增加而逐漸減小,當(dāng)n趨近于∞時(shí),窗寬趨近于0.式(1)經(jīng)過變化后得到:
(2)
假設(shè)B是已知的,利用完全數(shù)據(jù)Sr和線性回歸模型的理論估計(jì)B,得到g(x)的最終估計(jì)為:
.
(3)
2.3核函數(shù)和窗寬的選擇
對(duì)于核估計(jì),可以分為核函數(shù)的選擇和窗寬的選擇兩部分.其中,核函數(shù)的作用是消除隨機(jī)因素的影響,使模型能夠反映變量間的實(shí)際關(guān)系.在半?yún)?shù)模型的推導(dǎo)中常用的核函數(shù)有:均勻核函數(shù)、高斯核函數(shù)、多項(xiàng)式核函數(shù)以及拋物線核函數(shù).事實(shí)上,在MAR和MCAR的假設(shè)下,拋物線核函數(shù)的估計(jì)效果相對(duì)更好一些(葉阿忠,2003),因此本文中選擇拋物線核函數(shù)對(duì)模型進(jìn)行估計(jì).
2.4缺失值的插補(bǔ)
(4)
(5)
其中,
式(4)和式(5)代表的是兩個(gè)插補(bǔ)數(shù)據(jù)集,且它們具有相同的收斂性質(zhì).基于半?yún)?shù)模型的單一插補(bǔ)法,就是利用式(4)或式(5)為缺失數(shù)據(jù)估計(jì)一套可能值進(jìn)行插補(bǔ),其中利用式(5)構(gòu)建的插補(bǔ)數(shù)據(jù)集的方法帶有隨機(jī)誤差項(xiàng),也可以稱為基于半?yún)?shù)模型的隨機(jī)插補(bǔ)法.
2.5估計(jì)量及其性質(zhì)
對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)后,我們可以得到插補(bǔ)后完整的數(shù)據(jù)集,通過對(duì)插補(bǔ)后目標(biāo)變量的一些性質(zhì)與原始數(shù)據(jù)得到的結(jié)果進(jìn)行比較,來分析插補(bǔ)方法的優(yōu)勢(shì).一般情況下,通過計(jì)算插補(bǔ)值的均方誤差可以了解基于半?yún)?shù)模型估計(jì)出的插補(bǔ)值是否近似于真值.具體的計(jì)算公式為:
(6)
(7)
依據(jù)上述理論,下面通過兩個(gè)案例說明半?yún)?shù)回歸模型的優(yōu)越性以及基于半?yún)?shù)模型的插補(bǔ)方法的效率,案例1基于原始數(shù)據(jù)的分布未知,案例2基于已知分布.
案例1一組原始數(shù)據(jù)(Y,X1,X2,X3,X4,X5),樣本量n=30,具體數(shù)據(jù)見來源于http://wenku.baidu.com/link?url=aLGJM5x6a4LOFSFZNIcIDTs9WpxYk8guwqpmZlLtZBl-9Kxjtd4aUR5fxqBnTUzv5uHZhnXwU-garmQw-sLEPLH9zFEsz3uHW9etmhv9Bpu.
運(yùn)用隨機(jī)數(shù)表,采用模擬方法隨機(jī)抽取Y中的數(shù)據(jù)刪除,構(gòu)造符合隨機(jī)缺失的數(shù)據(jù)集.由于數(shù)據(jù)的缺失會(huì)造成變量間的相關(guān)性發(fā)生變化,在相同缺失率情況下,建立線性模型進(jìn)行擬合估計(jì)時(shí),某些變量的系數(shù)沒有通過檢驗(yàn)需要被剔除,此時(shí)可以考慮用半?yún)?shù)模型進(jìn)行估計(jì),將未通過檢驗(yàn)的變量作為非參數(shù)部分可以避免信息的損失.在本例中,由于半?yún)?shù)模型中g(shù)(·)的函數(shù)形式未知,無法進(jìn)行估計(jì),需要先對(duì)這部分進(jìn)行插補(bǔ).考慮到最近距離插補(bǔ)是對(duì)非參數(shù)模型進(jìn)行插補(bǔ)的一種常用方法,本文選用這一方法對(duì)模型中非參部分進(jìn)行插補(bǔ).采用歐氏距離計(jì)算目標(biāo)變量Y的輔助變量間的距離,選擇距離最近的有回答單元所對(duì)應(yīng)的g(·)值作為非參部分的估計(jì)值.分別考慮缺失率不同的幾種情況下,基于半?yún)?shù)模型進(jìn)行插補(bǔ)后Y的分布情況和插補(bǔ)值的均方誤差.
情況1:目標(biāo)變量的缺失率為10%,此時(shí)樣本量n=27.對(duì)Y建立半?yún)?shù)方程,擬合結(jié)果為:
Y=2.556 0X1+2.424 4X2+3.460 7X3+1.137 7X4+g(X5)
擬合后的R2=0.905 4,方程的擬合效果較好.
情況2:目標(biāo)變量的缺失率為20%,此時(shí)樣本量n=24.對(duì)Y建立半?yún)?shù)方程,擬合結(jié)果為:
Y=2.401 6X1+2.493 1X2+3.709 4X3+1.222 8X5+g(X4)
擬合后的R2=0.902 2,方程的擬合效果較好.
情況3:目標(biāo)變量的缺失率為30%,此時(shí)樣本量n=21.對(duì)Y建立半?yún)?shù)方程,擬合結(jié)果為:
Y=2.553 5X1+2.311 6X2+3.652 2X3+1.092 2X5+g(X4)
擬合后的R2=0.895 9,方程的擬合效果較好.
情況4:目標(biāo)變量的缺失率為40%,此時(shí)樣本量n=18.對(duì)Y建立半?yún)?shù)方程,擬合結(jié)果為:
Y=2.882 6X2+3.573 2X3+1.219 0X4+1.721 2X5+g(X2)
擬合后的R2=0.880 1,方程的擬合效果較好.
情況5:目標(biāo)變量的缺失率為50%,此時(shí)樣本量n=15.對(duì)Y建立半?yún)?shù)方程,擬合結(jié)果為:
Y=2.453 4X2+3.533 4X3+0.309 2X4+2.367 4X5+g(X1)
擬合后的R2=0.955 0,方程的擬合效果較好.
為了進(jìn)一步進(jìn)行比較,再考慮這五種缺失率情況下,利用回歸插補(bǔ)處理后Y的分布情況和插補(bǔ)值的均方誤差.缺失率為10%,20%,30%,40%,50%時(shí)的回歸模型分別為:
Y=2.810 8X1+2.406 8X2+3.517 8X2+1.467 1X4+1.719 6X5
Y=2.896 0X1+2.801 6X2+4.443 0X3+1.631 7X5
Y=3.203 1X1+2.852 4X2+4.439 3X3+1.525 7X5
Y=3.655 1X1+3.579 9X3+2.437 5X4+2.726 1X5
Y=3.059 7X2+4.526 4X3+1.936 0X4+2.591 1X5
比較在不同缺失率情況下,基于半?yún)?shù)模型的插補(bǔ)方法和回歸插補(bǔ)的效果,如表1和表2所示.
表1中的第4列到第8列分別表示缺失率為10%到50%時(shí),利用回歸插補(bǔ)和基于半?yún)?shù)模型的插補(bǔ)方法進(jìn)行插補(bǔ)處理后,描述變量Y的分布情況的統(tǒng)計(jì)量.從表1中可以看出,利用回歸插補(bǔ)的方法進(jìn)行插補(bǔ)后,Y的期望和方差都是隨著缺失率的增加而增加的,且與根據(jù)完整數(shù)據(jù)得到的計(jì)算結(jié)果相比偏差是逐漸增大的.利用基于半?yún)?shù)模型的插補(bǔ)方法進(jìn)行插補(bǔ)后,變量Y的期望會(huì)隨著缺失率的增加而增加;當(dāng)缺失率小于30%時(shí),Y的方差隨著缺失率的增加逐漸增大,當(dāng)缺失率大于30%時(shí),Y的方差隨著缺失率的增加而減?。逖a(bǔ)后Y的期望和方差與真值之間的偏差會(huì)隨著缺失率的增加而逐漸增大,且當(dāng)缺失率相同時(shí),小于回歸插補(bǔ)法處理后的偏差.另外,考慮分布的峰度和偏度,兩種方法對(duì)缺失數(shù)據(jù)進(jìn)行處理后得到的Y的分布曲線與根據(jù)完整數(shù)據(jù)得到的分布曲線的扁平程度相同,始終為扁平分布;當(dāng)缺失率為10%,20%和40%時(shí),插補(bǔ)處理后Y的分布曲線與原始數(shù)據(jù)情況下的偏斜方式相同,當(dāng)缺失率為30%和50%時(shí),兩種方法對(duì)缺失數(shù)據(jù)進(jìn)行處理后得到的Y的分布曲線都與根據(jù)原始數(shù)據(jù)得到的分布曲線的偏斜方式相反.
表1中的第2列到第6列分別表示缺失率為10%到50%時(shí),利用這兩種方法對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)后插補(bǔ)值的均方誤差.從表2中可以看出,利用這兩種方法進(jìn)行插補(bǔ)后,插補(bǔ)值的均方誤差會(huì)隨著缺失率的增加逐漸增大,且在缺失率相同的情況下,利用基于半?yún)?shù)模型的插補(bǔ)方法進(jìn)行處理后得到的結(jié)果始終小于回歸插補(bǔ)后的結(jié)果.因而,當(dāng)輔助變量完全已知時(shí),考慮用半?yún)?shù)模型對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),能夠給出與真值近似的估計(jì)值進(jìn)行插補(bǔ),且優(yōu)于回歸插補(bǔ)處理后的結(jié)果.
案例2:解釋變量序列{Zi}獨(dú)立同分布,隨機(jī)誤差項(xiàng)序列{εi}獨(dú)立同方差.令Z是在[0,1]上均勻取值且相互獨(dú)立的變量,X是服從均值為0、方差為1正態(tài)分布的相互獨(dú)立的變量,ε服從均值為0、方差為1正態(tài)分布且相互獨(dú)立.半?yún)?shù)模型為:Yi=Zi+1+sin(8Xi+5)+εi,其中g(shù)(x)=1+sin(8Xi+5).令完整數(shù)據(jù)集為隨機(jī)抽取的,且滿足上述條件及模型的數(shù)據(jù)集{Yi,Zi,Xi,i=1,2,…,n},其中樣本量n=300.
分別考慮當(dāng)缺失數(shù)據(jù)滿足隨機(jī)缺失機(jī)制時(shí),缺失率為5%,10%,20%,30%,40%,50%的情況,利用確定性半?yún)?shù)模型建立插補(bǔ)數(shù)據(jù)集對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ).首先考慮目標(biāo)變量Y缺失率為5%的情況,此時(shí)刪除含有缺失數(shù)據(jù)的樣本,樣本量為n=285.利用這285組數(shù)據(jù)對(duì)模型進(jìn)行估計(jì),得到參數(shù)B和g(x)的估計(jì).再將含有缺失數(shù)據(jù)的樣本中的Z變量和X變量的值帶入估計(jì)得到的模型,計(jì)算出對(duì)應(yīng)目標(biāo)變量的估計(jì)值作為插補(bǔ)值.按照同樣的思路和方法考慮目標(biāo)變量Y的缺失率為10%,20%,30%,40%,50%的情況,刪除含有缺失數(shù)據(jù)的樣本后,樣本容量分別為n=270,n=240,n=210,n=180,n=150.利用不含缺失數(shù)據(jù)的樣本對(duì)參數(shù)B和g(x)的進(jìn)行估計(jì),再利用得到的結(jié)果結(jié)合變量Z和變量X計(jì)算缺失數(shù)據(jù)Y的估計(jì)值進(jìn)行插補(bǔ).進(jìn)一步可以利用插補(bǔ)后得到的完整數(shù)據(jù)集計(jì)算Y的描述性統(tǒng)計(jì)量期望和方差.從表3可以看出,與列表刪除后Y的分布情況相比,利用插補(bǔ)后的數(shù)據(jù)集估計(jì)得到的Y的期望和方差與真值之間的偏差較小,Y的分布更接近于原始數(shù)據(jù)的分布情況.
計(jì)算插補(bǔ)值和真值之間的均方誤差,發(fā)現(xiàn)均方誤差始終在0.1的附近上下波動(dòng),可以看出估計(jì)值與真值較為近似,預(yù)測(cè)的準(zhǔn)確性較高.綜上所述,可以得出以下結(jié)論:基于半?yún)?shù)回歸模型的插補(bǔ)方法優(yōu)于列表刪除的方法,并且變量的缺失率越低(即回答率越高),插補(bǔ)后的估計(jì)效果越好.
從上面兩個(gè)模擬案例可以看出,當(dāng)缺失數(shù)據(jù)滿足隨機(jī)缺失機(jī)制時(shí),在缺失率為10%,20%,30%,40%,50%的這幾種情況下,基于半?yún)?shù)回歸模型的插補(bǔ)方法與回歸插補(bǔ)相比依然具有優(yōu)勢(shì),估計(jì)得到的插補(bǔ)值比回歸插補(bǔ)估計(jì)的結(jié)果更接近于真值.因而將半?yún)?shù)回歸模型用于估計(jì)插補(bǔ)數(shù)據(jù)集是可行的,且理論上應(yīng)當(dāng)具有更好的效果.
[1] WANG Qihua,ZHENG Zhongguo.Asymptotic properties for the semiparametric regression model with randomly censored data[J].Science in China,1997,40(9):945-957
[2] WANG Qihua,Oliver Linton,Wolfgang H?rdle. Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association,2004,99(466):334-345
[3] CHEN Xiaolin,WANG Qihua,Viswanathan Shankar.Semiparametric additive marginal regression models for multiple type recurrent events[J].Lifetime Data Anal,2012,18:504-527
[4] 王啟華.隨機(jī)截?cái)嘞掳雲(yún)?shù)回歸模型中的相合估計(jì)[J].中國(guó)科學(xué),1995,25(8):819-832
[5] 齊化富.缺失數(shù)據(jù)下兩類回歸模型的經(jīng)驗(yàn)似然推斷[D].桂林:廣西師范大學(xué),2006
[6] 薛留根.半?yún)?shù)回歸模型中小波估計(jì)的隨機(jī)加權(quán)逼近速度[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2003,26(1):11-25
[7] 羅雙華,玄海燕.缺失數(shù)據(jù)下半?yún)?shù)回歸模型的局部線性光滑[J].蘭州理工大學(xué)學(xué)報(bào),2007,33(5):151-155
[8] 羅雙華,田 萍,蔣紅英.缺失數(shù)據(jù)下半?yún)?shù)回歸模型的漸近性質(zhì)[J].蘭州理工大學(xué)學(xué)報(bào),2008,34(2):155-159
[9] 劉 妍.缺失數(shù)據(jù)情形半?yún)?shù)回歸模型的二階段估計(jì)[D].桂林:廣西師范大學(xué),2009
[10] 裴曉換.帶有缺失數(shù)據(jù)統(tǒng)計(jì)模型的估計(jì)和檢驗(yàn)[D].西安:西北大學(xué),2011
[11] QIN Yongsong,Zhang Shichao,Zhu Xiaofeng.Semi-parametric optimization for missing data imputation[J].Appl Intell,2007,27:79-88
[12] 葉阿忠.非參數(shù)計(jì)量經(jīng)濟(jì)學(xué)[M].天津:南開大學(xué)出版社,2003:180
Study on Missing Data Imputation Based on Semi-Parametric Model
PANG Xinsheng,LI Meng
(College of economics management, Beijing Forestry University, Beijing 100083, China)
Data missing is a common phenomenon. Missing data imputation is an important issue in data analyzing. Parametric model, nonparametric model and semi-parametric model are the common models used to impute missing data. Considering the advantages of semi-parametric model, the essay tries to combine the imputation method with semi-parametric model. Firstly, the essay estimates semi-parametric model through using the least squares kernel estimator. Then covariate vectors are used to estimate the target variable in order to establish a data set that can be used for imputation.
missing data; imputation; semi-parametric model
2015-08-17
基本項(xiàng)目:國(guó)家社科基金項(xiàng)目“中國(guó)城維護(hù)調(diào)查一體化數(shù)據(jù)準(zhǔn)確性評(píng)估修正研究”(13BTJ021).
龐新生(1970-),男,山西晉中人,博士,北京林業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,主要從事抽樣技術(shù)與數(shù)據(jù)分析研究.
1672-2027(2015)03-0001-06
O212.2
A