響應(yīng)傾向得分匹配插補(bǔ)法

2018-08-15 12:44楊貴軍孫玲莉

統(tǒng)計與信息論壇 2018年8期

楊貴軍，孫玲莉，李璐

(天津財經(jīng)大學(xué) 中國經(jīng)濟(jì)統(tǒng)計研究中心，天津300222)

一、引言

在統(tǒng)計數(shù)據(jù)收集過程中，無回答總是不可避免。無回答直接影響數(shù)據(jù)分析結(jié)果的可靠性，一直是統(tǒng)計學(xué)、醫(yī)學(xué)、生物學(xué)等領(lǐng)域研究和應(yīng)用的熱點(diǎn)［1］15－17［2］161－210［3］24－40［4－6］。插補(bǔ) 法通過特定算法或模型給出無回答的插補(bǔ)值，是處理無回答問題的常用方法之一［7］47－67［8］。根據(jù)插補(bǔ)值個數(shù)，插補(bǔ)法可分為單重插補(bǔ)法和多重插補(bǔ)法。單重插補(bǔ)法僅給出無回答的一個插補(bǔ)值。多重插補(bǔ)法可以給出無回答的多個插補(bǔ)值，進(jìn)而給出插補(bǔ)值的精度描述［1］。多重插補(bǔ)法的應(yīng)用更為廣泛。

根據(jù)插補(bǔ)原理，常用多重插補(bǔ)法主要分為三類。第一類是選用與無回答距離小的回答單元進(jìn)行插補(bǔ)。例如，最近鄰插補(bǔ)法依據(jù)回答單元與無回答單元之間的距離選擇無回答插補(bǔ)值，常用的距離是歐氏距離。

傾向得分匹配插補(bǔ)法依據(jù)傾向得分的距離選擇無回答插補(bǔ)值［9－11］。第二類是利用變量相關(guān)性進(jìn)行插補(bǔ)。例如，回歸插補(bǔ)法利用回答單元建立響應(yīng)變量與解釋變量之間的回歸模型，根據(jù)回歸模型得到無回答的插補(bǔ)值。Rubin最早提出線性回歸多重插補(bǔ)法，Little和Rubin、Stef van Buuren將其擴(kuò)展得到貝葉斯線性回歸多重插補(bǔ)法、自助線性回歸多重插補(bǔ)法［1］74－81［3］24－40［12］57－63。預(yù)測均值匹配多重插補(bǔ) 法(PMM)也屬于回歸插補(bǔ)法［13－14］［15］147－162。第三類是依據(jù)無回答的統(tǒng)計性質(zhì)進(jìn)行插補(bǔ)，例如，DA多重插補(bǔ)法［16－17］、EM 多重插補(bǔ)法及 EMB 多重插補(bǔ)法等［4，18］。其中，第二類多重插補(bǔ)法能保證變量之間的一致相關(guān)性，但對數(shù)據(jù)異常值較為敏感。第三類插補(bǔ)法往往迭代次數(shù)多，計算成本大。相比較，第一類插補(bǔ)法依據(jù)數(shù)據(jù)之間距離定義，應(yīng)用領(lǐng)域更廣。本文主要關(guān)注第一類插補(bǔ)法中的傾向得分匹配插補(bǔ)法。

傾向得分匹配插補(bǔ)法能處理實(shí)際經(jīng)濟(jì)問題中多種無回答情形。Paul和Rubin借助反事實(shí)提出傾向得分匹配(Propensity Score Matching)，利用Logistic模型平衡處理組與控制組的傾向得分，有效地均衡解釋變量的分布［9］。若處理組和控制組不同個體之間的傾向得分相同或近似相等，則認(rèn)為個體匹配。將傾向得分匹配法的思想用于無回答問題，稱為傾向得分匹配插補(bǔ)法。無回答單元視為處理組，回答單元視為控制組。若無回答單元與回答單元之間的傾向得分相同或相近，對應(yīng)的回答單元作為無回答單元的插補(bǔ)值。但傾向得分匹配插補(bǔ)法存在某些局限。一是傾向得分匹配插補(bǔ)法依賴于數(shù)據(jù)是否為無回答建立傾向得分模型。然而，實(shí)際問題中無回答往往是完全隨機(jī)無回答或隨機(jī)無回答。二是Logistic回歸模型對無回答和回答的樣本比例較為敏感。無回答的樣本量較少或與回答樣本量的差異大往往會導(dǎo)致Logistic回歸模型擬合程度低，顯著降低插補(bǔ)值的可信度。

基于上述討論，利用傾向得分匹配插補(bǔ)法的思想，本文提出響應(yīng)傾向得分匹配插補(bǔ)法(Response Propensity Score Matching Imputation)。響應(yīng)傾向得分匹配插補(bǔ)法將回答單元的響應(yīng)變量值的秩變換作為響應(yīng)變量，與其他解釋變量構(gòu)建Logistic模型，作為響應(yīng)傾向得分模型。將無回答單元和回答單元的解釋變量帶入模型分別得到無回答單元和回答單元的響應(yīng)傾向得分。與無回答響應(yīng)傾向得分差值小的回答單元，稱為無回答單元的匹配，用于無回答的插補(bǔ)值。響應(yīng)傾向得分匹配插補(bǔ)法保留了傾向得分匹配插補(bǔ)法的優(yōu)良性，并且克服了無回答和回答的樣本量差異影響，有效改善模型的擬合效果，提高插補(bǔ)值的可信度。

二、響應(yīng)傾向得分匹配插補(bǔ)法

傾向得分匹配的思想最早是由 Paul和Rubin提出，用于解決因果推斷中的處理組與控制組的匹配問題［9］。個體是否接受處理為二分類變量，與解釋變量建立得分模型，依據(jù)傾向得分進(jìn)行處理組和控制組的個體匹配。Little將傾向得分匹配思想應(yīng)用于無回答，引入了傾向得分匹配插補(bǔ)法(Propensity Score Matching Imputation)［10］?，F(xiàn)有文獻(xiàn)將無回答和回答分別視為處理組和控制組，按是否回答設(shè)定示性變量作為響應(yīng)變量，建立得分模型，若無回答單元與回答單元的得分相同或相近，認(rèn)為無回答單元與回答單元匹配，用回答單元的響應(yīng)值作為無回答單元的插補(bǔ)值［11，19］。一方面，這類傾向得分匹配插補(bǔ)法是按個體是否為無回答單元設(shè)定示性變量，但這與實(shí)際問題并不相符，實(shí)際中無回答單元往往是完全隨機(jī)或隨機(jī)無回答。另一方面，傾向得分模型對無回答和回答的樣本量較為敏感。當(dāng)無回答的樣本量較少或與回答樣本量的差異大，都會導(dǎo)致模型無法收斂，影響擬合模型的可信度和插補(bǔ)效果。

本文引入響應(yīng)傾向得分匹配插補(bǔ)法。基本思想是將回答單元響應(yīng)變量觀測值依照從小到大的順序排列，計算個體的秩，對秩變換為0至1區(qū)間內(nèi)的數(shù)值，再與解釋變量建立響應(yīng)傾向得分模型。利用擬合的響應(yīng)傾向得分模型，分別計算無回答組和回答組的單元響應(yīng)傾向得分?？紤]無回答組和回答組的響應(yīng)傾向得分，將與無回答單元響應(yīng)傾向得分差異小的回答單元作為無回答的匹配，對應(yīng)的響應(yīng)變量觀測值作為無回答的插補(bǔ)值。相比于傾向得分匹配插補(bǔ)法，響應(yīng)傾向得分匹配插補(bǔ)法的主要創(chuàng)新有兩點(diǎn)，一是對響應(yīng)變量觀測值進(jìn)行秩變換，二是建立秩變換與解釋變量之間的傾向得分模型。引入秩變換是保證響應(yīng)變量觀測值的大小不發(fā)生錯序，并使得響應(yīng)變量觀測值變換在0至1區(qū)間，改進(jìn)傾向得分模型擬合效果，便于無回答組與回答組的個體匹配。響應(yīng)傾向得分匹配插補(bǔ)法既不受無回答組和回答組的樣本量差異大小影響，又保留了傾向得分匹配法的優(yōu)良性。

假定響應(yīng)變量為Y={Ymis，Yobs}，Ymis表示無回答單元的響應(yīng)變量，Yobs表示回答單元的響應(yīng)變量。無回答的樣本量記為nmis，回答單元樣本量記為nobs，n=nmis+nobs為總樣本量。X={Xmis，Xobs} 表示 Y={Ymis，Yobs}對應(yīng)的解釋變量。假定解釋變量不存在無回答，僅響應(yīng)變量存在無回答?；卮饐卧獢?shù)據(jù)記為{X0，i，y0，i}(i=1，2，…，nobs)，無回答單元數(shù)據(jù)記為{X1，j，y1，j}(j=1，2，…，nmis)。響應(yīng)傾向得分匹配插補(bǔ)法的具體步驟如下:

建立響應(yīng)傾向得分模型。將回答單元響應(yīng)變量值 y0，i(i=1，2，…，nobs) 按從小到大的順序排列，記為 y0，1'，y0，2'，…，y0，n'obs，計算每個觀測值的秩，分別記為 R0，i(i=1，2，…，nobs)。對秩進(jìn)行變換，即:

利用 h(X0，i) 與解釋變量 X0，i= (x0，i1，x0，i2，…，x0，ik)'(i=1，2，…，nobs) 建立響應(yīng)傾向得分模型。本文選擇Logistic回歸模型作為響應(yīng)傾向得分模型，將h(X0，i) 作為被解釋變量，X0，i= (x0，1，x0，2，…，x0，nobs)'作為解釋變量，建立如下模型:

其中，β =(β1，β2，…，βk)'為模型系數(shù)，其估計值為擬合響應(yīng)傾向得分模型為:

插補(bǔ)步。將無回答單元的解釋變量 X1，j代入擬合模型(3)，得到無回答單元的響應(yīng)傾向得分值(X1，j)(j=1，2，…，nmis)。計算無回答單元響應(yīng)傾向得分值與回答單元響應(yīng)傾向得分值的差值:

在回答組中，選擇與無回答單元 j∈ {1，2，…，nmis}的響應(yīng)傾向得分差值小的回答單元i∈{1，2，…，nobs}進(jìn)行匹配。對于無回答單元 j，與回答單元的響應(yīng)傾向得分差值滿足:

取前m個對應(yīng)的回答單元響應(yīng)變量值作為無回答單元響應(yīng)值的m重插補(bǔ)值。

響應(yīng)傾向得分匹配插補(bǔ)法保留了傾向得分匹配法的優(yōu)點(diǎn)。將多個解釋變量的相關(guān)信息轉(zhuǎn)化為一個響應(yīng)傾向得分值，簡化匹配過程。響應(yīng)傾向得分基于最近距離進(jìn)行匹配，降低了高維數(shù)據(jù)處理的復(fù)雜度，更合理利用了回答組與無回答組的共同屬性，提高了計算效率。另外，響應(yīng)傾向得分匹配插補(bǔ)法保證無回答的隨機(jī)性，不需要增加回答組和無回答組樣本量平衡等假定條件。

三、隨機(jī)模擬研究

利用統(tǒng)計模擬方法，探討響應(yīng)傾向得分匹配插補(bǔ)法的統(tǒng)計性質(zhì)。Rubin將無回答機(jī)制分為完全隨機(jī)無回答機(jī)制(MACR)、隨機(jī)無回答機(jī)制(MAR)和非隨機(jī)無回答機(jī)制(MNAR)［3］24－40。在非隨機(jī)無回答機(jī)制下，常常不建議使用插補(bǔ)法。本文主要給出完全隨機(jī)無回答機(jī)制和隨機(jī)無回答機(jī)制下的模擬結(jié)果。無回答機(jī)制下的統(tǒng)計模擬細(xì)節(jié)請參考楊貴軍等的研究［4］。本文選擇的模型設(shè)定為:

其中，β0=1，β1=10，β2=1，β3=1，β4=2，ε為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)誤差項。X1，X2分別服從正態(tài)分布 N(1，4) 和 N(10，4);X3，X4分別服從二項分布 B(1，0．4) 和 B(1，0．5)。從解釋變量 X1，X2，X3，X4的分布中隨機(jī)產(chǎn)生100個隨機(jī)數(shù)，根據(jù)模型(6)計算響應(yīng)變量對應(yīng)的100個觀測值y1，y2，…，y100。這100個隨機(jī)樣本構(gòu)成樣本數(shù)據(jù)集。

本文主要選擇了5%、10%、20% 共3種不同無回答率，4 種不同的插補(bǔ)重數(shù)，分別為 5、10、20、40，無回答機(jī)制分別為完全隨機(jī)無回答機(jī)制和隨機(jī)無回答機(jī)制。分別在無回答率、無回答機(jī)制與插補(bǔ)重數(shù)等多種組合情況下，采用響應(yīng)傾向得分匹配插補(bǔ)法對無回答進(jìn)行插補(bǔ)。在每種組合情況下，分別得到m組插補(bǔ)值，m組插補(bǔ)值與回答組數(shù)據(jù)合并為m組插補(bǔ)后的完整數(shù)據(jù)集。分別利用每組完整數(shù)據(jù)集，估計模型(6)的回歸系數(shù)，得到m組回歸系數(shù)估計值，記為。對m組回歸系數(shù)分別取均值，即:3，4)作為模型(6)的系數(shù)估計值。

重復(fù)上述過程200次，得到200組系數(shù)估計值，計算回歸系數(shù)估計的偏差和均方誤差作為插補(bǔ)法優(yōu)良性的評價指標(biāo)。偏差是回歸系數(shù)估計值與真值之差的平均數(shù)，均方誤差為回歸系數(shù)估計值與真值之差值平方的平均數(shù)。為了對比分析，這里也給出了采用基于歐式距離的最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法的模擬結(jié)果。結(jié)果顯示在完全隨機(jī)無回答機(jī)制下和隨機(jī)無回答機(jī)制下，無回答率為10%的模擬結(jié)果介于無回答率為5%和20%的模擬結(jié)果之間。后文中僅給出無回答率為5%和20%的具體結(jié)論。

(一)完全隨機(jī)無回答機(jī)制下回歸系數(shù)估計量的偏差和均方誤差

在完全隨機(jī)無回答機(jī)制下，分別使用響應(yīng)傾向得分匹配插補(bǔ)法、最近鄰插補(bǔ)法、傾向得分插補(bǔ)法以及回歸插補(bǔ)法分別對Y的無回答進(jìn)行插補(bǔ)，并估計模型的回歸系數(shù)。本節(jié)的最近鄰插補(bǔ)法選用的是歐式距離。在插補(bǔ)重數(shù)、插補(bǔ)法和無回答率的組合下的回歸系數(shù)估計偏差和均方誤差見表1和表2。表1、表2依次對應(yīng)無回答率5%、20% 的模擬結(jié)果。在表1和表2中，A、B、C、D依次表示響應(yīng)傾向得分匹配插補(bǔ)法、最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法以及回歸插補(bǔ)法。每行對應(yīng)的插補(bǔ)重數(shù)相同。第3～7列依次給出了回歸系數(shù)估計的偏差，第8～12列依次給出了回歸系數(shù)估計值的均方誤差。如表1中第1行數(shù)值0．074、－0．023、－0．005、－ 0．052、0．030依次為響應(yīng)傾向得分匹配插補(bǔ)法且插補(bǔ)重數(shù)為5的的偏差，0．251、0．008、0．002、0．113、0．092依次為響應(yīng)傾向得分匹配插補(bǔ)法且插補(bǔ)重數(shù)為5的的均方誤差。

表1顯示，插補(bǔ)重數(shù)對回歸系數(shù)估計的偏差和均方誤差都有影響。隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法的回歸系數(shù)估計偏差絕對值和均方誤差都有增加趨勢，其中常數(shù)項估計的偏差絕對值和均方誤差增加幅度大，其他系數(shù)的偏差絕對值和均方誤差增加幅度小。最近鄰插補(bǔ)法的回歸系數(shù)估計量的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加也呈現(xiàn)遞增趨勢，增加幅度明顯大于基于響應(yīng)傾向得分匹配插補(bǔ)法的結(jié)果。傾向得分匹配插補(bǔ)法的回歸系數(shù)估計量的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加并沒有呈現(xiàn)明顯的遞增趨勢的偏差絕對值和的均方誤差隨著插補(bǔ)重數(shù)增加甚至呈現(xiàn)遞減趨勢?；貧w插補(bǔ)法得到的回歸系數(shù)估計的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)略微遞減趨勢。

表1 完全隨機(jī)無回答機(jī)制下無回答率為5%的模擬結(jié)果

表2 完全隨機(jī)無回答機(jī)制下無回答率為20%的模擬結(jié)果

表1顯示，不同插補(bǔ)法對系數(shù)估計量的偏差和均方誤差的影響不同。相比較而言，響應(yīng)傾向得分匹配插補(bǔ)法最優(yōu)，相應(yīng)的系數(shù)估計量的偏差絕對值和均方誤差都較小。最近鄰插補(bǔ)法的回歸系數(shù)估計的偏差絕對值和均方誤差也較小，但略大于響應(yīng)傾向得分匹配插補(bǔ)法的結(jié)果。傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法的偏差絕對值和均方誤差明顯大于前兩種方法。

表2給出了完全隨機(jī)無回答機(jī)制下無回答率為20%的模擬結(jié)果。表2顯示，插補(bǔ)重數(shù)對回歸系數(shù)估計的偏差和均方誤差都有影響。隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法和最近鄰插補(bǔ)法偏差絕對值和均方誤差呈現(xiàn)遞增趨勢，其中增加幅度小的是響應(yīng)傾向得分匹配插補(bǔ)法。傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)遞減趨勢，回歸系數(shù)估計的均方誤差要大于前兩種插補(bǔ)法。表2顯示，響應(yīng)傾向得分匹配插補(bǔ)法系數(shù)估計的偏差絕對值和均方誤差都相對較小，小于其他插補(bǔ)法。對比表1和表2可知，隨著無回答率增加，采用四種插補(bǔ)法得到回歸系數(shù)估計的偏差絕對值以及均方誤差也往往增加。

在完全隨機(jī)無回答機(jī)制下，響應(yīng)傾向得分匹配插補(bǔ)法的回歸系數(shù)估計的偏差絕對值和均方誤差，隨著插補(bǔ)重數(shù)增加呈現(xiàn)遞增趨勢，也隨著無回答率增加而呈現(xiàn)遞增趨勢。

(二)隨機(jī)無回答機(jī)制下回歸系數(shù)估計量的偏差和均方誤差

隨機(jī)無回答機(jī)制的設(shè)定與解釋變量有關(guān)，考慮分別依賴于連續(xù)變量X1，X2與離散變量X3，X4的隨機(jī)無回答機(jī)制。變量X1，X2模擬結(jié)果規(guī)律相似，變量X3，X4的模擬結(jié)果規(guī)律相似，本節(jié)只給出依賴連續(xù)變量X1與離散變量X3的模擬結(jié)果。

1．依賴連續(xù)變量X1的隨機(jī)無回答機(jī)制。表3和表4分別表示無回答率為5%、20% 時依賴連續(xù)變量X1的隨機(jī)無回答機(jī)制下的模擬結(jié)果，結(jié)構(gòu)同表1。

表3 依賴連續(xù)變量X1隨機(jī)無回答機(jī)制下無回答率為5%的模擬結(jié)果

表4 依賴連續(xù)變量X1隨機(jī)無回答機(jī)制下無回答率為20%的模擬結(jié)果

表3顯示，在依賴連續(xù)變量X1的隨機(jī)無回答機(jī)制下，插補(bǔ)重數(shù)對回歸系數(shù)估計量的偏差和均方誤差都有影響。隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法回歸系數(shù)估計偏差絕對值和均方誤差都有增加趨勢，常數(shù)項估計的偏差絕對值和均方誤差增加幅度大，其他系數(shù)的偏差絕對值和均方誤差增加幅度小。最近鄰插補(bǔ)法的回歸系數(shù)估計量的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加也呈現(xiàn)遞增趨勢，增加幅度明顯大于基于響應(yīng)傾向得分匹配插補(bǔ)法的結(jié)果。傾向得分匹配插補(bǔ)法的回歸系數(shù)估計量均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)遞增趨勢，^β2、^β4的偏差絕對值隨著插補(bǔ)重數(shù)增加甚至呈現(xiàn)遞減趨勢?；貧w插補(bǔ)法的回歸系數(shù)估計的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)略微遞減趨勢。

表3顯示，在依賴連續(xù)變量X1的隨機(jī)無回答機(jī)制下，不同插補(bǔ)法對系數(shù)估計量的偏差和均方誤差的影響不同。相比較而言，響應(yīng)傾向得分匹配插補(bǔ)法最優(yōu)，相應(yīng)的系數(shù)估計量的偏差絕對值和均方誤差都較小。最近鄰插補(bǔ)法的回歸系數(shù)估計的偏差絕對值和均方誤差也較小，但略大于響應(yīng)傾向得分匹配插補(bǔ)法的結(jié)果。傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法的偏差絕對值和均方誤差明顯大于前兩種方法。在幾種插補(bǔ)法下，相對于其他回歸系數(shù)，^β2的偏差絕對值和均方誤差都最小，偏差絕對值小于0．05，均方誤差都小于0．3。

表4為依賴連續(xù)變量X1隨機(jī)無回答機(jī)制下無回答率為20%的模擬結(jié)果。表4顯示，隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法、最近鄰插補(bǔ)法、傾向得分插補(bǔ)法的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)遞增趨勢，其中增加幅度小的是響應(yīng)傾向得分匹配插補(bǔ)法?；貧w插補(bǔ)法的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)略微遞減趨勢，回歸系數(shù)估計的均方誤差要大于前三種插補(bǔ)法。表4顯示，響應(yīng)傾向得分匹配插補(bǔ)法系數(shù)估計的偏差絕對值和均方誤差都相對較小，小于其他插補(bǔ)法。對比表3、表4可知，隨著無回答率增加，采用四種插補(bǔ)法得到的回歸系數(shù)估計的偏差絕對值和均方誤差遞增趨勢顯著。

對比完全隨機(jī)無回答機(jī)制下的模擬結(jié)果，依賴連續(xù)變量X1隨機(jī)無回答機(jī)制下，采用四種插補(bǔ)法得到的回歸系數(shù)估計的偏差絕對值和均方誤差的普遍大于完全隨機(jī)無回答機(jī)制下的偏差絕對值和均方誤差。

2．依賴離散變量X3的隨機(jī)無回答機(jī)制。變量X3為一個二分類變量，參考Jonathan Kropko等人的研究成果中對分類變量的隨機(jī)缺失機(jī)制模擬的方法［20］。首先利用Logistic函數(shù)將二分類變量轉(zhuǎn)換為概率 π，對于每個 x3，i都有一個對應(yīng)的概率 πi，再減去U(0，1)中的一個隨機(jī)數(shù)di，得到了100個觀察變量= πi－ di(i=1，2，…，100)。依據(jù)無回答率確定變量的分位數(shù)，將小于該分位數(shù)的觀測 yi，x1i，x2i，x3i，x4i中yi設(shè)定為無回答。利用插補(bǔ)法對Y的無回答進(jìn)行多重插補(bǔ)，再估計模型的回歸系數(shù)。表5、表6分別表示無回答率為5%、20%時依賴離散變量X3的隨機(jī)無回答機(jī)制下的模擬結(jié)果，結(jié)構(gòu)同表1。

表5 依賴離散變量X3隨機(jī)無回答機(jī)制下無回答率為5%的模擬結(jié)果

根據(jù)表5可知，在依賴離散變量X3的隨機(jī)無回答機(jī)制下，插補(bǔ)重數(shù)對回歸系數(shù)估計量的偏差和均方誤差有影響。隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法、最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法的回歸系數(shù)估計偏差絕對值和均方誤差都有增加趨勢。最近鄰插補(bǔ)法的回歸系數(shù)估計量的偏差絕對值和均方誤差的遞增幅度明顯大于基于響應(yīng)傾向得分匹配插補(bǔ)法和傾向得分匹配插補(bǔ)法的結(jié)果?；貧w插補(bǔ)法得到回歸系數(shù)估計的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)略微遞減趨勢。

表5顯示，在依賴離散變量X3的隨機(jī)無回答機(jī)制下，不同插補(bǔ)法對回歸系數(shù)估計量的偏差和均方誤差影響不同。響應(yīng)傾向得分匹配插補(bǔ)法效果最優(yōu)，其對應(yīng)回歸系數(shù)估計量偏差絕對值和均方誤差明顯小于最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法的結(jié)果。傾向得分匹配插補(bǔ)法的偏差絕對值和均方誤差小于最近鄰插補(bǔ)法和回歸插補(bǔ)法的結(jié)果。

表6為在依賴離散變量X3的隨機(jī)無回答機(jī)制下無回答率為20%的模擬結(jié)果。表6顯示，隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法、最近鄰插補(bǔ)法、傾向得分插補(bǔ)法的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)遞增趨勢，其中增加幅度小的是響應(yīng)傾向得分匹配插補(bǔ)法?；貧w插補(bǔ)法的偏差絕對值和均方誤差隨著插補(bǔ)重數(shù)增加呈現(xiàn)略微遞減趨勢，回歸系數(shù)估計的均方誤差要大于前三種插補(bǔ)法。表6顯示，響應(yīng)傾向得分匹配插補(bǔ)法的系數(shù)估計的偏差絕對值和均方誤差都相對較小，小于其他插補(bǔ)法。對比表5、表6可知，隨著無回答率增加，采用四種插補(bǔ)法得到的回歸系數(shù)估計的偏差絕對值和均方誤差遞增趨勢顯著。

表6 依賴離散變量X3隨機(jī)無回答機(jī)制下無回答率為20%的模擬結(jié)果

對比完全隨機(jī)無回答機(jī)制下和依賴連續(xù)變量X1的模擬結(jié)果，依賴離散變量X3隨機(jī)無回答機(jī)制下，采用四種插補(bǔ)法得到的回歸系數(shù)估計的偏差絕對值和均方誤差普遍大于完全隨機(jī)無回答機(jī)制下的偏差絕對值和均方誤差，但小于依賴連續(xù)變量X1隨機(jī)無回答機(jī)制下偏差絕對值和均方誤差。

綜上所述，在完全隨機(jī)無回答機(jī)制下和隨機(jī)無回答機(jī)制下，響應(yīng)傾向得分匹配插補(bǔ)法的插補(bǔ)效果明顯優(yōu)于最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法。隨著插補(bǔ)重數(shù)增加，響應(yīng)傾向得分匹配插補(bǔ)法的偏差絕對值和均方誤差呈遞增趨勢。在實(shí)際使用響應(yīng)傾向得分匹配插補(bǔ)法時，插補(bǔ)重數(shù)選擇不宜過大，建議插補(bǔ)重數(shù)選擇為5。

四、實(shí)證分析

本研究使用響應(yīng)傾向得分匹配插補(bǔ)法分析Sparrows數(shù)據(jù)集［21］29－31①數(shù)據(jù)下載網(wǎng)址:http://highstat．com/index．php/a-beginner-s-guide-to-r。Sparrows數(shù)據(jù)集有 979 個樣本觀測值。本文選擇6個變量分別是:Wingcrd(羽翼長度)、Sex(性別)、Tarsus(脛骨長度)、Head(頭的尺寸)、Culmen(上嘴長度)、Wt(重量)。其中，性別中雌性表示為1，雄性表示為0。以Wingcrd為響應(yīng)變量，其余變量為解釋變量。為了描述羽翼長度，建立如下的線性模型:

利用Sparrows數(shù)據(jù)集的數(shù)據(jù)擬合模型(7)，估計結(jié)果如表7第2、3行所示。表7的列分別對應(yīng)模型系數(shù)，第2、3行分別表示系數(shù)估計值及其方差估計。在顯著性水平0．005下，所有的系數(shù)估計都是顯著的。模型整體擬合效果較好，R2=0．634。其中，系數(shù)α1的估計值2．206為正，說明雌性麻雀要比雄性麻雀的羽翼更長。α2和 α3的估計值為正，不超過0．3，說明麻雀的脛骨越長，頭部越大，其羽翼更長。α4和 α5估計值為正，接近 0．4，說明麻雀的上嘴越長，重量越大，其羽翼更長。模型(7)的參數(shù)估計合理。

表7 Sparrows數(shù)據(jù)集的估計結(jié)果

針對Sparrows數(shù)據(jù)集，構(gòu)造無回答，無回答率為5%(49/979≈0．05)。在完全隨機(jī)無回答機(jī)制和隨機(jī)無回答機(jī)制下，構(gòu)造49個觀測的響應(yīng)變量Wingcrd為無回答。使用響應(yīng)傾向得分匹配插補(bǔ)法，選擇插補(bǔ)重數(shù) m=5，依次得到參數(shù) αk(k=0，1，…，5)的5個估計值，取5個估計值的平均數(shù)作為參數(shù)αk的估計值。插補(bǔ)后估計量的方差計算采用Rubin(1987)的公式:

在完全隨機(jī)無回答機(jī)制下，采用響應(yīng)傾向得分匹配插補(bǔ)法的估計結(jié)果如表7第4和5行所示。其中，第4行是回歸系數(shù) αk(k=0，1，2，…，5) 的200個估計值的平均數(shù)，第5行是200個方差估計的平均數(shù)。首先，從參數(shù)估計值角度。表7顯示，采用響應(yīng)傾向得分匹配插補(bǔ)法的估計值平均數(shù)，與利用全部數(shù)據(jù)的參數(shù)估計值的差異小。相比較，最大的是常數(shù)項α0的估計值差值，為 0．082。對于參數(shù) α3，兩者差異為 0．005，對于參數(shù) α1、α2、α4和 α5，兩者差值小于等于 0．002。其次，從參數(shù)方差估計角度。在表7中，采用響應(yīng)傾向得分匹配插補(bǔ)法的方差估計平均數(shù)略大于利用全部數(shù)據(jù)的參數(shù)方差估計，兩者差異小。其中常數(shù)項α0的兩者差異最大，為0．820。對于其他參數(shù)，兩者差值不超過0．002。在完全隨機(jī)無回答機(jī)制下，采用響應(yīng)傾向得分匹配插補(bǔ)法，能夠得到較好的模型系數(shù)。

在隨機(jī)無回答機(jī)制下，分別考慮了無回答依賴于變量 Sex、Tarsus、Head、Culmen、Wt的情況。采用響應(yīng)傾向得分匹配插補(bǔ)法的估計結(jié)果如表7第6至15行所示。在依賴于每個變量的估計結(jié)果中，第1行是回歸系數(shù) αk(k=0，1，2，…，5) 的200個估計值的平均數(shù)，第2行是200個方差估計的平均數(shù)。類似，先觀察參數(shù)估計值。表7顯示，采用響應(yīng)傾向得分匹配插補(bǔ)法的估計值平均數(shù)，與利用全部數(shù)據(jù)的參數(shù)估計值的差異小。相比較，常數(shù)項α0的估計值差值最大。其中，依賴變量 Head的估計值差值為1．719，依賴其他變量的常數(shù)項的估計值差值均小于0．2。對于參數(shù) α3和 α4，不超過 0．095。對于參數(shù) α1、α2和α5，兩者差異更小，不超過 0．05。再觀察參數(shù)方差估計。在表7中，采用響應(yīng)傾向得分匹配插補(bǔ)法的方差估計平均數(shù)略大于利用全部數(shù)據(jù)的參數(shù)方差估計，兩者差值小。其中，對于常數(shù)項α0，兩者差異最大，不超過0．7。對于其他參數(shù)，兩者差值不超過0．002。在隨機(jī)無回答機(jī)制下，采用響應(yīng)傾向得分匹配插補(bǔ)法，能夠較好估計模型系數(shù)。

五、結(jié) 論

在數(shù)據(jù)收集過程中，不可避免存在無回答。多重插補(bǔ)法是用于處理無回答的主要方法之一。本文引入了響應(yīng)傾向得分匹配插補(bǔ)法。將回答單元響應(yīng)變量觀測值的秩進(jìn)行變換，建立響應(yīng)傾向得分模型。依據(jù)響應(yīng)傾向得分模型分別得到回答單元和無回答單元的響應(yīng)傾向得分，匹配無回答單元和回答單元的響應(yīng)傾向得分確定無回答的插補(bǔ)值。響應(yīng)傾向得分匹配插補(bǔ)法對無回答和回答單元的樣本量差異大小無要求。相比于傾向得分匹配插補(bǔ)法，有效改善了模型擬合效果，提高插補(bǔ)的可靠性。

模擬結(jié)果顯示，在完全隨機(jī)無回答機(jī)制和隨機(jī)無回答機(jī)制下，響應(yīng)傾向得分匹配插補(bǔ)法優(yōu)于最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法。在相同的無回答機(jī)制下，隨著插補(bǔ)重數(shù)增加或隨著無回答率增加，采用響應(yīng)傾向得分匹配插補(bǔ)法的回歸模型系數(shù)估計的偏差絕對值和均方誤差呈遞增趨勢。利用Sparrows完整數(shù)據(jù)集的分析結(jié)果顯示，在完全隨機(jī)無回答機(jī)制和隨機(jī)無回答機(jī)制下，使用響應(yīng)傾向得分匹配插補(bǔ)法的回歸系數(shù)估計值與使用完整數(shù)據(jù)集得到的估計值和方差估計的差異都較小。在實(shí)際應(yīng)用響應(yīng)傾向得分匹配插補(bǔ)法時，插補(bǔ)重數(shù)選擇不宜過大，建議插補(bǔ)重數(shù)選擇為5。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

響應(yīng)傾向得分匹配插補(bǔ)法

一、引 言

二、響應(yīng)傾向得分匹配插補(bǔ)法

三、隨機(jī)模擬研究