基于少數(shù)類(lèi)過(guò)采樣的傾向得分匹配插補(bǔ)法

2021-01-26 09:40楊貴軍孫玲莉

統(tǒng)計(jì)與信息論壇 2021年1期

楊貴軍,杜飛,孫玲莉

(天津財(cái)經(jīng)大學(xué) a.統(tǒng)計(jì)學(xué)院;b.中國(guó)經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津 300222)

一、引言

在社會(huì)經(jīng)濟(jì)問(wèn)題研究中,學(xué)術(shù)研究越來(lái)越依賴(lài)于微觀數(shù)據(jù)庫(kù),分析社會(huì)經(jīng)濟(jì)的運(yùn)行機(jī)制以及數(shù)量關(guān)系。通過(guò)調(diào)查獲得的微觀數(shù)據(jù)常常存在一定程度的無(wú)回答,而且無(wú)回答是很難避免的。在大數(shù)據(jù)應(yīng)用中,無(wú)回答發(fā)生更頻繁。無(wú)回答會(huì)嚴(yán)重影響調(diào)查數(shù)據(jù)的質(zhì)量以及分析結(jié)果的可靠性。多數(shù)統(tǒng)計(jì)方法和統(tǒng)計(jì)分析軟件都是基于完整數(shù)據(jù)集設(shè)計(jì)的,如何有效地處理無(wú)回答成為獲取可靠分析結(jié)果的關(guān)鍵。20世紀(jì)70年代統(tǒng)計(jì)學(xué)者極其關(guān)注無(wú)回答問(wèn)題,并提出了在經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)相關(guān)領(lǐng)域中處理無(wú)回答問(wèn)題的方法[1-2]。

處理無(wú)回答的方法主要?jiǎng)澐譃槭虑邦A(yù)防和事后補(bǔ)救兩方面。鑒于數(shù)據(jù)收集過(guò)程中的條件限制,事前預(yù)防措施并不能從根本上解決無(wú)回答問(wèn)題,因此多數(shù)方法從事后補(bǔ)救方面開(kāi)展研究。無(wú)回答的事后補(bǔ)救措施大體可分為兩類(lèi):一是基于設(shè)計(jì)角度對(duì)目標(biāo)值進(jìn)行估計(jì)的方法。Robins等基于對(duì)無(wú)回答概率的估計(jì),提出估算目標(biāo)值的加權(quán)法[3]。金勇進(jìn)等則通過(guò)對(duì)無(wú)回答子總體進(jìn)行追加調(diào)查的方式來(lái)減小無(wú)回答偏差[4-5]。Little等討論了無(wú)回答的極大似然估計(jì)量[2,6-7]。二是對(duì)無(wú)回答進(jìn)行插補(bǔ)的方法。Chapman等討論了無(wú)回答的單重插補(bǔ)法[8-12]。Rubin將無(wú)回答的不確定性考慮在內(nèi),提出了多重插補(bǔ)方法,并作了進(jìn)一步的討論[1]?，F(xiàn)在,多重插補(bǔ)法已成為處理無(wú)回答的最常用方法。

多重插補(bǔ)法將無(wú)回答的不確定性考慮在內(nèi),彌補(bǔ)單重插補(bǔ)法的缺陷,提高了插補(bǔ)結(jié)果的可靠性。常用的多重插補(bǔ)法可分為三類(lèi):第一類(lèi)是基于協(xié)變量相近性匹配的插補(bǔ)法,例如:最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法;第二類(lèi)是利用變量之間相關(guān)關(guān)系的插補(bǔ)法,例如:回歸多重插補(bǔ)法[1-2,13]、預(yù)測(cè)均值匹配多重插補(bǔ)法[14-17];第三類(lèi)是依據(jù)無(wú)回答統(tǒng)計(jì)性質(zhì)的插補(bǔ)法,例如:DA多重插補(bǔ)法[16,18]、EMB多重插補(bǔ)法等[19-20]。其中,第一類(lèi)插補(bǔ)方法在實(shí)際中應(yīng)用范圍最廣泛。相較于其他直接基于協(xié)變量匹配的插補(bǔ)方法,傾向得分匹配插補(bǔ)法是利用傾向得分模型對(duì)無(wú)回答單元與回答單元進(jìn)行傾向得分匹配,以此來(lái)提高插補(bǔ)效率。

傾向得分匹配(Propensity Score Matching,PSM)是由Paul和Rubin提出的基于反事實(shí)推斷模型的協(xié)變量匹配方法[21]。其基本思想是利用Logit或Probit模型估計(jì)處理組與潛在對(duì)照組中單元的傾向得分,依據(jù)單元的傾向得分,搜索與處理組單元相匹配的控制組單元以構(gòu)建對(duì)照組。PSM模型降低了匹配過(guò)程中由于混雜變量產(chǎn)生的影響,消除了系統(tǒng)性偏差,現(xiàn)已被廣泛應(yīng)用于經(jīng)濟(jì)學(xué)政策評(píng)價(jià)和因果推斷等研究中。Little首次將PSM模型應(yīng)用于處理無(wú)回答問(wèn)題中,提出了傾向得分匹配插補(bǔ)法(簡(jiǎn)記為PSM插補(bǔ)法),將無(wú)回答單元?jiǎng)潪樘幚斫M,回答單元?jiǎng)潪閷?duì)照組,根據(jù)傾向得分的相同或相近,將匹配的回答單元目標(biāo)變量值作為無(wú)回答單元的插補(bǔ)值[22]。PSM插補(bǔ)法保留了PSM模型匹配效率高、不易受混雜變量影響的優(yōu)點(diǎn),提高了插補(bǔ)的準(zhǔn)確性。然而,在實(shí)際應(yīng)用中,無(wú)回答率往往較低,明顯低于回答率,無(wú)回答單元數(shù)量與回答單元數(shù)量相差較大,造成Logit模型會(huì)傾向于誤判為多數(shù)單元的類(lèi)別,降低PSM插補(bǔ)法的可靠性。

針對(duì)類(lèi)別數(shù)據(jù)的非平衡問(wèn)題,目前最常用的方法是隨機(jī)欠抽樣和隨機(jī)過(guò)抽樣。隨機(jī)欠抽樣方法通過(guò)隨機(jī)剔除部分多數(shù)類(lèi)單元來(lái)改善數(shù)據(jù)集的非平衡程度,但會(huì)造成一定程度的信息損失。隨機(jī)過(guò)抽樣方法則通過(guò)隨機(jī)復(fù)制少數(shù)類(lèi)單元,使各類(lèi)單元數(shù)達(dá)到平衡,但該方法會(huì)導(dǎo)致模型出現(xiàn)過(guò)擬合現(xiàn)象。Chawla等針對(duì)上述兩種方法的缺陷提出少數(shù)類(lèi)過(guò)采樣(Synthetic Minority Over-sampling Technique,SMOTE)算法,保留所有多數(shù)類(lèi)單元,并在相距較近的少數(shù)類(lèi)單元之間線(xiàn)性合成新的少數(shù)類(lèi)單元,以改善數(shù)據(jù)集的非平衡程度[23]。因而,SMOTE算法既保留了所有數(shù)據(jù)的信息,又在一定程度上避免了過(guò)擬合現(xiàn)象的出現(xiàn)。

綜上,針對(duì)PSM插補(bǔ)法在處理無(wú)回答單元數(shù)量與回答單元數(shù)量相差較大情況下插補(bǔ)效果不佳的問(wèn)題,本文創(chuàng)新性地將SMOTE算法的思想應(yīng)用于解決插補(bǔ)問(wèn)題,提出了一個(gè)新的PSM插補(bǔ)方法,并通過(guò)統(tǒng)計(jì)模擬和實(shí)證分析,在僅考慮單一目標(biāo)變量存在無(wú)回答的情況下,比較SMOTE-PSM插補(bǔ)法與常用插補(bǔ)方法的插補(bǔ)效果,并分析不同無(wú)回答率、插補(bǔ)重?cái)?shù)和誤差分布對(duì)插補(bǔ)效果的影響,為解決在實(shí)際應(yīng)用中的無(wú)回答問(wèn)題提供更好選擇。

二、基于SMOTE算法的PSM插補(bǔ)法

下面首先總結(jié)SMOTE算法和PSM插補(bǔ)法及其性質(zhì),再給出基于SMOTE算法的PSM插補(bǔ)法。

圖1 SMOTE算法基本原理

(一)SMOTE算法

SMOTE算法是由Chawla針對(duì)非平衡分類(lèi)數(shù)據(jù)提出的,其基本原理詳見(jiàn)圖1。在非平衡分類(lèi)數(shù)據(jù)中,多數(shù)單元類(lèi)稱(chēng)為正類(lèi),少數(shù)單元類(lèi)稱(chēng)為負(fù)類(lèi)。由于正負(fù)兩類(lèi)單元數(shù)量相差較大,往往造成傳統(tǒng)分類(lèi)模型的分類(lèi)精度下降,特別是對(duì)于負(fù)類(lèi)單元,分類(lèi)模型無(wú)法通過(guò)訓(xùn)練集數(shù)據(jù)充分?jǐn)M合其內(nèi)在規(guī)律,導(dǎo)致分類(lèi)精度相對(duì)低。SMOTE算法是目前較為經(jīng)典的處理非平衡分類(lèi)數(shù)據(jù)的一種過(guò)抽樣方法,不同于僅對(duì)負(fù)類(lèi)單元進(jìn)行簡(jiǎn)單復(fù)制的隨機(jī)過(guò)抽樣方法,而是在相距較近的負(fù)類(lèi)單元之間線(xiàn)性插值產(chǎn)生新的合成單元,平衡分類(lèi)數(shù)據(jù)集,提高分類(lèi)模型準(zhǔn)確度。

SMOTE算法的基本假設(shè)為:距離較近負(fù)類(lèi)單元之間的單元仍為負(fù)類(lèi),通過(guò)負(fù)類(lèi)的合成單元來(lái)改善數(shù)據(jù)集的平衡程度。其具體過(guò)程如下:

第一步,確定單元合成率r。假定正類(lèi)單元個(gè)數(shù)為n+,負(fù)類(lèi)單元個(gè)數(shù)為n_,為使數(shù)據(jù)集類(lèi)別平衡,需要產(chǎn)生負(fù)類(lèi)的合成單元數(shù)ns=n+-n_,則單元合成率為:

(1)

第二步,計(jì)算負(fù)類(lèi)單元之間的距離,選取近鄰單元。不失一般性,設(shè)dij表示負(fù)類(lèi)單元xi與xj之間的歐式距離,對(duì)于每一個(gè)負(fù)類(lèi)單元xi(i=1,2,…,n_),與其他負(fù)類(lèi)單元的距離向量記為Di=(di1,…,dij,…,di(n_-1)),從中選取dij中最小的b個(gè)單元作為近鄰單元。

第三步,產(chǎn)生負(fù)類(lèi)的合成單元。在負(fù)類(lèi)單元xi選取的b個(gè)近鄰單元中,隨機(jī)抽取r個(gè)單元記為xl(l=1,2,…,r),利用xi與xl按照式(2)產(chǎn)生新的合成單元pil:

pil=xi+rand(0,1)×(xl-xi)

(2)

其中,rand(0,1)表示(0,1)之間的隨機(jī)數(shù)。最后將每一個(gè)負(fù)類(lèi)單元xi的r個(gè)合成單元合并到原數(shù)據(jù)集中,形成新數(shù)據(jù)集。

綜上,SMOTE算法在負(fù)類(lèi)的鄰近單元之間通過(guò)隨機(jī)線(xiàn)性插值產(chǎn)生負(fù)類(lèi)的合成單元,構(gòu)造的新數(shù)據(jù)集不僅好于原數(shù)據(jù)集的分類(lèi)平衡程度,還具有更豐富的負(fù)類(lèi)單元信息,以改善傳統(tǒng)分類(lèi)模型的擬合效果,提高分類(lèi)精度。同時(shí),SMOTE算法還避免分類(lèi)模型出現(xiàn)過(guò)擬合現(xiàn)象。

(二)PSM插補(bǔ)法

Little將PSM模型應(yīng)用于無(wú)回答的插補(bǔ)過(guò)程中,提出PSM插補(bǔ)法。PSM插補(bǔ)法的步驟主要分為匹配步和插補(bǔ)步,具體過(guò)程如下:

匹配步:將數(shù)據(jù)集中無(wú)回答單元視為處理組,回答單元視為對(duì)照組,回答與否的標(biāo)記作為響應(yīng)變量,利用Logit或Probit模型對(duì)每個(gè)單元的傾向得分進(jìn)行估計(jì),將傾向得分相同或相近的無(wú)回答單元與回答單元視為匹配單元。假定數(shù)據(jù)集樣本量為n,觀測(cè)變量為{Y,X},其中Y為被解釋變量,X為解釋變量。本文僅考慮被解釋變量Y存在無(wú)回答的情況,記Y中的無(wú)回答單元和回答單元為{Ymis,Yobs},樣本量為{nmis,nobs},與其對(duì)應(yīng)的解釋變量為{Xmis,Xobs},無(wú)回答單元集為{Ymis,Xmis},回答單元集為{Yobs,Xobs}。定義標(biāo)識(shí)變量為T(mén),其中無(wú)回答單元標(biāo)記為1,回答單元標(biāo)記為0,即對(duì)于i=1,2,…,n,

利用標(biāo)識(shí)變量T與解釋變量X構(gòu)建傾向得分模型,并計(jì)算每個(gè)單元的傾向得分?jǐn)M合值。這里,選擇最常用的Logit模型作為傾向得分模型,有:

(3)

(4)

插補(bǔ)步:計(jì)算無(wú)回答單元與回答單元的傾向得分差值,將差值最小的m個(gè)回答單元的被解釋變量值作為無(wú)回答單元的m重插補(bǔ)值。假設(shè)無(wú)回答單元與回答單元的傾向得分差值為si,j,即對(duì)于i=1,2,…,nmis,j=1,2,…,nobs,

(5)

針對(duì)每個(gè)無(wú)回答單元,將傾向得分差值進(jìn)行排序,

si,1≤si,2≤…≤si,m-1≤si,m≤si,m+1≤…≤si,nobs

(6)

選取差值最小的m個(gè)回答單元的被解釋變量觀測(cè)值作為無(wú)回答單元的m重插補(bǔ)值。

PSM插補(bǔ)法利用傾向得分對(duì)無(wú)回答單元與回答單元進(jìn)行匹配,避免了混雜因素的影響,提高了插補(bǔ)的效率和可靠性。

(三)SMOTE-PSM插補(bǔ)法

在實(shí)際應(yīng)用中,人們都盡可能降低無(wú)回答率,導(dǎo)致調(diào)查數(shù)據(jù)的無(wú)回答單元數(shù)量與回答單元數(shù)量差異往往較大,PSM模型的分類(lèi)精度下降。這里,繼承SMOTE算法處理非平衡數(shù)據(jù)的優(yōu)勢(shì),提出基于SMOTE算法的PSM插補(bǔ)法。目前,處理無(wú)回答的方法是基于無(wú)回答缺失機(jī)制的假定。在大多數(shù)的實(shí)際應(yīng)用中,隨機(jī)缺失機(jī)制(簡(jiǎn)記為MAR)最為常見(jiàn),故選擇隨機(jī)缺失機(jī)制的假定。由MAR機(jī)制的定義可知:

p(T=1|Y,X)=p(T=1|X)

(7)

即變量的無(wú)回答概率僅依賴(lài)于完全觀測(cè)變量X,與無(wú)回答變量Y無(wú)關(guān)。例如:居民收入調(diào)查中,受訪者收入數(shù)據(jù)的無(wú)回答概率與其年齡有關(guān),年齡是完全觀測(cè)變量,則收入數(shù)據(jù)無(wú)回答往往為MAR機(jī)制。本文提出的SMOTE-PSM插補(bǔ)法先采用SMOTE算法利用無(wú)回答單元合成新的單元,改善數(shù)據(jù)集的非平衡程度,再通過(guò)PSM插補(bǔ)法對(duì)無(wú)回答單元與回答單元進(jìn)行匹配和插補(bǔ)。新方法的具體步驟如下:

第一步,產(chǎn)生合成單元集。根據(jù)回答單元數(shù)量與無(wú)回答單元數(shù)量確定合成率r,對(duì)于每個(gè)無(wú)回答單元{ymis,i,Xmis,i},選取距離最近的b個(gè)無(wú)回答單元,從中隨機(jī)抽取r個(gè)單元{ymis,l,Xmis,l},l=1,2,…,r,按照式(2)產(chǎn)生新的合成單元集{ymis,il,Xmis,il}:

{ymis,il,Xmis,il}={ymis,i,Xmis,i}+rand(0,1)×({ymis,l,Xmis,l}-{ymis,i,Xmis,i})

(8)

將合成單元集與原數(shù)據(jù)集組成新數(shù)據(jù)集{YS,XS}。

第二步,利用PSM插補(bǔ)法對(duì)無(wú)回答單元進(jìn)行插補(bǔ)。數(shù)據(jù)集{YS,XS}包含回答單元、無(wú)回答單元和合成單元?；赑SM插補(bǔ)法,將回答單元標(biāo)記為0,劃為對(duì)照組;將無(wú)回答單元和合成單元標(biāo)記為1,劃為處理組。對(duì)于k=1,2,…,n+r×nmis,標(biāo)識(shí)變量T(YS)定義為:

利用標(biāo)識(shí)變量T(YS)與解釋變量XS,構(gòu)建傾向得分模型,計(jì)算每個(gè)單元的傾向得分?jǐn)M合值,再對(duì)無(wú)回答單元與回答單元進(jìn)行匹配。將每個(gè)無(wú)回答單元的傾向得分差值最小的m個(gè)回答單元的被解釋變量觀測(cè)值作為該無(wú)回答單元的m重插補(bǔ)值。

本文將SMOTE算法處理非平衡分類(lèi)數(shù)據(jù)集的優(yōu)勢(shì)擴(kuò)展到PSM插補(bǔ)法中,創(chuàng)新性地提出了SMOTE-PSM插補(bǔ)法,解決了無(wú)回答單元與回答單元在數(shù)量不平衡時(shí)PSM模型的擬合精度問(wèn)題。本文提出的SMOTE-PSM插補(bǔ)法不僅保留了PSM插補(bǔ)法不易受混雜變量影響的優(yōu)點(diǎn),也繼承了SMOTE算法的優(yōu)勢(shì),保證了插補(bǔ)的精度。

三、SMOTE-PSM插補(bǔ)法的統(tǒng)計(jì)模擬研究

(一)統(tǒng)計(jì)模擬的模型設(shè)定

鑒于無(wú)回答真實(shí)值的不可獲得性,本文利用統(tǒng)計(jì)模擬方法研究SMOTE-PSM插補(bǔ)法的統(tǒng)計(jì)性質(zhì)。設(shè)定線(xiàn)性模型產(chǎn)生完整數(shù)據(jù)集,依據(jù)MAR機(jī)制設(shè)置無(wú)回答單元,利用SMOTE-PSM插補(bǔ)法對(duì)無(wú)回答單元進(jìn)行多重插補(bǔ),評(píng)價(jià)線(xiàn)性模型系數(shù)估計(jì)的統(tǒng)計(jì)性質(zhì)。設(shè)定的線(xiàn)性模型為:

Y=β0+β1X1+β2X2+β3X3+β4X4+ε

(9)

其中,解釋變量設(shè)定為兩種類(lèi)型,將X1、X2設(shè)定為連續(xù)變量,分別服從正態(tài)分布N(1,4)和N(10,4),將X3、X4設(shè)定為離散變量,分別服從二項(xiàng)分布B(1,0.8)和B(1,0.6);截距項(xiàng)和解釋變量系數(shù)分別設(shè)定為β0=1,β1=10,β2=1,β3=1,β4=2;誤差項(xiàng)ε的分布分別設(shè)定為正態(tài)分布、T分布和Cauchy分布,以對(duì)不同誤差分布假定下的插補(bǔ)效果進(jìn)行比較,設(shè)定數(shù)據(jù)集的樣本量為100。

(二)模擬結(jié)果比較分析

1.不同插補(bǔ)方法的模擬結(jié)果與分析

在MAR機(jī)制下,單元的無(wú)回答概率僅依賴(lài)于完全觀測(cè)變量,與無(wú)回答變量無(wú)關(guān)。本文選取X1和X3兩個(gè)不同類(lèi)型的變量作為無(wú)回答概率的依賴(lài)變量,對(duì)單元進(jìn)行無(wú)回答設(shè)定,分別采用SMOTE-PSM插補(bǔ)法和其他比較方法對(duì)無(wú)回答單元進(jìn)行多重插補(bǔ)。在無(wú)回答概率依賴(lài)連續(xù)變量X1的情況下,選擇小于變量X1的給定無(wú)回答比率分位數(shù)的單元,將目標(biāo)變量值設(shè)定為無(wú)回答。在無(wú)回答概率依賴(lài)于離散變量X3的情況下,借鑒Kropko的方法,利用Logit模型將變量X3的值轉(zhuǎn)換為概率值pi,再按照依賴(lài)于連續(xù)變量X1的情況進(jìn)行設(shè)定單元的無(wú)回答。在采用SMOTE算法產(chǎn)生新的合成單元時(shí),若無(wú)回答率為5%,單元合成率r為18,近鄰個(gè)數(shù)b選為3;若無(wú)回答率為20%,單元合成率r為3,b為5。表1和表2分別給出單元無(wú)回答概率分別依賴(lài)于連續(xù)變量X1和離散變量X3的模擬結(jié)果,其中RE表示系數(shù)估計(jì)的相對(duì)誤差,MSE表示系數(shù)估計(jì)的均方誤差。

表1和表2中的模擬結(jié)果顯示,在無(wú)回答率與插補(bǔ)重?cái)?shù)的多種組合中,與其他插補(bǔ)方法相比,基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)的相對(duì)誤差和均方誤差最小。在無(wú)回答率為5%時(shí),SMOTE-PSM插補(bǔ)法明顯優(yōu)于其他插補(bǔ)方法。

表1 無(wú)回答概率依賴(lài)于連續(xù)變量X1的模擬結(jié)果

表2 無(wú)回答概率依賴(lài)于離散變量X3的模擬結(jié)果

由表1和表2的比較分析可知,在無(wú)回答率一定或插補(bǔ)重?cái)?shù)一定的情況下,五種插補(bǔ)方法的模擬結(jié)果表現(xiàn)特征相同。在給定無(wú)回答率的情況下,基于PSM插補(bǔ)法、響應(yīng)傾向得分匹配插補(bǔ)法和最近鄰插補(bǔ)法的系數(shù)估計(jì)相對(duì)誤差和均方誤差,都隨著插補(bǔ)重?cái)?shù)增加,呈現(xiàn)出遞增趨勢(shì)。而回歸插補(bǔ)法相應(yīng)的相對(duì)誤差和均方誤差未呈現(xiàn)明顯的變化趨勢(shì)。SMOTE-PSM插補(bǔ)法在不同無(wú)回答率下呈現(xiàn)不同的特征。在無(wú)回答率為5%的情況下,基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)相對(duì)誤差和均方誤差無(wú)明顯遞減趨勢(shì);而在無(wú)回答率為20%的情況下,插補(bǔ)效果呈現(xiàn)下降趨勢(shì)。在插補(bǔ)重?cái)?shù)為30時(shí),插補(bǔ)效果更優(yōu)良。從相對(duì)誤差和均方誤差的變動(dòng)幅度來(lái)看,PSM插補(bǔ)法和最近鄰插補(bǔ)法受插補(bǔ)重?cái)?shù)的影響較大,響應(yīng)傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法次之,SMOTE-PSM插補(bǔ)法的相對(duì)誤差和均方誤差變動(dòng)幅度最小,受插補(bǔ)重?cái)?shù)的影響小。

在給定插補(bǔ)重?cái)?shù)的情況下,基于五種插補(bǔ)法的模型系數(shù)估計(jì)相對(duì)誤差和均方誤差,在無(wú)回答率為20%的情況下均高于無(wú)回答率為5%的情況。其中,基于PSM插補(bǔ)法和回歸插補(bǔ)法在兩種給定無(wú)回答率下的系數(shù)估計(jì)相對(duì)誤差和均方誤差的變動(dòng)幅度較大,響應(yīng)傾向得分匹配插補(bǔ)法和最近鄰插補(bǔ)法次之,SMOTE-PSM插補(bǔ)法的變動(dòng)小,說(shuō)明無(wú)回答率對(duì)SMOTE-PSM插補(bǔ)法的影響小,插補(bǔ)效果較為穩(wěn)健。

綜上可知,無(wú)論單元無(wú)回答概率依賴(lài)于連續(xù)變量還是離散變量,在無(wú)回答率與插補(bǔ)重?cái)?shù)的多種組合中,基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)的相對(duì)誤差和均方誤差最小,并且在不同無(wú)回答率和插補(bǔ)重?cái)?shù)下,系數(shù)估計(jì)的相對(duì)誤差和均方誤差變動(dòng)幅度最小,插補(bǔ)效果穩(wěn)定。

2.不同誤差分布假定下的模擬結(jié)果

為了分析誤差分布對(duì)SMOTE-PSM插補(bǔ)法的插補(bǔ)效果影響,分別選擇T分布、Cauchy分布和正態(tài)分布作為誤差分布,進(jìn)行模擬研究。為了簡(jiǎn)潔展示模擬結(jié)果,給出無(wú)回答率20%、插補(bǔ)重?cái)?shù)5組合下的模擬結(jié)果,見(jiàn)表3和表4。其中,非正態(tài)誤差分布假定下的系數(shù)估計(jì)采用極大似然估計(jì)方法。

表3 不同誤差假定的模擬結(jié)果(無(wú)回答概率依賴(lài)于連續(xù)變量X1)

表4 不同誤差假定的模擬結(jié)果(無(wú)回答概率依賴(lài)于離散變量X3)

表3給出單元無(wú)回答概率依賴(lài)于連續(xù)變量X1的五種插補(bǔ)方法的模擬結(jié)果。從系數(shù)估計(jì)的相對(duì)誤差和均方誤差來(lái)看,在三種誤差分布假定下,回歸插補(bǔ)法的插補(bǔ)效果最差。基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)相對(duì)誤差和均方誤差最小,受誤差分布影響小,系數(shù)估計(jì)量的變動(dòng)幅度最小。表4給出單元無(wú)回答概率依賴(lài)于離散變量X3的五種插補(bǔ)法的模擬結(jié)果,與單元無(wú)回答概率依賴(lài)于連續(xù)變量X1的模擬結(jié)果相似。從系數(shù)估計(jì)的相對(duì)誤差和均方誤差來(lái)看,回歸插補(bǔ)法、最近鄰插補(bǔ)法和PSM插補(bǔ)法的插補(bǔ)效果較差,且回歸插補(bǔ)法和PSM插補(bǔ)法易受誤差分布的影響?；赟MOTE-PSM插補(bǔ)法的系數(shù)估計(jì)的相對(duì)誤差和均方誤差明顯低于其他四種插補(bǔ)法,受誤差分布影響最小,誤差分布對(duì)系數(shù)估計(jì)的變動(dòng)幅度影響最小。綜上可知,在多種誤差分布假定下,SMOTE-PSM插補(bǔ)法的插補(bǔ)效果最優(yōu),系數(shù)估計(jì)的相對(duì)誤差和均方誤差小,變化幅度小,插補(bǔ)效果穩(wěn)定。

由上可知,本文所提出的SMOTE-PSM插補(bǔ)法在各誤差分布假定下的插補(bǔ)效果最優(yōu),并且不同誤差分布假定下的系數(shù)估計(jì)相對(duì)誤差和均方誤差變化幅度小,受誤差分布的影響小,插補(bǔ)效果穩(wěn)定。從不同誤差分布來(lái)看,SMOTE-PSM插補(bǔ)法在正態(tài)分布和T分布假定下的插補(bǔ)效果較好,且兩者較為接近。

四、SMOTE-PSM插補(bǔ)法的實(shí)證研究

下面驗(yàn)證SMOTE-PSM插補(bǔ)法在Grilic(1)數(shù)據(jù)下載網(wǎng)址為:https:∥github.com/Stata-Club/Sharing-Center-of-Stata-Club。真實(shí)數(shù)據(jù)集中的應(yīng)用效果。Grilic數(shù)據(jù)集由12個(gè)觀測(cè)變量和758個(gè)觀測(cè)組成,用于研究年輕男子工資的影響因素。這里,選取Lw(工資對(duì)數(shù))作為被解釋變量,Kww(在“Knowledge of the World of Work”中的測(cè)試成績(jī))、IQ(智商)、Smsa(大城市虛擬變量,住在大城市=1)和Mrt(婚姻虛擬變量,已婚=1)作為解釋變量,其中Kww和IQ為連續(xù)型變量,Smsa和Mrt為離散型變量。選擇的線(xiàn)性模型為:

Lw=α0+α1Kww+α2IQ+α3Smsa+α4Mrt+ε

(10)

表5給出了Grilic數(shù)據(jù)集在MAR機(jī)制下利用SMOTE-PSM插補(bǔ)法的實(shí)證結(jié)果。Grilic完整數(shù)據(jù)集的模型系數(shù)估計(jì)值在顯著性水平5%下均顯著為正,表明年輕男性群體中,在“Knowledge of the World of Work”測(cè)試中的成績(jī)?cè)礁?智商越高,所能獲得的期望工資越高;居住在大城市比居住在小城市獲得的期望工資高;已婚狀態(tài)比未婚狀態(tài)獲得的期望工資高。第3～18行給出了從Grilic數(shù)據(jù)集中簡(jiǎn)單隨機(jī)抽取100個(gè)觀測(cè)依賴(lài)于解釋變量Kww、IQ、Smsa、Mrt缺失情況下的實(shí)證結(jié)果,由于從Grilic完整數(shù)據(jù)集中重復(fù)隨機(jī)抽取100個(gè)觀測(cè)進(jìn)行無(wú)回答設(shè)定,會(huì)導(dǎo)致系數(shù)估計(jì)的方差擴(kuò)大,大于選用完整數(shù)據(jù)集的系數(shù)估計(jì)標(biāo)準(zhǔn)誤。

表5 Grilic數(shù)據(jù)集的分析結(jié)果

五、結(jié) 論

微觀調(diào)查數(shù)據(jù)集中常常存在一定程度的無(wú)回答,且很難避免。無(wú)回答會(huì)嚴(yán)重影響調(diào)查數(shù)據(jù)的質(zhì)量和分析結(jié)果的可靠性。PSM插補(bǔ)法作為處理無(wú)回答數(shù)據(jù)的常用多重插補(bǔ)方法,利用PSM模型對(duì)無(wú)回答單元與回答單元進(jìn)行匹配,實(shí)現(xiàn)無(wú)回答數(shù)據(jù)的插補(bǔ),具有不易受混雜變量影響的優(yōu)點(diǎn)。但是,實(shí)際應(yīng)用中,調(diào)查數(shù)據(jù)的無(wú)回答率往往較低,無(wú)回答單元數(shù)量與回答單元數(shù)量相差較大,會(huì)造成PSM模型的匹配效果下降,降低PSM插補(bǔ)法的可靠性。

本文為了提高實(shí)際應(yīng)用中無(wú)回答單元數(shù)量明顯低于回答單元數(shù)量情況下PSM插補(bǔ)法的插補(bǔ)效果,將SMOTE算法處理非平衡數(shù)據(jù)集的優(yōu)勢(shì)引入PSM插補(bǔ)法,提出基于合成少數(shù)類(lèi)過(guò)采樣的傾向得分匹配插補(bǔ)法,即SMOTE-PSM插補(bǔ)法。新插補(bǔ)法保留了PSM插補(bǔ)法的優(yōu)點(diǎn),并融合了SMOTE算法的優(yōu)勢(shì),改善了非平衡分類(lèi)數(shù)據(jù)的擬合性能,提高了插補(bǔ)效果。統(tǒng)計(jì)模擬結(jié)果演示,SMOTE-PSM插補(bǔ)法的插補(bǔ)效果明顯提高,且不易受誤差分布的影響,提高了插補(bǔ)的有效性及穩(wěn)健性。實(shí)證結(jié)果表明,SMOTE-PSM插補(bǔ)法在實(shí)際數(shù)據(jù)Grilic中同樣具有較好的可應(yīng)用性,能夠有效解決數(shù)據(jù)無(wú)回答問(wèn)題,得出可靠的分析結(jié)果。本文的研究為PSM插補(bǔ)法在非平衡分類(lèi)數(shù)據(jù)中的應(yīng)用提供了新思路,可將其推廣到政策評(píng)價(jià)和因果推斷等數(shù)據(jù)分析中。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡