夏利宇,王 蕾,劉賽可
(中國(guó)人民大學(xué) 應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,北京100872)
因變量非隨機(jī)缺失在統(tǒng)計(jì)應(yīng)用領(lǐng)域較為常見(jiàn),例如信用評(píng)級(jí)領(lǐng)域的拒絕推斷難題、市場(chǎng)營(yíng)銷(xiāo)中無(wú)偏好客戶(hù)的不響應(yīng)問(wèn)題、微觀調(diào)查中敏感問(wèn)題的無(wú)回答現(xiàn)象等。實(shí)踐中,相比樣本中的完備數(shù)據(jù),人們對(duì)非隨機(jī)缺失數(shù)據(jù)分析更感興趣,例如預(yù)測(cè)貸款客戶(hù)違約概率、不響應(yīng)客戶(hù)的消費(fèi)偏好、無(wú)回答者的真實(shí)特征,這可以拓展業(yè)務(wù)領(lǐng)域和研究范圍,往往能成為創(chuàng)造經(jīng)濟(jì)利益和解答關(guān)鍵問(wèn)題的途徑。學(xué)界中,非隨機(jī)缺失問(wèn)題因?yàn)闃颖镜膭h失結(jié)構(gòu)破壞了其他完備樣本對(duì)總體的代表性,進(jìn)而導(dǎo)致參數(shù)估計(jì)的有偏與非一致而受到普遍關(guān)注。引入數(shù)據(jù)缺失機(jī)制來(lái)預(yù)測(cè)非隨機(jī)缺失樣本的特征,解決樣本代表性偏差帶來(lái)的問(wèn)題,探尋效果優(yōu)良的統(tǒng)計(jì)模型對(duì)非隨機(jī)缺失數(shù)據(jù)分析至關(guān)重要。
Rubin(1976)[1]根據(jù)因變量和自變量對(duì)因變量缺失的影響,將缺失機(jī)制分為隨機(jī)缺失(MAR)、完全隨機(jī)缺失(MCAR)和非隨機(jī)缺失(MNAR)三類(lèi)。在MAR和MCAR情況下,因變量缺失與其自身無(wú)關(guān),可以直接刪除含缺失數(shù)據(jù)的樣本推斷總體性質(zhì);而在MNAR情況下,因變量缺失與其自身有關(guān),建模時(shí)必須考慮數(shù)據(jù)的缺失機(jī)制。Graham和Donaldson(1993)[2]證明,直接刪除非隨機(jī)缺失樣本建模將導(dǎo)致參數(shù)估計(jì)的有偏與非一致,填補(bǔ)非隨機(jī)數(shù)據(jù)后,建模效果將顯著提升。Heckman(1979)[3]提出了處理因變量非隨機(jī)缺失的Heckman兩步法,通過(guò)兩個(gè)Probit模型還原了樣本選擇過(guò)程和結(jié)果發(fā)生過(guò)程,該方法思路清晰,但在實(shí)際應(yīng)用中效果不佳。Banasik和Crook(2007)[4]詳細(xì)說(shuō)明了處理非隨機(jī)缺失問(wèn)題的擴(kuò)張法,該方法因假定缺失數(shù)據(jù)與非缺失數(shù)據(jù)具有相同的數(shù)據(jù)分布而無(wú)法得到學(xué)界的廣泛認(rèn)可。
本文將借鑒Kim和Yu(2011)[5]非隨機(jī)缺失數(shù)據(jù)均值泛函估計(jì)的思想,將其一元核函數(shù)拓展成多元核函數(shù),運(yùn)用基于指數(shù)傾斜的半?yún)?shù)模型預(yù)測(cè)樣本屬于各類(lèi)的發(fā)生概率,解決MNAR情形下的樣本二分類(lèi)問(wèn)題。
非隨機(jī)缺失數(shù)據(jù)均值泛函的半?yún)?shù)估計(jì)方法因其非參數(shù)部分而具有穩(wěn)健性,結(jié)合實(shí)際應(yīng)用的要求,本文將其模型中一元協(xié)變量的設(shè)定調(diào)整為多元協(xié)變量。
(x1i,…,xpi,yi),i=1,…,n 是隨機(jī)變量 (X1,…,Xp,Y)的樣本,其中,yi是可能缺失的因變量,(x1i,…,xpi)是總可以被觀測(cè)到的協(xié)變量,n為樣本容量,p為協(xié)變量個(gè)數(shù)。τi是示性函數(shù),服從響應(yīng)概率為πi(x1i,…,xpi,yi)的Bernoulli分布,當(dāng) τi=1 時(shí),yi可觀測(cè),當(dāng) τi=0 時(shí),yi缺失。τi=1時(shí),yi的條件密度是時(shí),yi的條件密度是 f0(yi|x1i,…,xpi)。 K(?)是核密度函數(shù),其窗寬是h,滿(mǎn)足當(dāng)n→∞時(shí),h→0,nh→∞。本文中采用高斯核密度函數(shù),其最優(yōu)窗寬為h=xn-1/(p+4),x為 xi的標(biāo)準(zhǔn)差。
當(dāng)πi與 yi獨(dú)立時(shí),缺失機(jī)制是MAR,此時(shí):
當(dāng)πi與 yi相關(guān)時(shí),缺失機(jī)制是MNAR,此時(shí)的條件密度關(guān)系為:
其中,O(x1i,…,xpi,yi)是優(yōu)勢(shì)比函數(shù),形式為:
假定響應(yīng)概率πi來(lái)自服從Logit分布的半?yún)?shù)模型,即:
進(jìn)而式(2)條件密度關(guān)系可以表示為:
式(6)稱(chēng)為指數(shù)傾斜模型,γ為傾斜參數(shù),表明非隨機(jī)缺失機(jī)制對(duì)隨機(jī)缺失機(jī)制的偏離程度。在實(shí)際問(wèn)題中,γ一般未知,可通過(guò)獨(dú)立調(diào)查或驗(yàn)證樣本來(lái)估計(jì)。
對(duì)于可觀測(cè)的樣本,其非參數(shù)估計(jì)m1(x1i,…,xpi)=可通過(guò)最小化式(7)求得其估計(jì)值,其中是權(quán)重。
可以證明:
可以證明:
基于指數(shù)傾斜的半?yún)?shù)模型在估計(jì)中引入了因變量非隨機(jī)缺失的機(jī)制,借助非參數(shù)模型兼具靈活性和可解釋性的優(yōu)勢(shì),以廣義非參數(shù)模型估計(jì)傾斜參數(shù)γ,獲得因變量均值的一致估計(jì)。可以利用式(11)獲得τi=0時(shí) yi的估計(jì)值。結(jié)合式(11),當(dāng) yi是二分類(lèi)變量時(shí),yi=1的預(yù)測(cè)概率為,yi=0的預(yù)測(cè)概率為1-,當(dāng)>0.5 時(shí),可預(yù)測(cè)樣本屬于 yi=1 的一類(lèi),反之屬于yi=0的一類(lèi)。
對(duì)于非隨機(jī)缺失數(shù)據(jù)的二分類(lèi)問(wèn)題,不同類(lèi)別的誤判成本往往存在較大差別,例如信用評(píng)級(jí)中誤判違約客戶(hù)的成本大于誤判履約客戶(hù)的成本,因此,在二分類(lèi)模型優(yōu)劣的評(píng)價(jià)中僅僅考慮整體分類(lèi)精度是不夠的,需要根據(jù)誤判成本差異同時(shí)參考其他評(píng)價(jià)指標(biāo)。本文考察分類(lèi)模型的精度(Accuracy)、召回率call(Recall)、準(zhǔn)確率(Precision)、G 均值(G_mean)、Fβ得分(Fβ_Score):
其中,TP、TN、FP、FN分別是混淆矩陣中的真正、真負(fù)、假正、假負(fù)。Accuracy表示模型正確預(yù)測(cè)非隨機(jī)缺失樣本的比例,Recall表示所有高誤判代價(jià)樣本被正確預(yù)測(cè)的比例,Precision表示被正確預(yù)測(cè)為高誤判代價(jià)樣本的比例,G_mean表示高誤判代價(jià)樣本和低誤判代價(jià)樣本被正確預(yù)測(cè)比例的幾何平均數(shù),F(xiàn)β_Score表示由參數(shù)β調(diào)整指標(biāo)Recall和Precision的組合,β反應(yīng)指標(biāo)的相對(duì)重要性。本文對(duì)模型優(yōu)劣的判斷主要依據(jù)Recall、G_mean、F1_Score和 F2_ScoreFβ_Score。
情形1:
情形2:
情形3:
情形4:
情形5:
情形6:
情形7:
情形8:
其中,Φ(?)是標(biāo)準(zhǔn)正態(tài)分布的累積密度函數(shù)。以上8類(lèi)因變量缺失情形中,情形1是隨機(jī)缺失,其他情形是非隨機(jī)缺失。設(shè)定樣本容量n=1000,每類(lèi)缺失情形重復(fù)模擬100次,以消除隨機(jī)性。半?yún)?shù)模型中γ的估計(jì),首先利用可觀測(cè)數(shù)據(jù)建立非參數(shù)模型,粗略估計(jì)非隨機(jī)缺失樣本的分類(lèi)插補(bǔ)到原始數(shù)據(jù)中構(gòu)成完備數(shù)據(jù),然后根據(jù)式(4),利用完備數(shù)據(jù)建立廣義半?yún)?shù)模型,得到參數(shù)估計(jì)值為對(duì)比半?yún)?shù)模型的分類(lèi)效果,本文同時(shí)建立Logit模型、SVM模型和決策樹(shù)模型對(duì)非隨機(jī)缺失樣本進(jìn)行分類(lèi),計(jì)算模型在各類(lèi)缺失情形下評(píng)價(jià)指標(biāo)的均值,數(shù)值模擬結(jié)果如表1。
當(dāng)樣本隨機(jī)缺失(情形1)時(shí),半?yún)?shù)模型的召回率和F1得分在四個(gè)模型中最大,但其G均值和F2得分僅優(yōu)于決策樹(shù)模型,預(yù)測(cè)精度不及Logit模型和SVM模型,半?yún)?shù)模型的分類(lèi)效果沒(méi)有顯著優(yōu)勢(shì)。當(dāng)樣本非隨機(jī)缺失(情形2—情形8)時(shí),半?yún)?shù)模型的精度、召回率、G均值、F1得分在四個(gè)模型中最大,除情形3和情形5外,其F2得分在四個(gè)模型中也最大,半?yún)?shù)模型的分類(lèi)效果明顯優(yōu)于其他其他三個(gè)模型。在情形3和情形5中,由于決定π的模型中有平方項(xiàng)X32和交互項(xiàng)X2Z,他們提升了協(xié)變量X對(duì)π的影響,降低了潛變量Z對(duì)π的影響,在此二類(lèi)情形下,半?yún)?shù)模型的F2得分低于Logit模型。綜合各類(lèi)非隨機(jī)缺失情形的指標(biāo)值,除本文的半?yún)?shù)模型外,Logit模型的分類(lèi)效果優(yōu)于SVM模型和決策樹(shù)模型,這可能是非隨機(jī)缺失的機(jī)制設(shè)計(jì)上假定響應(yīng)概率服從Logit分布或正態(tài)分布。模擬研究表明,本文的半?yún)?shù)模型并不適合因變量隨機(jī)缺失情形下樣本的分類(lèi),但該模型是處理非隨機(jī)缺失樣本分類(lèi)的有效方法。
表1 數(shù)值模擬結(jié)果
實(shí)證數(shù)據(jù)來(lái)源于 BankScope數(shù)據(jù)庫(kù),它是 BνD(Bureau νan Dijk)與評(píng)級(jí)機(jī)構(gòu)惠譽(yù)(FitchRatings)合作開(kāi)發(fā)的銀行信息數(shù)據(jù)庫(kù),提供全球主要銀行及重要金融機(jī)構(gòu)的經(jīng)營(yíng)與信用數(shù)據(jù)。本文的研究?jī)?nèi)容是通過(guò)銀行的主要財(cái)務(wù)指標(biāo)對(duì)銀行經(jīng)營(yíng)狀態(tài)非隨機(jī)缺失的樣本進(jìn)行分類(lèi),將經(jīng)營(yíng)狀態(tài)分為“正?!?Y=1)和“異?!?Y=0)二類(lèi),“正常”指銀行當(dāng)前正在經(jīng)營(yíng),“異?!敝搞y行撤并、解散或倒閉等。協(xié)變量選擇總資本比率(X1)、貸款損失準(zhǔn)備金/貸款總額(X2)、股東權(quán)益/總資產(chǎn)(X3)三個(gè)指標(biāo)。決定其是否缺失的潛在變量選擇存款及短期資金(T1)、所有者權(quán)益(T2)、凈利息收益率(T3)。
對(duì)原始數(shù)據(jù)進(jìn)行篩選和整理后,建模數(shù)據(jù)的樣本容量為1115,其中正常銀行769家,異常銀行346家。設(shè)定因變量非隨機(jī)缺失的比例為30%,將潛在變量標(biāo)準(zhǔn)化,令,Z0.3是Z的30%分位數(shù),當(dāng) Zi<Z0.3時(shí),第 i家銀行經(jīng)營(yíng)狀態(tài)缺失(τi=0)。因?yàn)槿笔顩r根據(jù)ε的隨機(jī)性而不同,故重復(fù)此缺失機(jī)制100次。結(jié)合BankScope數(shù)據(jù)庫(kù)中的真實(shí)數(shù)據(jù),建立半?yún)?shù)模型、Logit模型、SVM模型和決策樹(shù)模型,計(jì)算各類(lèi)分類(lèi)評(píng)價(jià)指標(biāo)的均值,結(jié)果見(jiàn)表2。
表2 實(shí)證結(jié)果
結(jié)合銀行真實(shí)數(shù)據(jù)的實(shí)證研究結(jié)果表明,當(dāng)缺失機(jī)制不是由Logit分布或正態(tài)分布決定時(shí),半?yún)?shù)模型的召回率、G均值、F1得分、F2得分在四個(gè)模型中仍最大,分類(lèi)效果最佳,這說(shuō)明半?yún)?shù)模型對(duì)于更復(fù)雜的非隨機(jī)缺失機(jī)制具有良好的適應(yīng)性。相比之下,由于缺失機(jī)制分布的改變,決策樹(shù)模型的分類(lèi)效果明顯優(yōu)于Logit模型和SVM模型。
本文主要應(yīng)用基于指數(shù)傾向的半?yún)?shù)模型解決非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題,引用均值泛函的半?yún)?shù)方法估計(jì)樣本屬于某一類(lèi)別的概率。模擬研究表明,與Logit模型、SVM模型、決策樹(shù)模型相比,本文的半?yún)?shù)方法對(duì)于隨機(jī)缺失樣本的分類(lèi)效果欠佳,但在處理非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題上有明顯優(yōu)勢(shì),對(duì)處理非隨機(jī)缺失問(wèn)題具有針對(duì)性。實(shí)證研究表明,半?yún)?shù)模型對(duì)處理實(shí)際問(wèn)題中非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題同樣具有適用性。
由于模型中使用了核函數(shù)建模,當(dāng)樣本容量過(guò)小或數(shù)據(jù)中有異常值時(shí),分類(lèi)效果可能會(huì)受到影響。在本文的研究中,協(xié)變量均為數(shù)值型變量,協(xié)變量間相互獨(dú)立,并未對(duì)模型中的特征選擇問(wèn)題進(jìn)行研究。在未來(lái)的研究中,可以考慮協(xié)變量為定性變量且協(xié)變量間相關(guān)的情況,討論適合非隨機(jī)缺失樣本分類(lèi)的半?yún)?shù)模型的特征選擇方法,并將二分類(lèi)模型向多分類(lèi)模型拓展。
參考文獻(xiàn):
[1]Rubin D B.Inference and Missing Data[J].Biometrika,1976,(63).
[2]Graham J W,Donaldson S I.Evaluating Interventions With Differential Attrition:The Importance of Nonresponse Mechanisms and Use of Follow-up Data[J].Journal of Applied Psychology,1993,(78).
[3]Heckman J J.Sample Selection Bias as a Specification Error[J].Econometrica,1979,(47).
[4]Banasik J,Crook J.Reject Inference,Augmentation and Sample Selection[J].Eur J Opl Res,2007,(183).
[5]Kim J K,Yu L C.A Semi-parametric Estimation of Mean Functionals With Non-ignorable Missing Data[J].Journal of the American Statistical Association,2011,(106).