基于半?yún)?shù)估計(jì)的非隨機(jī)缺失樣本分類(lèi)

2018-05-11 07:36:53夏利宇劉賽可

統(tǒng)計(jì)與決策 2018年8期

夏利宇，王蕾，劉賽可

（中國(guó)人民大學(xué) 應(yīng)用統(tǒng)計(jì)科學(xué)研究中心，北京100872）

0 引言

因變量非隨機(jī)缺失在統(tǒng)計(jì)應(yīng)用領(lǐng)域較為常見(jiàn)，例如信用評(píng)級(jí)領(lǐng)域的拒絕推斷難題、市場(chǎng)營(yíng)銷(xiāo)中無(wú)偏好客戶(hù)的不響應(yīng)問(wèn)題、微觀調(diào)查中敏感問(wèn)題的無(wú)回答現(xiàn)象等。實(shí)踐中，相比樣本中的完備數(shù)據(jù)，人們對(duì)非隨機(jī)缺失數(shù)據(jù)分析更感興趣，例如預(yù)測(cè)貸款客戶(hù)違約概率、不響應(yīng)客戶(hù)的消費(fèi)偏好、無(wú)回答者的真實(shí)特征，這可以拓展業(yè)務(wù)領(lǐng)域和研究范圍，往往能成為創(chuàng)造經(jīng)濟(jì)利益和解答關(guān)鍵問(wèn)題的途徑。學(xué)界中，非隨機(jī)缺失問(wèn)題因?yàn)闃颖镜膭h失結(jié)構(gòu)破壞了其他完備樣本對(duì)總體的代表性，進(jìn)而導(dǎo)致參數(shù)估計(jì)的有偏與非一致而受到普遍關(guān)注。引入數(shù)據(jù)缺失機(jī)制來(lái)預(yù)測(cè)非隨機(jī)缺失樣本的特征，解決樣本代表性偏差帶來(lái)的問(wèn)題，探尋效果優(yōu)良的統(tǒng)計(jì)模型對(duì)非隨機(jī)缺失數(shù)據(jù)分析至關(guān)重要。

Rubin（1976）[1]根據(jù)因變量和自變量對(duì)因變量缺失的影響，將缺失機(jī)制分為隨機(jī)缺失(MAR)、完全隨機(jī)缺失(MCAR)和非隨機(jī)缺失(MNAR)三類(lèi)。在MAR和MCAR情況下，因變量缺失與其自身無(wú)關(guān)，可以直接刪除含缺失數(shù)據(jù)的樣本推斷總體性質(zhì)；而在MNAR情況下，因變量缺失與其自身有關(guān)，建模時(shí)必須考慮數(shù)據(jù)的缺失機(jī)制。Graham和Donaldson（1993）[2]證明，直接刪除非隨機(jī)缺失樣本建模將導(dǎo)致參數(shù)估計(jì)的有偏與非一致，填補(bǔ)非隨機(jī)數(shù)據(jù)后，建模效果將顯著提升。Heckman（1979）[3]提出了處理因變量非隨機(jī)缺失的Heckman兩步法，通過(guò)兩個(gè)Probit模型還原了樣本選擇過(guò)程和結(jié)果發(fā)生過(guò)程，該方法思路清晰，但在實(shí)際應(yīng)用中效果不佳。Banasik和Crook（2007）[4]詳細(xì)說(shuō)明了處理非隨機(jī)缺失問(wèn)題的擴(kuò)張法，該方法因假定缺失數(shù)據(jù)與非缺失數(shù)據(jù)具有相同的數(shù)據(jù)分布而無(wú)法得到學(xué)界的廣泛認(rèn)可。

本文將借鑒Kim和Yu（2011）[5]非隨機(jī)缺失數(shù)據(jù)均值泛函估計(jì)的思想，將其一元核函數(shù)拓展成多元核函數(shù)，運(yùn)用基于指數(shù)傾斜的半?yún)?shù)模型預(yù)測(cè)樣本屬于各類(lèi)的發(fā)生概率，解決MNAR情形下的樣本二分類(lèi)問(wèn)題。

1 研究方法

1.1 非隨機(jī)數(shù)據(jù)的半?yún)?shù)估計(jì)模型

非隨機(jī)缺失數(shù)據(jù)均值泛函的半?yún)?shù)估計(jì)方法因其非參數(shù)部分而具有穩(wěn)健性，結(jié)合實(shí)際應(yīng)用的要求，本文將其模型中一元協(xié)變量的設(shè)定調(diào)整為多元協(xié)變量。

(x1i,…,xpi,yi),i=1,…,n 是隨機(jī)變量 (X1,…,Xp,Y)的樣本，其中，yi是可能缺失的因變量，(x1i,…,xpi)是總可以被觀測(cè)到的協(xié)變量，n為樣本容量，p為協(xié)變量個(gè)數(shù)。τi是示性函數(shù)，服從響應(yīng)概率為πi(x1i,…,xpi,yi)的Bernoulli分布，當(dāng) τi=1 時(shí)，yi可觀測(cè)，當(dāng) τi=0 時(shí)，yi缺失。τi=1時(shí)，yi的條件密度是時(shí)，yi的條件密度是 f0（yi|x1i,…,xpi）。 K(?)是核密度函數(shù)，其窗寬是h，滿(mǎn)足當(dāng)n→∞時(shí)，h→0,nh→∞。本文中采用高斯核密度函數(shù)，其最優(yōu)窗寬為h=xn-1/(p+4),x為 xi的標(biāo)準(zhǔn)差。

當(dāng)πi與 yi獨(dú)立時(shí)，缺失機(jī)制是MAR，此時(shí)：

當(dāng)πi與 yi相關(guān)時(shí)，缺失機(jī)制是MNAR，此時(shí)的條件密度關(guān)系為：

其中，O(x1i,…,xpi,yi)是優(yōu)勢(shì)比函數(shù)，形式為：

假定響應(yīng)概率πi來(lái)自服從Logit分布的半?yún)?shù)模型，即：

進(jìn)而式（2）條件密度關(guān)系可以表示為：

式（6）稱(chēng)為指數(shù)傾斜模型，γ為傾斜參數(shù)，表明非隨機(jī)缺失機(jī)制對(duì)隨機(jī)缺失機(jī)制的偏離程度。在實(shí)際問(wèn)題中，γ一般未知，可通過(guò)獨(dú)立調(diào)查或驗(yàn)證樣本來(lái)估計(jì)。

對(duì)于可觀測(cè)的樣本，其非參數(shù)估計(jì)m1（x1i,…,xpi）=可通過(guò)最小化式（7）求得其估計(jì)值，其中是權(quán)重。

可以證明：

基于指數(shù)傾斜的半?yún)?shù)模型在估計(jì)中引入了因變量非隨機(jī)缺失的機(jī)制，借助非參數(shù)模型兼具靈活性和可解釋性的優(yōu)勢(shì)，以廣義非參數(shù)模型估計(jì)傾斜參數(shù)γ，獲得因變量均值的一致估計(jì)。可以利用式（11）獲得τi=0時(shí) yi的估計(jì)值。結(jié)合式（11），當(dāng) yi是二分類(lèi)變量時(shí)，yi=1的預(yù)測(cè)概率為，yi=0的預(yù)測(cè)概率為1-，當(dāng)＞0.5 時(shí)，可預(yù)測(cè)樣本屬于 yi=1 的一類(lèi)，反之屬于yi=0的一類(lèi)。

1.2 分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于非隨機(jī)缺失數(shù)據(jù)的二分類(lèi)問(wèn)題，不同類(lèi)別的誤判成本往往存在較大差別，例如信用評(píng)級(jí)中誤判違約客戶(hù)的成本大于誤判履約客戶(hù)的成本，因此，在二分類(lèi)模型優(yōu)劣的評(píng)價(jià)中僅僅考慮整體分類(lèi)精度是不夠的，需要根據(jù)誤判成本差異同時(shí)參考其他評(píng)價(jià)指標(biāo)。本文考察分類(lèi)模型的精度(Accuracy)、召回率call(Recall)、準(zhǔn)確率(Precision)、G 均值(G_mean)、Fβ得分(Fβ_Score)：

其中，TP、TN、FP、FN分別是混淆矩陣中的真正、真負(fù)、假正、假負(fù)。Accuracy表示模型正確預(yù)測(cè)非隨機(jī)缺失樣本的比例，Recall表示所有高誤判代價(jià)樣本被正確預(yù)測(cè)的比例，Precision表示被正確預(yù)測(cè)為高誤判代價(jià)樣本的比例，G_mean表示高誤判代價(jià)樣本和低誤判代價(jià)樣本被正確預(yù)測(cè)比例的幾何平均數(shù)，F(xiàn)β_Score表示由參數(shù)β調(diào)整指標(biāo)Recall和Precision的組合，β反應(yīng)指標(biāo)的相對(duì)重要性。本文對(duì)模型優(yōu)劣的判斷主要依據(jù)Recall、G_mean、F1_Score和 F2_ScoreFβ_Score。

2 數(shù)值模擬

情形1：

情形2：

情形3：

情形4：

情形5：

情形6：

情形7：

情形8：

其中，Φ(?)是標(biāo)準(zhǔn)正態(tài)分布的累積密度函數(shù)。以上8類(lèi)因變量缺失情形中，情形1是隨機(jī)缺失，其他情形是非隨機(jī)缺失。設(shè)定樣本容量n=1000，每類(lèi)缺失情形重復(fù)模擬100次，以消除隨機(jī)性。半?yún)?shù)模型中γ的估計(jì)，首先利用可觀測(cè)數(shù)據(jù)建立非參數(shù)模型，粗略估計(jì)非隨機(jī)缺失樣本的分類(lèi)插補(bǔ)到原始數(shù)據(jù)中構(gòu)成完備數(shù)據(jù)，然后根據(jù)式（4），利用完備數(shù)據(jù)建立廣義半?yún)?shù)模型，得到參數(shù)估計(jì)值為對(duì)比半?yún)?shù)模型的分類(lèi)效果，本文同時(shí)建立Logit模型、SVM模型和決策樹(shù)模型對(duì)非隨機(jī)缺失樣本進(jìn)行分類(lèi)，計(jì)算模型在各類(lèi)缺失情形下評(píng)價(jià)指標(biāo)的均值，數(shù)值模擬結(jié)果如表1。

當(dāng)樣本隨機(jī)缺失（情形1）時(shí)，半?yún)?shù)模型的召回率和F1得分在四個(gè)模型中最大，但其G均值和F2得分僅優(yōu)于決策樹(shù)模型，預(yù)測(cè)精度不及Logit模型和SVM模型，半?yún)?shù)模型的分類(lèi)效果沒(méi)有顯著優(yōu)勢(shì)。當(dāng)樣本非隨機(jī)缺失（情形2—情形8）時(shí)，半?yún)?shù)模型的精度、召回率、G均值、F1得分在四個(gè)模型中最大，除情形3和情形5外，其F2得分在四個(gè)模型中也最大，半?yún)?shù)模型的分類(lèi)效果明顯優(yōu)于其他其他三個(gè)模型。在情形3和情形5中，由于決定π的模型中有平方項(xiàng)X32和交互項(xiàng)X2Z，他們提升了協(xié)變量X對(duì)π的影響，降低了潛變量Z對(duì)π的影響，在此二類(lèi)情形下，半?yún)?shù)模型的F2得分低于Logit模型。綜合各類(lèi)非隨機(jī)缺失情形的指標(biāo)值，除本文的半?yún)?shù)模型外，Logit模型的分類(lèi)效果優(yōu)于SVM模型和決策樹(shù)模型，這可能是非隨機(jī)缺失的機(jī)制設(shè)計(jì)上假定響應(yīng)概率服從Logit分布或正態(tài)分布。模擬研究表明，本文的半?yún)?shù)模型并不適合因變量隨機(jī)缺失情形下樣本的分類(lèi)，但該模型是處理非隨機(jī)缺失樣本分類(lèi)的有效方法。

表1 數(shù)值模擬結(jié)果

3 實(shí)證

實(shí)證數(shù)據(jù)來(lái)源于 BankScope數(shù)據(jù)庫(kù)，它是 BνD(Bureau νan Dijk)與評(píng)級(jí)機(jī)構(gòu)惠譽(yù)(FitchRatings)合作開(kāi)發(fā)的銀行信息數(shù)據(jù)庫(kù)，提供全球主要銀行及重要金融機(jī)構(gòu)的經(jīng)營(yíng)與信用數(shù)據(jù)。本文的研究?jī)?nèi)容是通過(guò)銀行的主要財(cái)務(wù)指標(biāo)對(duì)銀行經(jīng)營(yíng)狀態(tài)非隨機(jī)缺失的樣本進(jìn)行分類(lèi)，將經(jīng)營(yíng)狀態(tài)分為“正?！?Y=1)和“異?！?Y=0)二類(lèi)，“正常”指銀行當(dāng)前正在經(jīng)營(yíng)，“異?！敝搞y行撤并、解散或倒閉等。協(xié)變量選擇總資本比率(X1)、貸款損失準(zhǔn)備金/貸款總額(X2)、股東權(quán)益/總資產(chǎn)(X3)三個(gè)指標(biāo)。決定其是否缺失的潛在變量選擇存款及短期資金(T1)、所有者權(quán)益(T2)、凈利息收益率(T3)。

對(duì)原始數(shù)據(jù)進(jìn)行篩選和整理后，建模數(shù)據(jù)的樣本容量為1115，其中正常銀行769家，異常銀行346家。設(shè)定因變量非隨機(jī)缺失的比例為30%，將潛在變量標(biāo)準(zhǔn)化，令，Z0.3是Z的30%分位數(shù)，當(dāng) Zi＜Z0.3時(shí)，第 i家銀行經(jīng)營(yíng)狀態(tài)缺失(τi=0)。因?yàn)槿笔顩r根據(jù)ε的隨機(jī)性而不同，故重復(fù)此缺失機(jī)制100次。結(jié)合BankScope數(shù)據(jù)庫(kù)中的真實(shí)數(shù)據(jù)，建立半?yún)?shù)模型、Logit模型、SVM模型和決策樹(shù)模型，計(jì)算各類(lèi)分類(lèi)評(píng)價(jià)指標(biāo)的均值，結(jié)果見(jiàn)表2。

表2 實(shí)證結(jié)果

結(jié)合銀行真實(shí)數(shù)據(jù)的實(shí)證研究結(jié)果表明，當(dāng)缺失機(jī)制不是由Logit分布或正態(tài)分布決定時(shí)，半?yún)?shù)模型的召回率、G均值、F1得分、F2得分在四個(gè)模型中仍最大，分類(lèi)效果最佳，這說(shuō)明半?yún)?shù)模型對(duì)于更復(fù)雜的非隨機(jī)缺失機(jī)制具有良好的適應(yīng)性。相比之下，由于缺失機(jī)制分布的改變，決策樹(shù)模型的分類(lèi)效果明顯優(yōu)于Logit模型和SVM模型。

4 結(jié)論

本文主要應(yīng)用基于指數(shù)傾向的半?yún)?shù)模型解決非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題，引用均值泛函的半?yún)?shù)方法估計(jì)樣本屬于某一類(lèi)別的概率。模擬研究表明，與Logit模型、SVM模型、決策樹(shù)模型相比，本文的半?yún)?shù)方法對(duì)于隨機(jī)缺失樣本的分類(lèi)效果欠佳，但在處理非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題上有明顯優(yōu)勢(shì)，對(duì)處理非隨機(jī)缺失問(wèn)題具有針對(duì)性。實(shí)證研究表明，半?yún)?shù)模型對(duì)處理實(shí)際問(wèn)題中非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題同樣具有適用性。

由于模型中使用了核函數(shù)建模，當(dāng)樣本容量過(guò)小或數(shù)據(jù)中有異常值時(shí)，分類(lèi)效果可能會(huì)受到影響。在本文的研究中，協(xié)變量均為數(shù)值型變量，協(xié)變量間相互獨(dú)立，并未對(duì)模型中的特征選擇問(wèn)題進(jìn)行研究。在未來(lái)的研究中，可以考慮協(xié)變量為定性變量且協(xié)變量間相關(guān)的情況，討論適合非隨機(jī)缺失樣本分類(lèi)的半?yún)?shù)模型的特征選擇方法，并將二分類(lèi)模型向多分類(lèi)模型拓展。

參考文獻(xiàn)：

[1]Rubin D B.Inference and Missing Data[J].Biometrika,1976,(63).

[2]Graham J W，Donaldson S I.Evaluating Interventions With Differential Attrition:The Importance of Nonresponse Mechanisms and Use of Follow-up Data[J].Journal of Applied Psychology,1993,(78).

[3]Heckman J J.Sample Selection Bias as a Specification Error[J].Econometrica,1979,(47).

[4]Banasik J,Crook J.Reject Inference,Augmentation and Sample Selection[J].Eur J Opl Res,2007,(183).

[5]Kim J K，Yu L C.A Semi-parametric Estimation of Mean Functionals With Non-ignorable Missing Data[J].Journal of the American Statistical Association,2011，(106).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡