国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于半?yún)?shù)估計(jì)的非隨機(jī)缺失樣本分類(lèi)

2018-05-11 07:36:53夏利宇劉賽可
統(tǒng)計(jì)與決策 2018年8期
關(guān)鍵詞:因變量情形均值

夏利宇,王 蕾,劉賽可

(中國(guó)人民大學(xué) 應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,北京100872)

0 引言

因變量非隨機(jī)缺失在統(tǒng)計(jì)應(yīng)用領(lǐng)域較為常見(jiàn),例如信用評(píng)級(jí)領(lǐng)域的拒絕推斷難題、市場(chǎng)營(yíng)銷(xiāo)中無(wú)偏好客戶(hù)的不響應(yīng)問(wèn)題、微觀調(diào)查中敏感問(wèn)題的無(wú)回答現(xiàn)象等。實(shí)踐中,相比樣本中的完備數(shù)據(jù),人們對(duì)非隨機(jī)缺失數(shù)據(jù)分析更感興趣,例如預(yù)測(cè)貸款客戶(hù)違約概率、不響應(yīng)客戶(hù)的消費(fèi)偏好、無(wú)回答者的真實(shí)特征,這可以拓展業(yè)務(wù)領(lǐng)域和研究范圍,往往能成為創(chuàng)造經(jīng)濟(jì)利益和解答關(guān)鍵問(wèn)題的途徑。學(xué)界中,非隨機(jī)缺失問(wèn)題因?yàn)闃颖镜膭h失結(jié)構(gòu)破壞了其他完備樣本對(duì)總體的代表性,進(jìn)而導(dǎo)致參數(shù)估計(jì)的有偏與非一致而受到普遍關(guān)注。引入數(shù)據(jù)缺失機(jī)制來(lái)預(yù)測(cè)非隨機(jī)缺失樣本的特征,解決樣本代表性偏差帶來(lái)的問(wèn)題,探尋效果優(yōu)良的統(tǒng)計(jì)模型對(duì)非隨機(jī)缺失數(shù)據(jù)分析至關(guān)重要。

Rubin(1976)[1]根據(jù)因變量和自變量對(duì)因變量缺失的影響,將缺失機(jī)制分為隨機(jī)缺失(MAR)、完全隨機(jī)缺失(MCAR)和非隨機(jī)缺失(MNAR)三類(lèi)。在MAR和MCAR情況下,因變量缺失與其自身無(wú)關(guān),可以直接刪除含缺失數(shù)據(jù)的樣本推斷總體性質(zhì);而在MNAR情況下,因變量缺失與其自身有關(guān),建模時(shí)必須考慮數(shù)據(jù)的缺失機(jī)制。Graham和Donaldson(1993)[2]證明,直接刪除非隨機(jī)缺失樣本建模將導(dǎo)致參數(shù)估計(jì)的有偏與非一致,填補(bǔ)非隨機(jī)數(shù)據(jù)后,建模效果將顯著提升。Heckman(1979)[3]提出了處理因變量非隨機(jī)缺失的Heckman兩步法,通過(guò)兩個(gè)Probit模型還原了樣本選擇過(guò)程和結(jié)果發(fā)生過(guò)程,該方法思路清晰,但在實(shí)際應(yīng)用中效果不佳。Banasik和Crook(2007)[4]詳細(xì)說(shuō)明了處理非隨機(jī)缺失問(wèn)題的擴(kuò)張法,該方法因假定缺失數(shù)據(jù)與非缺失數(shù)據(jù)具有相同的數(shù)據(jù)分布而無(wú)法得到學(xué)界的廣泛認(rèn)可。

本文將借鑒Kim和Yu(2011)[5]非隨機(jī)缺失數(shù)據(jù)均值泛函估計(jì)的思想,將其一元核函數(shù)拓展成多元核函數(shù),運(yùn)用基于指數(shù)傾斜的半?yún)?shù)模型預(yù)測(cè)樣本屬于各類(lèi)的發(fā)生概率,解決MNAR情形下的樣本二分類(lèi)問(wèn)題。

1 研究方法

1.1 非隨機(jī)數(shù)據(jù)的半?yún)?shù)估計(jì)模型

非隨機(jī)缺失數(shù)據(jù)均值泛函的半?yún)?shù)估計(jì)方法因其非參數(shù)部分而具有穩(wěn)健性,結(jié)合實(shí)際應(yīng)用的要求,本文將其模型中一元協(xié)變量的設(shè)定調(diào)整為多元協(xié)變量。

(x1i,…,xpi,yi),i=1,…,n 是隨機(jī)變量 (X1,…,Xp,Y)的樣本,其中,yi是可能缺失的因變量,(x1i,…,xpi)是總可以被觀測(cè)到的協(xié)變量,n為樣本容量,p為協(xié)變量個(gè)數(shù)。τi是示性函數(shù),服從響應(yīng)概率為πi(x1i,…,xpi,yi)的Bernoulli分布,當(dāng) τi=1 時(shí),yi可觀測(cè),當(dāng) τi=0 時(shí),yi缺失。τi=1時(shí),yi的條件密度是時(shí),yi的條件密度是 f0(yi|x1i,…,xpi)。 K(?)是核密度函數(shù),其窗寬是h,滿(mǎn)足當(dāng)n→∞時(shí),h→0,nh→∞。本文中采用高斯核密度函數(shù),其最優(yōu)窗寬為h=xn-1/(p+4),x為 xi的標(biāo)準(zhǔn)差。

當(dāng)πi與 yi獨(dú)立時(shí),缺失機(jī)制是MAR,此時(shí):

當(dāng)πi與 yi相關(guān)時(shí),缺失機(jī)制是MNAR,此時(shí)的條件密度關(guān)系為:

其中,O(x1i,…,xpi,yi)是優(yōu)勢(shì)比函數(shù),形式為:

假定響應(yīng)概率πi來(lái)自服從Logit分布的半?yún)?shù)模型,即:

進(jìn)而式(2)條件密度關(guān)系可以表示為:

式(6)稱(chēng)為指數(shù)傾斜模型,γ為傾斜參數(shù),表明非隨機(jī)缺失機(jī)制對(duì)隨機(jī)缺失機(jī)制的偏離程度。在實(shí)際問(wèn)題中,γ一般未知,可通過(guò)獨(dú)立調(diào)查或驗(yàn)證樣本來(lái)估計(jì)。

對(duì)于可觀測(cè)的樣本,其非參數(shù)估計(jì)m1(x1i,…,xpi)=可通過(guò)最小化式(7)求得其估計(jì)值,其中是權(quán)重。

可以證明:

可以證明:

基于指數(shù)傾斜的半?yún)?shù)模型在估計(jì)中引入了因變量非隨機(jī)缺失的機(jī)制,借助非參數(shù)模型兼具靈活性和可解釋性的優(yōu)勢(shì),以廣義非參數(shù)模型估計(jì)傾斜參數(shù)γ,獲得因變量均值的一致估計(jì)。可以利用式(11)獲得τi=0時(shí) yi的估計(jì)值。結(jié)合式(11),當(dāng) yi是二分類(lèi)變量時(shí),yi=1的預(yù)測(cè)概率為,yi=0的預(yù)測(cè)概率為1-,當(dāng)>0.5 時(shí),可預(yù)測(cè)樣本屬于 yi=1 的一類(lèi),反之屬于yi=0的一類(lèi)。

1.2 分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于非隨機(jī)缺失數(shù)據(jù)的二分類(lèi)問(wèn)題,不同類(lèi)別的誤判成本往往存在較大差別,例如信用評(píng)級(jí)中誤判違約客戶(hù)的成本大于誤判履約客戶(hù)的成本,因此,在二分類(lèi)模型優(yōu)劣的評(píng)價(jià)中僅僅考慮整體分類(lèi)精度是不夠的,需要根據(jù)誤判成本差異同時(shí)參考其他評(píng)價(jià)指標(biāo)。本文考察分類(lèi)模型的精度(Accuracy)、召回率call(Recall)、準(zhǔn)確率(Precision)、G 均值(G_mean)、Fβ得分(Fβ_Score):

其中,TP、TN、FP、FN分別是混淆矩陣中的真正、真負(fù)、假正、假負(fù)。Accuracy表示模型正確預(yù)測(cè)非隨機(jī)缺失樣本的比例,Recall表示所有高誤判代價(jià)樣本被正確預(yù)測(cè)的比例,Precision表示被正確預(yù)測(cè)為高誤判代價(jià)樣本的比例,G_mean表示高誤判代價(jià)樣本和低誤判代價(jià)樣本被正確預(yù)測(cè)比例的幾何平均數(shù),F(xiàn)β_Score表示由參數(shù)β調(diào)整指標(biāo)Recall和Precision的組合,β反應(yīng)指標(biāo)的相對(duì)重要性。本文對(duì)模型優(yōu)劣的判斷主要依據(jù)Recall、G_mean、F1_Score和 F2_ScoreFβ_Score。

2 數(shù)值模擬

情形1:

情形2:

情形3:

情形4:

情形5:

情形6:

情形7:

情形8:

其中,Φ(?)是標(biāo)準(zhǔn)正態(tài)分布的累積密度函數(shù)。以上8類(lèi)因變量缺失情形中,情形1是隨機(jī)缺失,其他情形是非隨機(jī)缺失。設(shè)定樣本容量n=1000,每類(lèi)缺失情形重復(fù)模擬100次,以消除隨機(jī)性。半?yún)?shù)模型中γ的估計(jì),首先利用可觀測(cè)數(shù)據(jù)建立非參數(shù)模型,粗略估計(jì)非隨機(jī)缺失樣本的分類(lèi)插補(bǔ)到原始數(shù)據(jù)中構(gòu)成完備數(shù)據(jù),然后根據(jù)式(4),利用完備數(shù)據(jù)建立廣義半?yún)?shù)模型,得到參數(shù)估計(jì)值為對(duì)比半?yún)?shù)模型的分類(lèi)效果,本文同時(shí)建立Logit模型、SVM模型和決策樹(shù)模型對(duì)非隨機(jī)缺失樣本進(jìn)行分類(lèi),計(jì)算模型在各類(lèi)缺失情形下評(píng)價(jià)指標(biāo)的均值,數(shù)值模擬結(jié)果如表1。

當(dāng)樣本隨機(jī)缺失(情形1)時(shí),半?yún)?shù)模型的召回率和F1得分在四個(gè)模型中最大,但其G均值和F2得分僅優(yōu)于決策樹(shù)模型,預(yù)測(cè)精度不及Logit模型和SVM模型,半?yún)?shù)模型的分類(lèi)效果沒(méi)有顯著優(yōu)勢(shì)。當(dāng)樣本非隨機(jī)缺失(情形2—情形8)時(shí),半?yún)?shù)模型的精度、召回率、G均值、F1得分在四個(gè)模型中最大,除情形3和情形5外,其F2得分在四個(gè)模型中也最大,半?yún)?shù)模型的分類(lèi)效果明顯優(yōu)于其他其他三個(gè)模型。在情形3和情形5中,由于決定π的模型中有平方項(xiàng)X32和交互項(xiàng)X2Z,他們提升了協(xié)變量X對(duì)π的影響,降低了潛變量Z對(duì)π的影響,在此二類(lèi)情形下,半?yún)?shù)模型的F2得分低于Logit模型。綜合各類(lèi)非隨機(jī)缺失情形的指標(biāo)值,除本文的半?yún)?shù)模型外,Logit模型的分類(lèi)效果優(yōu)于SVM模型和決策樹(shù)模型,這可能是非隨機(jī)缺失的機(jī)制設(shè)計(jì)上假定響應(yīng)概率服從Logit分布或正態(tài)分布。模擬研究表明,本文的半?yún)?shù)模型并不適合因變量隨機(jī)缺失情形下樣本的分類(lèi),但該模型是處理非隨機(jī)缺失樣本分類(lèi)的有效方法。

表1 數(shù)值模擬結(jié)果

3 實(shí)證

實(shí)證數(shù)據(jù)來(lái)源于 BankScope數(shù)據(jù)庫(kù),它是 BνD(Bureau νan Dijk)與評(píng)級(jí)機(jī)構(gòu)惠譽(yù)(FitchRatings)合作開(kāi)發(fā)的銀行信息數(shù)據(jù)庫(kù),提供全球主要銀行及重要金融機(jī)構(gòu)的經(jīng)營(yíng)與信用數(shù)據(jù)。本文的研究?jī)?nèi)容是通過(guò)銀行的主要財(cái)務(wù)指標(biāo)對(duì)銀行經(jīng)營(yíng)狀態(tài)非隨機(jī)缺失的樣本進(jìn)行分類(lèi),將經(jīng)營(yíng)狀態(tài)分為“正?!?Y=1)和“異?!?Y=0)二類(lèi),“正常”指銀行當(dāng)前正在經(jīng)營(yíng),“異?!敝搞y行撤并、解散或倒閉等。協(xié)變量選擇總資本比率(X1)、貸款損失準(zhǔn)備金/貸款總額(X2)、股東權(quán)益/總資產(chǎn)(X3)三個(gè)指標(biāo)。決定其是否缺失的潛在變量選擇存款及短期資金(T1)、所有者權(quán)益(T2)、凈利息收益率(T3)。

對(duì)原始數(shù)據(jù)進(jìn)行篩選和整理后,建模數(shù)據(jù)的樣本容量為1115,其中正常銀行769家,異常銀行346家。設(shè)定因變量非隨機(jī)缺失的比例為30%,將潛在變量標(biāo)準(zhǔn)化,令,Z0.3是Z的30%分位數(shù),當(dāng) Zi<Z0.3時(shí),第 i家銀行經(jīng)營(yíng)狀態(tài)缺失(τi=0)。因?yàn)槿笔顩r根據(jù)ε的隨機(jī)性而不同,故重復(fù)此缺失機(jī)制100次。結(jié)合BankScope數(shù)據(jù)庫(kù)中的真實(shí)數(shù)據(jù),建立半?yún)?shù)模型、Logit模型、SVM模型和決策樹(shù)模型,計(jì)算各類(lèi)分類(lèi)評(píng)價(jià)指標(biāo)的均值,結(jié)果見(jiàn)表2。

表2 實(shí)證結(jié)果

結(jié)合銀行真實(shí)數(shù)據(jù)的實(shí)證研究結(jié)果表明,當(dāng)缺失機(jī)制不是由Logit分布或正態(tài)分布決定時(shí),半?yún)?shù)模型的召回率、G均值、F1得分、F2得分在四個(gè)模型中仍最大,分類(lèi)效果最佳,這說(shuō)明半?yún)?shù)模型對(duì)于更復(fù)雜的非隨機(jī)缺失機(jī)制具有良好的適應(yīng)性。相比之下,由于缺失機(jī)制分布的改變,決策樹(shù)模型的分類(lèi)效果明顯優(yōu)于Logit模型和SVM模型。

4 結(jié)論

本文主要應(yīng)用基于指數(shù)傾向的半?yún)?shù)模型解決非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題,引用均值泛函的半?yún)?shù)方法估計(jì)樣本屬于某一類(lèi)別的概率。模擬研究表明,與Logit模型、SVM模型、決策樹(shù)模型相比,本文的半?yún)?shù)方法對(duì)于隨機(jī)缺失樣本的分類(lèi)效果欠佳,但在處理非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題上有明顯優(yōu)勢(shì),對(duì)處理非隨機(jī)缺失問(wèn)題具有針對(duì)性。實(shí)證研究表明,半?yún)?shù)模型對(duì)處理實(shí)際問(wèn)題中非隨機(jī)缺失樣本的二分類(lèi)問(wèn)題同樣具有適用性。

由于模型中使用了核函數(shù)建模,當(dāng)樣本容量過(guò)小或數(shù)據(jù)中有異常值時(shí),分類(lèi)效果可能會(huì)受到影響。在本文的研究中,協(xié)變量均為數(shù)值型變量,協(xié)變量間相互獨(dú)立,并未對(duì)模型中的特征選擇問(wèn)題進(jìn)行研究。在未來(lái)的研究中,可以考慮協(xié)變量為定性變量且協(xié)變量間相關(guān)的情況,討論適合非隨機(jī)缺失樣本分類(lèi)的半?yún)?shù)模型的特征選擇方法,并將二分類(lèi)模型向多分類(lèi)模型拓展。

參考文獻(xiàn):

[1]Rubin D B.Inference and Missing Data[J].Biometrika,1976,(63).

[2]Graham J W,Donaldson S I.Evaluating Interventions With Differential Attrition:The Importance of Nonresponse Mechanisms and Use of Follow-up Data[J].Journal of Applied Psychology,1993,(78).

[3]Heckman J J.Sample Selection Bias as a Specification Error[J].Econometrica,1979,(47).

[4]Banasik J,Crook J.Reject Inference,Augmentation and Sample Selection[J].Eur J Opl Res,2007,(183).

[5]Kim J K,Yu L C.A Semi-parametric Estimation of Mean Functionals With Non-ignorable Missing Data[J].Journal of the American Statistical Association,2011,(106).

猜你喜歡
因變量情形均值
調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
避免房地產(chǎn)繼承糾紛的十二種情形
四種情形拖欠勞動(dòng)報(bào)酬構(gòu)成“拒不支付”犯罪
公民與法治(2020年4期)2020-05-30 12:31:34
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
偏最小二乘回歸方法
均值不等式失效時(shí)的解決方法
出借車(chē)輛,五種情形下須擔(dān)責(zé)
公民與法治(2016年9期)2016-05-17 04:12:18
均值與方差在生活中的應(yīng)用
關(guān)于均值有界變差函數(shù)的重要不等式
對(duì)偶均值積分的Marcus-Lopes不等式
古浪县| 宾川县| 文登市| 蓝山县| 宁阳县| 蛟河市| 广州市| 鄂托克前旗| 青浦区| 项城市| 德令哈市| 宜阳县| 仁寿县| 中宁县| 张家港市| 襄樊市| 光山县| 钟祥市| 沛县| 宁德市| 抚松县| 讷河市| 井陉县| 班戈县| 天峨县| 鄂托克前旗| 涞源县| 讷河市| 客服| 丹棱县| 扎鲁特旗| 洪洞县| 江陵县| 银川市| 连江县| 天全县| 西青区| 黑河市| 泰兴市| 清河县| 镇巴县|