国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于證據(jù)權(quán)重及信息價值篩選的信用卡透支風(fēng)險檢測模型的建構(gòu)

2020-12-01 00:32:48徐公偉
宿州學(xué)院學(xué)報 2020年10期
關(guān)鍵詞:比率信用卡權(quán)重

謝 軍,徐公偉

宿州學(xué)院商學(xué)院,安徽宿州,234000

透支是信用卡的常見形式,也是人們選擇使用信用卡的重要原因,可促進信用卡市場發(fā)展。近年來人們對生活質(zhì)量要求的提高,加上信用卡發(fā)行機構(gòu)之間市場份額的競爭,信用卡透支現(xiàn)象較為普遍,但透支逾期不還現(xiàn)象也頻發(fā)。在司法實踐中,信用卡借款過期無法歸還擾亂了市場金融秩序[1],由此產(chǎn)生的糾紛雖不應(yīng)認定為詐騙罪,但應(yīng)通過民事訴訟途徑解決或貸款詐騙類犯罪追究刑事責(zé)任[2]。由于信用卡借款存在一定透支風(fēng)險,有必要運用信貸管理中的技術(shù)手段預(yù)先評估持卡人的信用狀況。

針對網(wǎng)絡(luò)借貸客戶的相關(guān)信息,劉志惠等[3]使用XGBoost機器學(xué)習(xí)模型,陳戰(zhàn)勇[4]篩選出特征信息后使用邏輯回歸模型,預(yù)測個人信用風(fēng)險準(zhǔn)確率分別為77.16%和82.10%。機器學(xué)習(xí)模型的預(yù)測準(zhǔn)確率顯著高于傳統(tǒng)回歸模型,尤其隨機森林、決策樹算法相較于傳統(tǒng)邏輯回歸模型準(zhǔn)確率高,但模型的可解釋性不強而且存在過擬合的問題。

利用證據(jù)權(quán)重方法測度信用風(fēng)險,甘信軍等[5]定量刻畫了商業(yè)銀行客戶的違約概率,違約客戶辨識率為88%。肖龍階等[6]結(jié)合證據(jù)權(quán)重和邏輯回歸針對個人網(wǎng)貸評估了其信用風(fēng)險,預(yù)測準(zhǔn)確率為86.45%,但僅研究1 382筆貸款數(shù)據(jù),難以說明其方法的有效性。

從借款人信息角度考慮,Herzenstein等[7]認為,借款人信用狀況、個人背景對能否如期還款有顯著影響。廖理等[8]使用Probit模型研究認為借貸個人學(xué)歷水平越高,客戶違約風(fēng)險越低。

個人財務(wù)狀況直接影響著借款人的還款能力,財務(wù)狀況越差,意味著借款人無法按時還款的可能性越大,本文利用持卡人特征、信用歷史記錄、交易記錄等信息進行系統(tǒng)分析,挖掘數(shù)據(jù)蘊含的行為模式、信用特征,構(gòu)建透支風(fēng)險的檢測模型。如果檢測持卡人的透支風(fēng)險在發(fā)行機構(gòu)所設(shè)定的界限以內(nèi),則借貸申請?zhí)幱诳山邮艿娘L(fēng)險水平并將被批準(zhǔn);否則將拒絕或給予標(biāo)示以便進一步審查。本文將在完成證據(jù)權(quán)重理論推導(dǎo)后,量化評估信用卡的透支風(fēng)險,為個人信貸提供可靠的風(fēng)險檢測方法。

1 數(shù)據(jù)來源及相關(guān)指標(biāo)

信用卡透支檢測相關(guān)的案例較少,考慮商業(yè)數(shù)據(jù)的敏感性,數(shù)據(jù)來源于美國數(shù)據(jù)挖掘與預(yù)測的“kaggle”競賽,該競賽在線提供了Give Me Some Credit訓(xùn)練數(shù)據(jù)共計約15萬條,測試數(shù)據(jù)43 607條。該原始數(shù)據(jù)屬于個人消費類貸款,從可實施信用測評的角度考查,具體指標(biāo)如表1所示。

將透支數(shù)據(jù)與交易數(shù)據(jù)相匹配,透支賬戶在透支期間(第一次透支日到被發(fā)現(xiàn)之日)之間的所有記錄即為透支使用;對非透支賬戶,其所有使用即為非透支性使用[9]。透支賬戶在第一次透支日之前的正常使用只為透支賬戶建立檔案,信用卡這些正常使用作為非透支性使用也進入建模樣本[10]。通過跟蹤信用卡賬戶的歷史數(shù)據(jù),可以提煉賬戶的使用行為模式[11]。如果當(dāng)前的使用與歷史行為模式差別較大,則透支的可能性較大;判斷當(dāng)前的這筆是否可能透支,需要將當(dāng)前的信息與建立的評分模型對比,相差越大則透支的可能越大[12-13]。

表1 數(shù)據(jù)的指標(biāo)

2 數(shù)據(jù)預(yù)處理

x5、x10分別表示月收入和家庭人數(shù)指標(biāo)的有效數(shù)據(jù)量,經(jīng)過缺失值處理發(fā)現(xiàn),月收入共缺失29 731個值,家庭人數(shù)缺失3 924個值。這種情況在現(xiàn)實中很普遍,為使后續(xù)的分析方法得以正常應(yīng)用,需要進行缺失值處理。其中,月收入指標(biāo)缺失率較大,采用隨機森林法(Random Forest),根據(jù)指標(biāo)之間的相關(guān)關(guān)系填補缺失值。采用python的pearson相關(guān)系數(shù)計算各變量間的相關(guān)性,各變量間相關(guān)性較小,共線性可能性小(表2)。

表2 多變量的相關(guān)性

3 相關(guān)假設(shè)與證據(jù)權(quán)重的理論推導(dǎo)

為將上述數(shù)據(jù)轉(zhuǎn)化為證據(jù)權(quán)重,假設(shè)x是類別變量或分箱處理過的連續(xù)變量,含R個類別或分段,取值于樣本集{C1,…,Cr,…,CR};y是目標(biāo)變量,取值為0(Good)或1(Bad)。定義變量x第r類的證據(jù)權(quán)重WOE為:

因此WOE有監(jiān)督的方法,可以將計算變量x的WOE看作是x擬合y的優(yōu)化過程,則證據(jù)權(quán)重WOE關(guān)于x的函數(shù)寫作:

WOE(x)=δ1WOE1+δ2WOE2+…+δrWOEr+…+δRWOER

其中,δ1,…,δR是二元虛擬變量,如果變量x取第r類,則δr=1或0。

通過以上定義和假設(shè)可知,證據(jù)權(quán)重WOE是變量x第r類中Bad與Good的比率與整個樣本中Bad與Good的比率之比的對數(shù)值,其是衡量第r類對Bad和Good的比率的影響程度。當(dāng)WOE等于0時,表示該類別中Bad與Good的比率與整體樣本中Bad與Good的比率相等,說明該類別完全沒有區(qū)分度;當(dāng)WOE大于0時,表示該類別中Bad與Good的比率大于整體樣本中Bad與Good的比率,說明第r類Bad和Good的比率的影響程度大;當(dāng)WOE小于0時,表示該類別中Bad與Good的比率小于整體樣本中Bad與Good的比率,說明第r類Bad和Good的比率的影響程度小。

下面根據(jù)證據(jù)權(quán)重WOE的定義建立信用卡透支風(fēng)險檢測的模型函數(shù):

其對數(shù)損失函數(shù)可定義為:

l(y,p)=-ylnp-(1-y)ln(1-p)

=yln(1+e-f(x))-(1-y)(-f(x)-ln(1+e-f(x)))

=(1-y)f(x)+ln(1+e-f(x))

=(1-y)(WOE(x)+b)+ln(1+e-WOE(x)+b)

則整體樣本的損失函數(shù)L記為:

ln(1+e-(WOE(xi)+b))]

ln(1+e-(WOE(xi)+b))]

ln(1+e-(WOEr+b))]

其中,Ir={i|xi=cr}為x的樣本集,i=1,2,…,10。因此,WOE是使損失最小化的編碼方式,計算WOE就是一次單變量建模過程,得到的WOE值使損失最小,即信息損失最小。常數(shù)b的不同取值會產(chǎn)生不同的WOE編碼值,但不影響WOE編碼的效果。由前述的推導(dǎo)可知,經(jīng)過WOE編碼后的單變量擬合邏輯回歸模型將得到變量系數(shù)為1,截距項為b。

下面令損失函數(shù)L(y,p)的計算損失最小,即令整體樣本的損失函數(shù)L關(guān)于WOEr的偏導(dǎo)數(shù)為0。

=0

4 透支風(fēng)險的檢測模型

信用卡評分模型的分組操作常用等距分段、等深分段和最優(yōu)分段三種,本文采用最優(yōu)分段。定義信息價值函數(shù)(IV,Information Value)

IVi=(pyi-pni)*WOEi

是衡量第i個自變量xi的預(yù)測能力,則整個檢測系統(tǒng)的信息價值函數(shù)IV=sum(IVi),i=1,…,10。從經(jīng)驗上看,過高的信息價值(IV)可能有潛在的風(fēng)險,而且自變量分組越細,信息價值IV越高。

信息價值IV的預(yù)測能力:<0.05,無預(yù)測能力;0.05~0.09,低;0.10~0.39,中等;>0.40,高。通過以上各變量的樣本值分組后計算得到各分組的WOE值,其中貸款利用情況x1與年齡x2的WOE如表3所示。

表3 貸款利用情況x1與年齡x2的證據(jù)權(quán)重

(續(xù)表)

由各變量WOE值進一步計算每個變量的信息價值(IV),確定各自變量的預(yù)測能力(表4)。

表4 各自變量的信息價值

由于構(gòu)建評分檢測模型需要參照多種變量,有些變量預(yù)測能力強,有些能力弱,如果不篩選會影響檢測效率。而且,變量的子集(分組)之間很可能高度相關(guān),造成“過擬合”,將影響模型的準(zhǔn)確性、可靠性,在測試樣本檢測效果佳但由于訓(xùn)練過度,造成推廣至新樣本效果反而不佳[14]。因此有必要對以上自變量進行刪選,這里的相關(guān)性分析只是初步檢測,進一步檢測的信息價值IV作為篩選變量的依據(jù)。

本文選取邏輯回歸模型對因變量預(yù)測分析,屬于廣義線性回歸模型,表達簡單、預(yù)測能力有限。將單變量分組之后,每個變量具有單獨的權(quán)重,這相當(dāng)于為模型引入了非線性的變量,提升了模型的表達能力、預(yù)測精度,同時也降低了模型過擬合風(fēng)險。

當(dāng)IV值<0.1時,預(yù)測能力較弱,不帶入模型進行擬合,故剔除負債比例、月收入、財產(chǎn)狀況、貸款額度和家庭人數(shù)這5個變量,留下貸款利用情況、年齡、30天未還、90天未還、60天未還這5個變量。

在邏輯回歸模型中,用優(yōu)質(zhì)客戶與違約客戶發(fā)生比率的對數(shù)表示為各變量的線性關(guān)系。信用卡評分模型用來評估信用卡持卡人是否會在未來出現(xiàn)90天逾期未還的現(xiàn)象,評分根據(jù)各變量的分配分數(shù)是WOE乘該變量的回歸系數(shù),加上回歸截距offset再乘比例因子factor,即各變量的分配分數(shù)相加就得到了信用評分。

邏輯回歸模型:Logit=log(優(yōu)質(zhì)客戶數(shù)/違約客戶數(shù))

信用評分:Score=offset+factor(WOE×b)

計算得到邏輯回歸模型的模型及其系數(shù):

y=9.738 849 + 0.638 002x1+ 0.505 995x2+ 1.032 246x3+ 1.790 041x7+1.131 956x9。

計算結(jié)果顯示觀測數(shù)據(jù)量101 747條,偽R2=0.239 7,其余如表5所示。

表5 邏輯回歸的結(jié)果

邏輯回歸的擬合結(jié)果顯示誤差較小,有泛化性能,各變量系數(shù)通過顯著性檢驗,各變量與是否違約之間有顯著關(guān)系,滿足要求。最后使用計算信用評分AUC值為0.85,說明檢測方法真實性較高,正確率較高,信用卡評分模型的預(yù)測效果較佳。

5 結(jié) 語

本文按數(shù)據(jù)的預(yù)處理、選擇變量、建模分析的步驟建立了信用評分機制。根據(jù)該信用評分機制,銀行可以從持卡人的信貸經(jīng)歷,即貸款利用情況、兩年內(nèi)逾期還款次數(shù)考查持卡人透支信用卡的風(fēng)險。這樣構(gòu)建的評分檢測模型可幫助銀行及時發(fā)現(xiàn)異常賬戶,及時發(fā)現(xiàn)透支風(fēng)險,避免金融損失,對惡意透支的用戶發(fā)出預(yù)警信息,促使用戶適度消費,同時這種機制也可以用來幫助持卡人做出最佳財務(wù)決策。

猜你喜歡
比率信用卡權(quán)重
一類具有時滯及反饋控制的非自治非線性比率依賴食物鏈模型
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重擔(dān)當(dāng)
信用卡資深用戶
基于公約式權(quán)重的截短線性分組碼盲識別方法
信用卡詐騙
辦信用卡透支還債夫妻均獲刑10年
公民與法治(2016年6期)2016-05-17 04:10:39
一種適用于微弱信號的新穎雙峰值比率捕獲策略
“人卡分離”時信用卡惡意透支的刑事責(zé)任及思考
層次分析法權(quán)重的計算:基于Lingo的數(shù)學(xué)模型
河南科技(2014年15期)2014-02-27 14:12:51
镶黄旗| 洛隆县| 张家港市| 辉县市| 滁州市| 平塘县| 睢宁县| 儋州市| 称多县| 平度市| 垣曲县| 寿宁县| 拉萨市| 广灵县| 江津市| 临沧市| 拜城县| 芜湖县| 抚顺市| 翁牛特旗| 漾濞| 襄汾县| 和平区| 汾西县| 于田县| 宁强县| 隆回县| 赤城县| 宜宾市| 辽阳市| 镇安县| 分宜县| 贵德县| 扬中市| 随州市| 阜康市| 西丰县| 东至县| 唐海县| 咸阳市| 贡觉县|