張瑜 廖長勇 王新軍
摘? ?要:本文基于商業(yè)銀行客戶信貸記錄數(shù)據(jù)集,通過運(yùn)用拉普拉斯分層模型對(duì)客戶的信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)研究。利用客戶群體存在差異化的特點(diǎn),采用XGBoost機(jī)器學(xué)習(xí)算法來選擇分層特征以及結(jié)合多元特征的組合形式來預(yù)測(cè)客戶的違約情況。在不同分層特征結(jié)構(gòu)下依次對(duì)比拉普拉斯分層模型、單獨(dú)模型、共同模型和隨機(jī)森林四個(gè)模型的預(yù)測(cè)效果,并建立模擬數(shù)據(jù)集來對(duì)拉普拉斯分層模型的性能進(jìn)行驗(yàn)證。研究發(fā)現(xiàn):(1)拉普拉斯分層模型的預(yù)測(cè)精度是最高的,預(yù)測(cè)性能具有穩(wěn)定性;(2)本文數(shù)據(jù)集所適用的最佳分層特征是貸款金額、年齡和婚姻;(3)分層特征的選擇和數(shù)量會(huì)依據(jù)不同數(shù)據(jù)而產(chǎn)生相應(yīng)變化,并非一成不變。結(jié)合本文的研究思路和結(jié)果,以期為商業(yè)銀行在客戶信用風(fēng)險(xiǎn)評(píng)估實(shí)踐中提供新的思考和建議。
關(guān)鍵詞:信用風(fēng)險(xiǎn);分層特征;拉普拉斯分層模型;XGBoost算法
中圖分類號(hào):F830.33? 文獻(xiàn)標(biāo)識(shí)碼:B? 文章編號(hào):1674-2265(2021)10-0055-06
DOI:10.19647/j.cnki.37-1462/f.2021.10.008
一、研究背景和意義
商業(yè)銀行在國民經(jīng)濟(jì)發(fā)展中扮演著重要角色,其信貸業(yè)務(wù)為擴(kuò)大消費(fèi)、推動(dòng)企業(yè)發(fā)展做出了巨大貢獻(xiàn)。隨著我國經(jīng)濟(jì)進(jìn)入新常態(tài),企業(yè)轉(zhuǎn)型壓力增大,經(jīng)營風(fēng)險(xiǎn)顯現(xiàn),導(dǎo)致企業(yè)信貸質(zhì)量明顯低于個(gè)人信貸。為此,各銀行對(duì)信貸業(yè)務(wù)結(jié)構(gòu)做出相應(yīng)調(diào)整,采取逐步擴(kuò)大個(gè)人信貸比重的策略。同時(shí),隨著大數(shù)據(jù)時(shí)代的來臨,銀行掌握著較大規(guī)模的客戶數(shù)據(jù),促使很多銀行更多地采用大數(shù)據(jù)處理技術(shù)和算法來加強(qiáng)自身業(yè)務(wù)的開展,并規(guī)避相應(yīng)的信貸風(fēng)險(xiǎn)。所以,在衡量客戶信用風(fēng)險(xiǎn)時(shí),大多數(shù)銀行也在嘗試找到一種更為高效的數(shù)據(jù)處理方法,為銀行風(fēng)險(xiǎn)評(píng)估、風(fēng)險(xiǎn)預(yù)測(cè)、是否接受貸款申請(qǐng)等提供決策依據(jù)。
然而,我國銀行業(yè)的發(fā)展相比國外起步較晚,在信用風(fēng)險(xiǎn)管理和控制領(lǐng)域尚不成熟,許多國外的模型方法嚴(yán)格意義上來講不太適用國內(nèi)的市場(chǎng)環(huán)境,因此,結(jié)合社會(huì)主義市場(chǎng)經(jīng)濟(jì)的特點(diǎn)進(jìn)行信用風(fēng)險(xiǎn)管控還需要進(jìn)一步探索和研究。大部分商業(yè)銀行對(duì)客戶信用進(jìn)行評(píng)估的方法主要有專家系統(tǒng)、信用評(píng)分和一些概率模型。本文從應(yīng)用的角度出發(fā),認(rèn)為與其他方法相比,采用XGBoost機(jī)器學(xué)習(xí)算法更為理想,即建立一種默認(rèn)的風(fēng)險(xiǎn)模型,對(duì)客戶進(jìn)行精準(zhǔn)分類,使建立的模型具有針對(duì)性強(qiáng)和準(zhǔn)確度高的特點(diǎn)。但是商業(yè)銀行在實(shí)際應(yīng)用中卻很難實(shí)現(xiàn),原因在于缺乏相關(guān)的分類標(biāo)準(zhǔn),也沒有統(tǒng)一的分類準(zhǔn)則作為參考,所以對(duì)客戶進(jìn)行分類的做法在實(shí)踐中存在很大的難度。在大量相關(guān)研究文獻(xiàn)中也沒有考慮怎樣去解決這一問題,而本文旨在尋找一種科學(xué)的方法以便有效地解決上述難題。
本文基于中國某商業(yè)銀行客戶信貸記錄數(shù)據(jù)集,運(yùn)用拉普拉斯分層模型對(duì)客戶信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)研究。本文主要貢獻(xiàn)在于:(1)利用商業(yè)銀行信貸客戶群體存在差異的特點(diǎn),采用XGBoost機(jī)器學(xué)習(xí)算法來選擇分層特征,并結(jié)合多元特征的組合形式來預(yù)測(cè)客戶的違約情況。在更高維數(shù)據(jù)下,運(yùn)用XGboost算法可以更高效、更快捷地選擇分層特征,為商業(yè)銀行在客戶信用風(fēng)險(xiǎn)評(píng)估的實(shí)踐中提供新的思路和方法。(2)在不同分層特征結(jié)構(gòu)下依次對(duì)比拉普拉斯分層模型、單獨(dú)模型、共同模型和隨機(jī)森林四個(gè)模型的預(yù)測(cè)效果,同時(shí)建立模擬數(shù)據(jù)集來對(duì)拉普拉斯分層模型的性能進(jìn)行驗(yàn)證。因此,本文研究結(jié)論更加穩(wěn)健可信,能為相關(guān)研究提供有益借鑒。
二、信用風(fēng)險(xiǎn)研究及評(píng)述
信用風(fēng)險(xiǎn)的研究并不是一個(gè)全新領(lǐng)域,早在20世紀(jì)60—70年代,學(xué)者們就從多個(gè)方面對(duì)其展開了研究,逐步提出了一些理論方法。例如,從應(yīng)用技術(shù)角度來看,依據(jù)一些專業(yè)人士的知識(shí)和經(jīng)驗(yàn)進(jìn)行風(fēng)險(xiǎn)評(píng)估并做出決策,俗稱專家系統(tǒng),其中應(yīng)用比較廣泛的就是5Cs系統(tǒng);對(duì)客戶的信用進(jìn)行評(píng)分,依據(jù)評(píng)分的等級(jí)進(jìn)行決策,這便是信用評(píng)分模型,也是應(yīng)用比較多的一種評(píng)估模型(Kazi,2016)[1];另外,結(jié)合經(jīng)濟(jì)金融領(lǐng)域的計(jì)量方法,運(yùn)用計(jì)量的理論結(jié)合金融知識(shí)對(duì)客戶進(jìn)行風(fēng)險(xiǎn)評(píng)估,開發(fā)了一系列的風(fēng)險(xiǎn)概率模型,如KMV、死亡率模型和生存分析方法等(Huang等,2010;Hassan等,2018;Duan等,2018)[2-4]。截至目前,隨著大數(shù)據(jù)技術(shù)深入人心,其廣泛的應(yīng)用和發(fā)展前景促使一些學(xué)者或工程人員開始運(yùn)用統(tǒng)計(jì)理論、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法來對(duì)客戶信用水平展開研究,如神經(jīng)網(wǎng)絡(luò)、邏輯回歸、遺傳算法、隨機(jī)森林以及超參數(shù)優(yōu)化和集成學(xué)習(xí)等方法(Yeh和Lien,2009;Ogundimu,2019;Gordini,2014;Uddin等,2020;王重仁和韓冬梅,2019)[5-9]。同時(shí),也有研究人員從銀行的內(nèi)外部風(fēng)險(xiǎn)環(huán)境、宏觀經(jīng)濟(jì)影響因素、數(shù)據(jù)分布特征、投資者異質(zhì)信念和上市公司的股價(jià)波動(dòng)等角度來對(duì)信用風(fēng)險(xiǎn)進(jìn)行量化和評(píng)估(Duan等,2018;Twum等,2021;Abusharbeh,2020;劉穎和唐毓蔓,2020;周壽彬,2016;單雙等,2020)[4,10-14]。個(gè)人客戶的信用風(fēng)險(xiǎn)評(píng)估大多也結(jié)合了上述的研究思路和方法模型。許多學(xué)者也相應(yīng)地做了一些研究,特別地,也采用了目前較為流行的一些統(tǒng)計(jì)理論和算法模型進(jìn)行研究。部分學(xué)者還利用特征衍生化、聯(lián)邦學(xué)習(xí)等來對(duì)個(gè)人信用水平進(jìn)行預(yù)測(cè)研究。這些研究從不同層面、依據(jù)不同方法和理論基礎(chǔ)做出了各自的貢獻(xiàn),推動(dòng)了信用風(fēng)險(xiǎn)研究工作的進(jìn)一步發(fā)展,為以后建立更為統(tǒng)一的風(fēng)險(xiǎn)模型提供了豐富的理論研究成果和參考價(jià)值。雖然對(duì)信用風(fēng)險(xiǎn)相關(guān)領(lǐng)域的研究數(shù)不勝數(shù),但依據(jù)數(shù)據(jù)特征將客戶進(jìn)行分層的想法在眾多研究文獻(xiàn)中很少涉及。與此同時(shí),客戶差異化的特點(diǎn)要求對(duì)客戶進(jìn)行分類,而分類的結(jié)果與新的技術(shù)和方法相結(jié)合就可以建立較為準(zhǔn)確的預(yù)測(cè)評(píng)估模型而非簡單地建立線性組合模型或者在一些傳統(tǒng)模型基礎(chǔ)上進(jìn)行適當(dāng)修正。
本文主要針對(duì)個(gè)人信用風(fēng)險(xiǎn)預(yù)測(cè)來開展研究工作,試圖尋找一種可以有效衡量個(gè)人客戶是否存在違約的評(píng)估方法,建立一套可行的方法論。因此,可以通過已經(jīng)獲得的商業(yè)銀行客戶信貸數(shù)據(jù),結(jié)合拉普拉斯分層模型對(duì)客戶信用進(jìn)行評(píng)估和預(yù)測(cè)分析(Tuck等,2021)[15]。先對(duì)客戶進(jìn)行分類,依據(jù)一些顯著的特征來對(duì)客戶進(jìn)行分組,將不同的客戶群體按照相似的特征屬性進(jìn)行劃分,進(jìn)而預(yù)測(cè)客戶是否存在違約的可能性,分組使得預(yù)測(cè)的準(zhǔn)確度會(huì)更高。然而,分組的標(biāo)準(zhǔn)并不唯一,它隨著數(shù)據(jù)結(jié)構(gòu)的變化而有所改變,但這并不會(huì)影響模型的效果。為了說明分層模型的優(yōu)劣,文中不僅與其他模型(隨機(jī)森林、共同模型和單獨(dú)模型)進(jìn)行了效果對(duì)比,而且通過過采樣解決了原始樣本標(biāo)簽類別不平衡的問題,從而建立了一個(gè)模擬數(shù)據(jù)集來檢驗(yàn)?zāi)P偷暮脡囊约笆欠窬哂蟹€(wěn)定性。最后,根據(jù)預(yù)測(cè)效果可以確定什么樣的分層特征是合適的,并據(jù)此建立相應(yīng)的分層模型來進(jìn)行信用預(yù)測(cè)。
三、變量選擇與模型設(shè)定
(一)變量介紹
本文所獲得的真實(shí)客戶信貸數(shù)據(jù)集包括3萬個(gè)客戶樣本數(shù)據(jù),合計(jì)24個(gè)特征變量,每個(gè)變量代表客戶的真實(shí)情況。由于客戶信息保密性的要求,無法獲取客戶的全部信息,但是絲毫不會(huì)影響方法的可行性。本文旨在說明運(yùn)用分層模型的方法有助于對(duì)客戶信用進(jìn)行更準(zhǔn)確的評(píng)估。本文建立的模擬數(shù)據(jù)集(4.6萬個(gè)客戶樣本數(shù)據(jù))也是在原始數(shù)據(jù)集基礎(chǔ)上產(chǎn)生的,通過對(duì)小樣本進(jìn)行過采樣得到,它的數(shù)據(jù)形式不變,只是與原始數(shù)據(jù)相比分布是不一樣的。表1詳細(xì)展示了數(shù)據(jù)的結(jié)構(gòu)及每個(gè)變量的含義和屬性。
從如何選擇分層特征的角度來看,依據(jù)數(shù)據(jù)的特征變量和違約情況,本文初步判斷貸款金額和年齡是先要考慮的因素。從貸款金額的分布圖(見圖1)可知,大多數(shù)客戶的貸款額度主要是小額信貸,基本上屬于個(gè)人和家庭消費(fèi)貸款。由于貸款的數(shù)額關(guān)系到客戶的還款意愿和能力,與之相關(guān)的有利息率、期限等因素。從整個(gè)客戶的貸款年齡情況看(見圖2),貸款客戶以中年人為主。30歲作為一個(gè)年齡界限,30歲之前的貸款需求是逐漸升高的,30歲以后的貸款需求逐漸降低。結(jié)合現(xiàn)實(shí)情況可以認(rèn)為,剛畢業(yè)的大學(xué)生在較長一段時(shí)期是依靠貸款來解決生活中的各種問題,隨著能力的提升和收入水平的不斷提高,貸款的需求自然會(huì)降低,因此,這種趨勢(shì)的變化可能會(huì)對(duì)違約的發(fā)生產(chǎn)生顯著的影響。所以綜上考慮將貸款金額和年齡作為分層特征是比較合適的。
(二)分層變量選擇
拉普拉斯分層模型的應(yīng)用需要預(yù)先設(shè)定分層特征變量,這是對(duì)樣本進(jìn)行分組的基礎(chǔ)。分組的目的是對(duì)樣本數(shù)據(jù)進(jìn)行精準(zhǔn)預(yù)測(cè),避免不同類型樣本之間互相干擾。分組的標(biāo)準(zhǔn)主要依據(jù)分層特征,從原始特征中進(jìn)行篩選,選取對(duì)最后分類結(jié)果顯著的特征變量作為分層變量。當(dāng)數(shù)據(jù)維度較低時(shí),通過專業(yè)的知識(shí)和經(jīng)驗(yàn)可以進(jìn)行初步選擇。但是面臨高維數(shù)據(jù)時(shí)更為提倡從數(shù)據(jù)本身的結(jié)構(gòu)、分布特點(diǎn)出發(fā)進(jìn)行選擇,解決人腦不能對(duì)數(shù)據(jù)進(jìn)行篩選的缺陷。因此,本文采用的分層變量的提取方法為XGBoost機(jī)器學(xué)習(xí)算法,它可以實(shí)現(xiàn)分類預(yù)測(cè),從數(shù)據(jù)內(nèi)部結(jié)構(gòu)、分布特點(diǎn)出發(fā)進(jìn)行特征選擇。因在其算法內(nèi)部已經(jīng)對(duì)所有變量進(jìn)行了排列和篩選,所以可以從中找出那些對(duì)分類結(jié)果顯著的變量,從而建立模型所需要的分層變量。
由于XGBoost算法是一種提升樹模型,因此,本文依次建立50棵、100棵、150棵和200棵樹模型,分別得到每種樹模型下的所有特征變量對(duì)最終分類結(jié)果的影響程度。根據(jù)四種不同樹模型下變量的貢獻(xiàn)度情況,依次將每種樹模型下前四個(gè)特征變量提取出來,出現(xiàn)頻率較高的特征變量有[f0](貸款金額)、[f4](年齡)和[f11](賬單金額),說明這三個(gè)特征變量對(duì)最終分類的貢獻(xiàn)較大,同時(shí)也說明先前對(duì)貸款金額和年齡進(jìn)行的圖表分析是合理的。因此,將這兩個(gè)特征變量作為后續(xù)分類預(yù)測(cè)重要的分層特征(見表2)。
(三)模型介紹
關(guān)注到一些數(shù)據(jù)具有([Z],[X],[Y])這種形式,通常情況下適用于分類預(yù)測(cè)和回歸。[Z]代表分層特征變量,是一種劃分的標(biāo)準(zhǔn)或依據(jù),一般[Z]可能由一個(gè)或者兩個(gè)及以上特征變量組成,如本文(貸款金額,年齡,賬單金額);[Y]代表預(yù)測(cè)的目標(biāo)值或者標(biāo)簽,是最終實(shí)現(xiàn)的回歸或分類的結(jié)果,分類時(shí)[Y]一般情況下至少有兩個(gè)標(biāo)簽;[X]是除了[Z]和[Y]以外的其他特征變量組成的特征矩陣,[X]的特征變量的數(shù)目不確定,可能很多,也可能為0。存在([zi],[xi],[yi])[∈]([Z],[X],[Y]),[i=1,…,k],它是每一層的特征值結(jié)構(gòu)變量。[zi∈]Z是Z中第[i]層的分層特征值;[xi∈X]是對(duì)應(yīng)第[i]層的向量矩陣;[yi∈Y]是第[i]層的標(biāo)簽數(shù)組。[k]是層數(shù),它等于[Z]的每一個(gè)特征變量下的特征值個(gè)數(shù)的乘積,[k]的數(shù)目意味著整個(gè)分層模型中層結(jié)構(gòu)的數(shù)量。為了準(zhǔn)確預(yù)測(cè),盡可能地?zé)o限接近標(biāo)簽值,使得誤差最小,模型中需要進(jìn)行正則化項(xiàng)來防止過擬合。
拉普拉斯分層模型的函數(shù)表達(dá)式為:
[l(θzi)=i=1kj=1m(li(xzi,yzi;θzi)j+r(θzi))+L(θzi)]? ?(1)
在表達(dá)式(1)中[l]代表著目標(biāo)損失函數(shù);[m]是第[i]層的樣本數(shù)量;[θzi]是第[i]層需要擬合的參數(shù),模型的訓(xùn)練過程就是不斷調(diào)整和優(yōu)化[θzi],使損失函數(shù)向0接近;r是一種局部正則化,對(duì)參數(shù)進(jìn)行懲罰;[L]是拉普拉斯正則化,從整體出發(fā)對(duì)參數(shù)進(jìn)行懲罰。
局部損失函數(shù)[li]的表達(dá)式為:
[li(xzi,yzi;θzi)j=yziloghθzixzi+1-yzilog1-hθzixzi,i=1,…,k]? ? ? (2)
局部損失函數(shù)表達(dá)式(2)中的h是sigmoid函數(shù)的形式,即有[hθzixzi=11+e-θTzixzi]。由于本文的預(yù)測(cè)目標(biāo)值是典型的二分類問題,因此,將邏輯回歸損失函數(shù)作為局部損失函數(shù),如果是回歸問題可以采用最大均方誤差損失函數(shù)。
選擇L2范數(shù)作為局部損失函數(shù)的正則化項(xiàng),[λ]作為懲罰參數(shù),表達(dá)式如下:
[rθzi=λ2mθzi2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
整體的正則化項(xiàng)度量模型參數(shù)的平滑性,對(duì)每層的參數(shù)進(jìn)行懲罰,刻畫層之間的相互關(guān)聯(lián),對(duì)于缺失層的參數(shù)通過加權(quán)的方式進(jìn)行構(gòu)建。[Wij]是一個(gè)非負(fù)對(duì)稱矩陣,[Wij]的變化導(dǎo)致模型發(fā)生改變。當(dāng)[Wij]無限接近0時(shí),所有的參數(shù)都不相等,產(chǎn)生單獨(dú)模型;當(dāng)[Wij]接近無窮大時(shí),所有的參數(shù)幾乎相等,產(chǎn)生共同模型。拉普拉斯正則化項(xiàng)表達(dá)式如下:
[Lθzi=12i,j=1kWijθzi-θzj22,i=1,…,k]? ? ?(4)
完整的損失函數(shù)表達(dá)式為:
[lθzi=i=1kj=1m(yziloghθzixxi+1-yzilog1-hθzixzi+λ2mθzi2)+12i,j=1kWijθzi-θzj22,i=1,…,k]? (5)
將數(shù)據(jù)在模型上進(jìn)行擬合,使得損失函數(shù)的數(shù)值最小,且向0靠近就可以找到最合適的[θ]參數(shù)值。也就說明模型預(yù)測(cè)的值與標(biāo)簽值足夠接近,模型的準(zhǔn)確度較高。對(duì)于缺失層數(shù)據(jù)無法擬合相關(guān)參數(shù)的問題,模型設(shè)計(jì)中采用了加權(quán)的方式來建立缺失層參數(shù),借力相鄰層參數(shù)的力量來擬合。例如,如果分層特征是(年齡,教育),那么存在缺失特征值(25,本科),存在特征值(26,本科)、(24,本科)、(25,高中)和(25,研究生),通過對(duì)四個(gè)特征值參數(shù)的加權(quán)平均可以得到特征值(25,本科)的參數(shù)值。通過這樣的方法可以來彌補(bǔ)部分層參數(shù)缺失的情況。
四、實(shí)證結(jié)果與分析
違約情況的分析預(yù)測(cè)主要通過對(duì)以往歷史數(shù)據(jù)的擬合和分類,尋找一種數(shù)據(jù)分布規(guī)律,從而對(duì)未出現(xiàn)的新樣本進(jìn)行估計(jì)和預(yù)測(cè)。接下來本文將使用數(shù)據(jù)集來擬合拉普拉斯分層模型,對(duì)個(gè)人客戶的信用違約情況進(jìn)行預(yù)判,獲得預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的偏差。一方面,需要對(duì)貸款金額和賬單金額進(jìn)行區(qū)間段的劃分,每個(gè)區(qū)間段采用獨(dú)熱編碼的形式作為代表以簡化運(yùn)算。由于貸款金額和賬單金額的數(shù)值較大,因此,會(huì)消耗較大計(jì)算資源。而年齡按照每一個(gè)實(shí)際年齡作為一個(gè)特征值,同時(shí)原始數(shù)據(jù)集和模擬數(shù)據(jù)集采用相同的比例劃分訓(xùn)練集和測(cè)試集,根據(jù)數(shù)據(jù)集的大小將比例確定為0.2。為了說明拉普拉斯分層模型的預(yù)測(cè)效果,將四個(gè)模型(分層模型、單獨(dú)模型、共同模型和隨機(jī)森林)得到的預(yù)測(cè)誤差結(jié)果進(jìn)行比較,誤差最小則說明性能最佳。另一方面,本文考慮如果不采用算法來選擇分層特征,而是根據(jù)一些可能對(duì)違約有影響的特征信息的任意組合形式來組建分層特征,那么預(yù)測(cè)結(jié)果和準(zhǔn)確度將會(huì)有所差距。為此本文做了相關(guān)實(shí)驗(yàn),選擇貸款金額、年齡、婚姻、教育和性別等特征變量任意組合形成分層特征。當(dāng)分層特征確定的時(shí)候,所有模型都處于同一分層特征下進(jìn)行擬合。所以本文依次嘗試組建兩個(gè)、三個(gè)、四個(gè)和五個(gè)分層特征進(jìn)行組合,分別在原始數(shù)據(jù)和模擬數(shù)據(jù)集上進(jìn)行擬合,研究不同形式的組合對(duì)最終預(yù)測(cè)結(jié)果的影響。所有模型的預(yù)測(cè)結(jié)果如表3所示。
通過表3模型預(yù)測(cè)結(jié)果可以知道,在每種分層特征結(jié)構(gòu)下分層模型始終是四個(gè)模型中表現(xiàn)最好的。當(dāng)分層特征結(jié)構(gòu)是(貸款金額,年齡,婚姻)時(shí),誤差可以達(dá)到 0.1311;而通過算法得到的分層特征結(jié)構(gòu)是(貸款金額,年齡,賬單金額)時(shí),誤差為0.1404。雖然通過這種任意組合特征變量得到的誤差略優(yōu)于算法,但是選擇上具有偶然性,并且?guī)в幸欢ǖ闹饔^因素,然而在當(dāng)前的數(shù)據(jù)結(jié)構(gòu)下,它可能是最合適的分層特征結(jié)構(gòu)。當(dāng)然算法并非完全準(zhǔn)確的,也存在算法不能尋找到的某種聯(lián)系和規(guī)律。但是隨著特征變量的增多,數(shù)據(jù)的分布規(guī)律和特點(diǎn)就會(huì)發(fā)生很大變化,當(dāng)數(shù)據(jù)是高維數(shù)據(jù)的時(shí)候,無法通過人的知識(shí)和經(jīng)驗(yàn)判斷去挑選合適的特征。因此,在選擇特征變量的時(shí)候算法的優(yōu)勢(shì)就可以體現(xiàn)出來,像0.1311和0.1404之間的差距很小,所以算法選擇依然會(huì)幫助我們實(shí)現(xiàn)想要的預(yù)期結(jié)果。
本文在原始數(shù)據(jù)集上對(duì)所有的模型進(jìn)行了擬合,證明了分層模型的優(yōu)勢(shì)所在,即隨著分層特征的改變,分層模型的預(yù)測(cè)準(zhǔn)確度始終是最高的。但是需要去檢驗(yàn)分層模型是否具有穩(wěn)定性,是否會(huì)因?yàn)閿?shù)據(jù)的變化而變得性能沒有其他模型好。因此,建立模擬數(shù)據(jù)集來擬合所有模型。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),在所有模型中分層模型依然是表現(xiàn)最好的。
本文將個(gè)人客戶信用的違約視作一種二分類問題,運(yùn)用分層模型可以回答“是”與“否”的情形,即個(gè)人客戶是否會(huì)發(fā)生違約。通過上述數(shù)據(jù)結(jié)果表明,對(duì)個(gè)人客戶信用的未來判斷是可以進(jìn)行量化和估計(jì)的,對(duì)潛在的風(fēng)險(xiǎn)危機(jī)可以采用一些算法和模型進(jìn)行綜合評(píng)估。當(dāng)然這種未來預(yù)測(cè)的應(yīng)用不僅僅停留在個(gè)人客戶,對(duì)于企業(yè)客戶依然可以適用,僅僅需要開發(fā)相關(guān)的模型,但是預(yù)測(cè)和評(píng)估的方法論是不變的。
五、結(jié)論與建議
本文旨在說明運(yùn)用拉普拉斯分層模型,結(jié)合機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)特征選擇和對(duì)目標(biāo)客戶進(jìn)行分層的思想有助于對(duì)客戶違約情況進(jìn)行較為準(zhǔn)確的判斷,實(shí)驗(yàn)也證明了這一方法的可行性。對(duì)客戶按照不同的特征進(jìn)行分組,在實(shí)際應(yīng)用中并不常見。分組使處于不同風(fēng)險(xiǎn)、不同群體的客戶可以實(shí)現(xiàn)精準(zhǔn)化預(yù)測(cè),更好地評(píng)估客戶的個(gè)人信用風(fēng)險(xiǎn)。因此,本文認(rèn)為如果將它應(yīng)用于信用風(fēng)險(xiǎn)評(píng)估的實(shí)踐中,可能會(huì)為更好地解決個(gè)人信用違約問題產(chǎn)生積極的效果,為銀行信用風(fēng)險(xiǎn)評(píng)估提供一些可靠的決策參考依據(jù),但是依然需要實(shí)踐去檢驗(yàn)?zāi)P偷倪m用性。
然而,本文的研究工作也存在不足:第一,由于無法獲得足夠多的樣本數(shù)據(jù),分層使得部分?jǐn)?shù)據(jù)樣本容量不足,造成擬合模型的過程中存在誤差。第二,分層特征的選取不夠全面。由于本文獲得的數(shù)據(jù)只是客戶信用數(shù)據(jù)的一部分,在此基礎(chǔ)上所產(chǎn)生的分層特征并不能完全代表真正的分組標(biāo)準(zhǔn),但是并不會(huì)影響方法的可行性。第三,模型訓(xùn)練的過擬合問題是不可避免的,即便使用各種技巧或技術(shù)來解決,偏差依然存在。
為了在實(shí)踐中更好地應(yīng)用這種方法,可考慮以下建議:首先,模型需要較大的數(shù)據(jù)容量,也就意味著客戶數(shù)據(jù)要足夠多,客戶信息要足夠充分和豐富;其次,在實(shí)踐中需要建立基礎(chǔ)模型,通過不斷地訓(xùn)練和迭代,調(diào)整參數(shù)和超參數(shù),保證損失值朝著0的方向前進(jìn);最后,由于各商業(yè)銀行之間處于競(jìng)爭狀態(tài),不可能分享客戶的信用記錄,所以可以借助第三方(如銀保監(jiān)會(huì)、中國人民銀行等)來推動(dòng)模型的開發(fā)工作。
參考文獻(xiàn):
[1]Kazi R H. 2016. Development of a Credit Scoring Model for Retail Loan Granting Financial Institutions from Frontier Markets [J].International Journal of Economics and Business Research,5(55).
[2]Huang F F,Yong Y, Li Z. 2010. Evaluation of Default Risk Based on KMV Model for ICBC, CCB and BOC [J].International Journal of Economics and Finance,2(1).
[3]Hassan M K,Brodmann J,Rayfield B,Huda M. 2018. Modeling Credit Risk in Credit Unions Using Survival Analysis [J].International Journal of Bank Marketing.
[4]Duan, J C,Kim, B,Kim, W,Shin D. 2018. Default Probabilities of Privately Held Firms [J].Social Science Electronic Publishing,94(9).
[5]Yeh I C, Lien C H. 2009. The Comparisons of Data mining Techniques for the Predictive Accuracy of Probability of Default of Credit Card Clients [J].Expert Systems with Applications,36(2).
[6]Ogundimu E O. 2019. Prediction of Default Probability by Using Statistical Models for Rare Events [J].Journal of the Royal Statistical Society Series A,182(4).
[7]Gordini N. 2014. A Genetic Algorithm Approach for SMEs Bankruptcy Prediction:Empirical Evidence from Italy[J].Expert Systems with Applications,41(14).
[8]Uddin M S,Chi G,Janabi MAMA,Habib T. 2020. Leveraging Random Forest in Micro-enterprises Credit Risk Modelling for Accuracy and Interpretability [J].International Journal of Finance & Economics,(2).
[9]王重仁, 韓冬梅. 基于超參數(shù)優(yōu)化和集成學(xué)習(xí)的互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估 [J].統(tǒng)計(jì)與決策,2019,35(1).
[10]Twum A K,Zhongming T,Agyemang A O,Ayamba EC,Chibsah R. 2021. The Impact of Internal and External Factors of Credit Risk on Businesses:An Empirical Study of Chinese Commercial Banks [J].Journal of Corporate Accounting & Finance, 32(1).
[11]Abusharbeh M T. 2020. Determinants of Credit Risk in Palestine:Panel Data Estimation [J].International Journal of Finance & Economics, 1-10.
[12]劉穎,唐毓蔓.一種基于信用評(píng)估數(shù)據(jù)分布特征的GAσFCM算法 [J].統(tǒng)計(jì)與決策,2020,(2).
[13]周壽彬.基于反常擴(kuò)散模型的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法 [J].統(tǒng)計(jì)與決策,2016,(13).
[14]單雙, 畢秋香, 胡挺. 投資者異質(zhì)信念下的信用債違約風(fēng)險(xiǎn)量化研究——基于我國信用債市場(chǎng)的應(yīng)用 [J]. 南方經(jīng)濟(jì),2020,(2).
[15]Tuck J,Barratt S,Boyd S. 2021. A Distributed Method for Fitting Laplacian Regularized Stratified Models [J]. Journal of Machine Learning Research,22(60).
Credit Risk Forecasts for Bank Customers Based on a Stratified Model
Zhang Yu1/Liao Changyong2/Wang Xinjun2
(1. Department of Labor Economics,Shandong Labor Vocational and Technical College,Jinan? ?250022,Shandong,China;
2. School of Economics,Shandong University,Jinan? ?250100,Shandong,China)
Abstract:Based on the customer credit record data set of a commercial bank,this paper predicts the credit risk of customers by using the Laplacian stratified model. The XGBoost machine learning algorithm is used to select hierarchical features and a combined form of multivariate features to predict customer defaults,taking advantage of the existence of differentiated customer groups. The prediction effects of the four models,Laplace hierarchical model,individual model,common model and random forest,are compared in turn under different hierarchical feature structures,and simulation data sets are built to validate the performance of the Laplace hierarchical model. It is found that:(1)the prediction accuracy of the Laplacian stratified model is the highest and the prediction performance is stable;(2)the best stratification characteristics applied to the dataset in this paper are loan amount,age and marriage. The selection and number of stratification features will change accordingly based on different data and are not set in stone. Combining the research ideas and results of this paper,we aim to provide new thoughts and suggestions for commercial banks in the practice of customer credit risk assessment.
Key Words:credit risk,stratification features,Laplacian stratified model,XGBoost algorithms