国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于組合分類策略的個人信用風(fēng)險評估研究

2020-08-05 01:42:38鐘金宏邵晶晶李興國
關(guān)鍵詞:分值分類器信用

鐘金宏, 邵晶晶, 李興國

(合肥工業(yè)大學(xué) 管理學(xué)院, 安徽 合肥 230009)

0 引 言

目前,居民在消費(fèi)類貸款、住房貸款、汽車貸款上的需求量不斷增大。據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)[1]顯示,截至2017年年末,個人短期貸款達(dá)68 041億元,比上年同期增加18 724億元,個人中長期貸款達(dá)247 154億元,比上年同期增加45 993億元,個人貸款總額占全年境內(nèi)各項(xiàng)貸款的31.58%。由此可見,個人貸款規(guī)模增長迅速,未來個人貸款業(yè)務(wù)有望成為中外金融機(jī)構(gòu)競爭的焦點(diǎn)。由于個人貸款業(yè)務(wù)發(fā)展前景巨大,導(dǎo)致各種騙貸、套現(xiàn)、倒貸等欺詐手段層出不窮。根據(jù)中國銀行業(yè)監(jiān)督管理委員會(簡稱“銀監(jiān)會”)數(shù)據(jù)統(tǒng)計[2],2008—2017年銀行業(yè)不良貸款余額如圖1所示,說明近年來金融行業(yè)不良貸款余額總體呈上升趨勢,且漲幅較大。因此,定位出不良客戶、評估貸款人的信用成為當(dāng)前亟待解決的問題。

圖1 2008—2017年銀行業(yè)不良貸款余額

信用評估是關(guān)于信用好壞的二元分類問題,目前已有很多分類算法應(yīng)用到信用評估問題中,但不同的分類算法有著不同的適用場景,在不同數(shù)據(jù)集上不能全部展現(xiàn)理想的分類效果,無法適用一般情況??紤]到實(shí)際生活中個人信用數(shù)據(jù)會受不同國家和地區(qū)的影響這一特殊性,本文選取了信用評估中具有代表性的K最近鄰(K-nearest neighbor, KNN)、隨機(jī)森林(random forest, RF)、決策樹(decision tree, DT)和支持向量機(jī)(support vector machine, SVM)等算法作為基分類器,通過組合分類模型評估貸款人信用,提高對實(shí)際信用數(shù)據(jù)更適用的基分類器在最終組合決策中的作用。該模型充分利用各個算法的優(yōu)勢,適合解決現(xiàn)實(shí)生活中的貸款人信用評估問題。

1 信用評估方法

在信用評估問題上,早期的評估模型分為如下2類:

(1) 基于專家評分。這類模型的特點(diǎn)是由專家列出評判貸款人信用的特征,再針對每項(xiàng)特征由專家對貸款人打分,根據(jù)得分確定貸款人信用好壞。文獻(xiàn)[3]根據(jù)貸款人的能力、資金狀況和個人條件,結(jié)合專家意見,分別從學(xué)歷、職業(yè)、職稱、工作穩(wěn)定性;住房、交通工具、有價證券、銀行存款、年收入;年齡、性別、婚姻狀況、贍養(yǎng)人數(shù)、投保狀況等評價指標(biāo)量化貸款人的信用級別。

(2) 基于期權(quán)定價模型,常用的有Black-Scholes-Merton (BSM)模型、信用監(jiān)測模型(credit monitor model, KMV)等。這類模型主要應(yīng)用于個人抵押貸款或?qū)J款的信用評估問題中,通過計算出個人抵押品價值或公司的股價、負(fù)債等市場價值總和來得到貸款人或公司的理論違約距離和理論違約率,以達(dá)到信用評估的目的。文獻(xiàn)[4]通過實(shí)證分析表明KMV模型基本能夠識別上市公司的信用狀況,但識別能力有限,建議結(jié)合公司財務(wù)數(shù)據(jù)綜合度量更加可靠。文獻(xiàn)[5]在BSM模型基礎(chǔ)上提出一種“B-S期權(quán)定價+預(yù)留協(xié)作+保證金”契約機(jī)制,進(jìn)一步驗(yàn)證了期權(quán)定價模型可以得到理論違約率,保證電網(wǎng)公司收益的同時,降低市場價格波動帶來的風(fēng)險。

隨著互聯(lián)網(wǎng)金融的興起和大數(shù)據(jù)時代的到來,早期評估模型基于其有主觀依賴和時效滯后等缺點(diǎn),難以適應(yīng)現(xiàn)階段貸款需求量大、產(chǎn)品種類多、貸款規(guī)則復(fù)雜等情況,而各種數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)算法被應(yīng)用到信貸審批領(lǐng)域,能夠克服傳統(tǒng)統(tǒng)計模型的局限性,不但能處理海量數(shù)據(jù),而且使信用風(fēng)險得到識別和量化,在復(fù)雜的情況下展現(xiàn)了良好的效果[6]。

目前應(yīng)用在信用評估問題上的常用分類器有KNN、邏輯回歸(logistic regression, LR)、線性判別分析(linear discriminant analysis, LDA)、SVM、RF、DT、神經(jīng)網(wǎng)絡(luò)等。文獻(xiàn)[7]展現(xiàn)了KNN在信用評估下的效果略優(yōu)于邏輯回歸,并認(rèn)為KNN有較大的商業(yè)用途;文獻(xiàn)[8]對比分類算法發(fā)現(xiàn),RF適合處理非平衡信用數(shù)據(jù)集,對違約項(xiàng)目的識別能力較好;文獻(xiàn)[9]證明運(yùn)用決策樹的ID3算法,建立信貸客戶信用評估系統(tǒng),能進(jìn)行科學(xué)、高效的信用評估分類;文獻(xiàn)[10]驗(yàn)證了SVM在不均衡、小樣本、高維模式識別問題中具有較好的預(yù)測能力。

以上基于單分類器的信用評估方法雖簡單易實(shí)現(xiàn),但由于單分類器對數(shù)據(jù)較為敏感,這一類方法的不穩(wěn)定性較大,相比之下,多分類器的預(yù)測準(zhǔn)確率和泛化性能均優(yōu)于任一基分類器。文獻(xiàn)[11]組合神經(jīng)網(wǎng)絡(luò)和遺傳規(guī)劃方法,提出兩階段的信用評估模型,表明了組合分類比單個分類器分類結(jié)果精度更高, 可解釋性更好;文獻(xiàn)[12]組合多個SVM應(yīng)用在信用評估中,該算法解決了非線性支持向量機(jī)的局限性,計算成本低、分類效果好,更適用于數(shù)據(jù)集大的情況;文獻(xiàn)[13]基于LR、DT、人工神經(jīng)網(wǎng)絡(luò)和SVM 這4個基分類器,通過比較Bagging、Boosting、Stacking 這3種集成方法在信用評估上的效果后發(fā)現(xiàn),組合可以極大地提高基分類器的效果。

綜上可見,盡管目前已有很多組合分類算法應(yīng)用到信用評估問題上,解決了早期評估模型的局限性和滯后性,但是不同的信用評估方法有各自的優(yōu)缺點(diǎn)[14],主要存在以下問題:

(1) 不同的分類算法有著不同的適用場景,在某個數(shù)據(jù)集上效果較好的分類器,在另一類數(shù)據(jù)集上卻不一定有較好的效果,因此對于不同的數(shù)據(jù)集,需要區(qū)別對待各基分類器。

(2) 現(xiàn)實(shí)中貸款人的信用數(shù)據(jù)受不同國家和地區(qū)的經(jīng)濟(jì)、文化、發(fā)展水平以及居民消費(fèi)觀念等諸多因素的影響,使得很多模型中用到的貸款人特征不能適應(yīng)其他數(shù)據(jù)。

本文引入組合分類策略來獲得最終分類模型,每個基分類器的最終決策度根據(jù)其在數(shù)據(jù)集上的效果來確定,最終模型選取的貸款人特征根據(jù)相關(guān)度高低來確定,使得各基分類器之間形成優(yōu)勢互補(bǔ),適應(yīng)各類真實(shí)信用數(shù)據(jù)。

2 基于組合分類的信用評估模型

組合分類問題中,基分類器的選擇直接影響最終的分類結(jié)果。單一分類器適合的數(shù)據(jù)區(qū)域不同,優(yōu)缺點(diǎn)不一。本文中基分類器分別選取KNN、DT、RF、SVM等。各基分類器的優(yōu)缺點(diǎn)對比見表1所列,從表1可以看出,這4個基分類器分別適合不同的數(shù)據(jù)區(qū)域,組合可以達(dá)到揚(yáng)長避短、優(yōu)勢互補(bǔ)的目的。

表1 各基分類器的優(yōu)缺點(diǎn)比較

本文提出一種基于決策分值的多分類器組合(multiple classifier combination,MCC)模型,具體流程如圖2所示。

圖2 MCC模型流程

該模型從2個維度量化單個分類器的可信度,并通過組合的方式進(jìn)行分類器的融合,既可以提高整體分類的準(zhǔn)確率,又能保證實(shí)際應(yīng)用中的穩(wěn)定性,滿足金融機(jī)構(gòu)判別貸款類新客戶信用的要求。

2.1 決策分值

因?yàn)閿?shù)據(jù)集不同,各算法對數(shù)據(jù)集的適用度也不相同,所以不同算法在同一數(shù)據(jù)集下的訓(xùn)練結(jié)果也有高低之分。對于多分類器而言,最終分類器決策需要提高可信度高的基分類器所占的比重,而降低相比之下可信度低的基分類器所占的比重。模型中引入決策分值的方法來量化提高或降低的比重,該方法從穩(wěn)定性和準(zhǔn)確性2個維度評判基分類器的可信度,因此模型中基分類器的最終決策分值ST(total score,)由該分類器的穩(wěn)定性分值SS(stability score,)和準(zhǔn)確性分值SA(accuracy score,)組成。

穩(wěn)定性的考量是根據(jù)該分類器在同一數(shù)據(jù)集下相同規(guī)模的n份不同子數(shù)據(jù)集的訓(xùn)練結(jié)果計算得出,準(zhǔn)確性的考量是根據(jù)該分類器n次訓(xùn)練結(jié)果的準(zhǔn)確率高低確定的。MCC模型的決策分值計算流程如圖3所示。

圖3 計算基分類器對應(yīng)決策分值流程

具體方法如下。

(1) 通過隨機(jī)采樣得到1份不放回的測試集和n份相等規(guī)模的平衡子訓(xùn)練集,測試集與訓(xùn)練集數(shù)量之比為1∶3。

(2) 逐個選取基分類器通過n次訓(xùn)練結(jié)果得出每次的訓(xùn)練準(zhǔn)確率,根據(jù)公式計算出最終決策的分值,ST(ST∈(0,2))計算公式為:

STi=SSi+SAi

(1)

(2)

(3)

(4)

其中,t為分類器的個數(shù)(本文t=4);n為子數(shù)據(jù)集個數(shù)(本文n=5);aij為第i個分類器在第j個子數(shù)據(jù)集下的準(zhǔn)確率,j=1,2,…,n。

2.2 組合策略

在得到每個單分類器的決策分值ST后,可以直觀地看出分類效果較好的分類器在最終決策中占比較大,但這只是相對而言,并且每個分類器也不可能達(dá)到100%的預(yù)測準(zhǔn)確率。組合模型可以去除單個分類器偶然不準(zhǔn)確的缺陷,且能充分考慮到有新用戶在信用好壞臨界處的現(xiàn)象。組合策略直接影響到最終模型的有效性,MCC模型的組合策略流程如圖4所示。

圖4 組合策略流程

具體方法如下。

(1) 得到第j個單分類器的最終分值STi后,當(dāng)有新客戶的畫像特征輸入到分類器時,每個基分類器都需要判定客戶信用好壞。

(2) 計算判定客戶信用好的分類器決策總分值S0和判定客戶信用不好的分類器決策總分值Si,計算公式為:

(5)

(6)

(3) 新客戶信用f(x)通過比較S0和S1的大小來確定,公式為:

(7)

其中,m為t個分類器中將客戶分為1的分類器個數(shù);S1為所有分類器中將該客戶分為1(即信用不好)的分類器總分值;S0為所有分類器中將該客戶分為0(即信用良好)的分類器總分值。

本文將單分類器的優(yōu)勢互補(bǔ),通過多組實(shí)驗(yàn)降低單次實(shí)驗(yàn)的偶然性,并從穩(wěn)定性和準(zhǔn)確性2個維度來確定各分類器在模型最終決策中的比重。

3 實(shí)驗(yàn)設(shè)計與數(shù)據(jù)處理

3.1 分類評估標(biāo)準(zhǔn)

分類評估標(biāo)準(zhǔn)是檢驗(yàn)一個分類器是否能夠有效分類的重要指標(biāo),本文使用準(zhǔn)確率A、精度P、召回率R、F值4種評估標(biāo)準(zhǔn),這4種評估標(biāo)準(zhǔn)都是基于混淆矩陣計算的,混淆矩陣見表2所列。該矩陣顯示了分類算法在將輸入數(shù)據(jù)分配給不同類時的性能[15]。

表2 混淆矩陣

準(zhǔn)確率A反映一個分類器模型的總體性能,表示模型正確地分類了多少條數(shù)據(jù),計算公式為:

(8)

精度P反映模型輸出的可靠性,計算公式為:

(9)

召回率R展示了模型在實(shí)際欺詐交易檢測中的有效性,計算公式為:

(10)

F值為召回率和精度的調(diào)和平均數(shù),是一個綜合評價的指標(biāo)。因此F值是評價不平衡類數(shù)據(jù)的一個更可靠的指標(biāo),計算公式為:

(11)

3.2 數(shù)據(jù)集

本文選擇信用評估中最具有代表性的3個數(shù)據(jù)集,分別是UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的德國、澳大利亞、中國信用數(shù)據(jù)。原始數(shù)據(jù)集描述見表3所列。

表3 信用數(shù)據(jù)集

由表3可知,3個數(shù)據(jù)集通過4個方面來描述借貸人的信息。由于澳大利亞信用數(shù)據(jù)涉及信用卡應(yīng)用程序,所有屬性名稱和值都已更改為無意義的符號,以保護(hù)數(shù)據(jù)的機(jī)密性。本文給出了其他2個數(shù)據(jù)集的主要特征描述,具體見表4所列。

表4 數(shù)據(jù)集特征描述

3.3 數(shù)據(jù)預(yù)處理

本文首先從數(shù)據(jù)集的特征入手,3個數(shù)據(jù)集的客戶畫像特征分別有20、14、23個,這些屬性如果全部選取,那么預(yù)測率并沒有展現(xiàn)很好的效果,并且特征過多,也會降低模型的泛化能力,文獻(xiàn)[16]提出了信用評估問題的關(guān)鍵是在考慮以往信用評分的客觀事實(shí)和主觀經(jīng)驗(yàn)的情況下,客戶的哪些特征對信用決策有意義。因此需要對這些特征進(jìn)行加工,用最少的數(shù)據(jù)特征使準(zhǔn)確率盡可能高。

在數(shù)據(jù)集特征選擇上,本文首先根據(jù)數(shù)據(jù)集各個特征之間的相關(guān)性,尤其是各個特征與最終信用好壞的相關(guān)性。3個信用數(shù)據(jù)集特征相關(guān)關(guān)系如圖5所示,具體可根據(jù)顏色深淺來直觀反映各個特征之間相關(guān)性,顏色越淺代表特征之間正相關(guān)性越大,顏色越深代表特征之間負(fù)相關(guān)性越大。

圖5 各信用數(shù)據(jù)集特征相關(guān)關(guān)系

各個特征與最終信用分類相關(guān)值見表5所列。表5中的相關(guān)級別由1~7表示相關(guān)度逐級減弱。結(jié)合圖5和表5可以看出,處于第1~2級別的特征相關(guān)度最高,處于第3~4級別的特征相關(guān)度較高,處于第5~7級別的特征相關(guān)度較差。根據(jù)統(tǒng)計發(fā)現(xiàn),相關(guān)度高的特征集中在表4的償債能力和信用往來屬性中,而貸款人的基本情況、貸款屬性與最終信用好壞無太大關(guān)聯(lián)。本文中選擇剔除相關(guān)度較差的特征,將余下特征進(jìn)行下一步處理。

表5 各個特征與最終信用分類相關(guān)值

為科學(xué)評估個人信用風(fēng)險,需進(jìn)一步對剩下數(shù)據(jù)進(jìn)行異常值檢測。考慮到銀行人員統(tǒng)計時出錯或者客戶避及隱私故意錯填的情況,異常值的存在對于真實(shí)性數(shù)據(jù)集來說難以避免。但對于異常值敏感的算法(如決策樹)來說,會產(chǎn)生有效性降低等負(fù)面影響。箱線圖是檢測異常值的一個標(biāo)準(zhǔn),可以直觀地看出正常數(shù)據(jù)是集中還是分散,通過觀察各方盒和線段長短可以顯示數(shù)據(jù)分布的偏態(tài)。3個數(shù)據(jù)集中存在的異常值箱型圖如圖6所示,由于數(shù)據(jù)集中異常值數(shù)量較少,本文選擇剔除異常值數(shù)據(jù),并將剩下的數(shù)據(jù)劃分為訓(xùn)練集和測試集。

圖6 各信用數(shù)據(jù)集中部分特征的箱型圖

從表3可以看出,3個評估數(shù)據(jù)集均為不平衡數(shù)據(jù)集,這是由于現(xiàn)實(shí)生活中信用好的客戶和信用不好的客戶人數(shù)很難達(dá)到相等,并且大多情況下,信用好的客戶人數(shù)多于信用不好的客戶人數(shù)。組合分類方法與不平衡數(shù)據(jù)集具有很好的兼容性,處理不平衡數(shù)據(jù)集有多種方法,本文采用無放回的隨機(jī)欠采樣方法從原數(shù)據(jù)集中抽取了6份平衡子數(shù)據(jù)集,其中1份作為測試集,5份作為訓(xùn)練集,測試集和訓(xùn)練集的數(shù)據(jù)比例控制在1∶3。

4 實(shí)驗(yàn)結(jié)果分析

3個信用數(shù)據(jù)集下各分類器準(zhǔn)確率及決策分值見表6所列,將決策分值對應(yīng)各個分類器,在測試集下進(jìn)行測試,最終分類器根據(jù)每個單分類器的判斷對該客戶進(jìn)行信用好壞打分。

表6 各分類器準(zhǔn)確率及總分值

最終MCC模型與KNN、RF、DT、SVM等4個分類器的評估指標(biāo)對比如圖7所示,從圖7可以看出,經(jīng)過MCC模型的分類后,澳大利亞、德國、中國數(shù)據(jù)集的預(yù)測準(zhǔn)確率分別達(dá)到90.40%、71.87%、69.3%,相比其他4個單分類器有了很大的提升。

圖7 各算法在數(shù)據(jù)集上的4個指標(biāo)

再結(jié)合精度、召回率和F值這3個指標(biāo)來看,MCC模型也表現(xiàn)了優(yōu)良的效果,MCC模型應(yīng)用在德國數(shù)據(jù)集上,相比單分類器下,準(zhǔn)確率最少提高了7.74%,精度最少提高了14.63%,召回率最少提高了11.25%。

另外,結(jié)合KNN、RF、DT、SVM這4個單分類器的決策分值和準(zhǔn)確率來看,決策樹在信用評估問題上表現(xiàn)出良好的性能,其次是RF和SVM。同時也驗(yàn)證了前人的觀點(diǎn)。

對于金融機(jī)構(gòu)來說,即使是提高1%的預(yù)測準(zhǔn)確率,也可以極大地降低風(fēng)險和損失[17]。本文提出的MCC模型,將信用評估問題中4種常用的分類器進(jìn)行組合,并且選擇數(shù)據(jù)集中與最終信用好壞相關(guān)度高的特征,有效地減少了最終分類器的運(yùn)行時間,提高了分類器的準(zhǔn)確率。MCC模型將為銀行等金融機(jī)構(gòu)做出參考,應(yīng)用到實(shí)際中去,減少人工作業(yè)成本,提高信用預(yù)測準(zhǔn)確率,降低風(fēng)險損失。

5 結(jié) 論

本文基于組合分類策略,并在組合模型中引入了決策分值的方法,將單分類器從穩(wěn)定性和準(zhǔn)確性2個維度上進(jìn)行評判,避免了單分類器的不穩(wěn)定性和單次實(shí)驗(yàn)的不可靠性。將MCC模型應(yīng)用到UCI中3個真實(shí)數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果表明,組合后的模型準(zhǔn)確率相比單分類器都有了明顯的提升,證明了本文提出的MCC模型可以應(yīng)用到實(shí)際中去,對金融機(jī)構(gòu)有一定的參考作用。

猜你喜歡
分值分類器信用
一起來看看交通違法記分分值有什么變化
工會博覽(2022年8期)2022-06-30 12:19:30
為食品安全加把“信用鎖”
信用收縮是否結(jié)束
中國外匯(2019年9期)2019-07-13 05:46:30
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
信用中國網(wǎng)
信用消費(fèi)有多爽?
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
岳西县| 锡林郭勒盟| 绥德县| 温宿县| 井研县| 安乡县| 三江| 化州市| 甘孜| 湖州市| 邵阳市| 巴青县| 华阴市| 泾源县| 辽中县| 桓仁| 锡林浩特市| 新化县| 山东省| 临海市| 深水埗区| 汾阳市| 息烽县| 凤阳县| 日土县| 监利县| 托克托县| 沙雅县| 漳浦县| 改则县| 佳木斯市| 漾濞| 卢湾区| 驻马店市| 临泉县| 巫山县| 基隆市| 花莲县| 定日县| 仁怀市| 新乡市|