基于樣本依賴(lài)代價(jià)矩陣的小微企業(yè)信用評(píng)估方法

2020-02-12 11:02:54汪御寒張玥杰

同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年1期

張濤，汪御寒，李凱，張玥杰

（1.上海財(cái)經(jīng)大學(xué)信息管理與工程學(xué)院，上海200433；2.上海財(cái)經(jīng)大學(xué)上海市金融信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室，上海200433；3.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，上海200433；4.復(fù)旦大學(xué)上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室，上海200433）

隨著金融業(yè)的發(fā)展，其服務(wù)范圍和方式日益豐富。聯(lián)合國(guó)于2005年提出普惠金融的概念，小微企業(yè)是普惠金融重點(diǎn)關(guān)注對(duì)象之一。我國(guó)近年來(lái)加大了對(duì)小微企業(yè)的扶持力度，鼓勵(lì)商業(yè)銀行對(duì)小微企業(yè)的借貸服務(wù)。小微企業(yè)本身暗含較高的風(fēng)險(xiǎn)，建立科學(xué)的信用評(píng)估系統(tǒng)對(duì)風(fēng)險(xiǎn)進(jìn)行精準(zhǔn)判別，對(duì)金融機(jī)構(gòu)來(lái)說(shuō)至關(guān)重要。一般金融機(jī)構(gòu)對(duì)小微企業(yè)風(fēng)控嚴(yán)苛，導(dǎo)致可用的違約客戶(hù)數(shù)據(jù)集規(guī)模較小，類(lèi)別不平衡程度較高?；谶@類(lèi)信息不充分的數(shù)據(jù)集，構(gòu)建泛化性能較好的模型具有較高的理論和應(yīng)用價(jià)值，有助于金融機(jī)構(gòu)識(shí)別劣質(zhì)客戶(hù)，更好地服務(wù)優(yōu)質(zhì)客戶(hù)，從而促進(jìn)市場(chǎng)經(jīng)濟(jì)的發(fā)展。

國(guó)內(nèi)外對(duì)于信用評(píng)估已有較豐富的研究，主要根據(jù)一些財(cái)務(wù)指標(biāo)計(jì)算結(jié)合專(zhuān)家意見(jiàn)形成模型，而今，結(jié)合機(jī)器學(xué)習(xí)技術(shù)建模已成趨勢(shì)。West［1］建立了基于神經(jīng)網(wǎng)絡(luò)的信用評(píng)估模型，指出多專(zhuān)家模型和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型有更好的表現(xiàn)。肖文兵等［2］使用SVM（support vector machine）進(jìn)行個(gè)人信用評(píng)估，取得了較高的分類(lèi)準(zhǔn)確率。Bhattacharyya等［3］使用SVM算法、隨機(jī)森林算法和邏輯回歸算法對(duì)信用卡欺詐數(shù)據(jù)分類(lèi)預(yù)測(cè)。鄧超等［4］利用貝葉斯界定折疊法有效解決因樣本有偏引起的小企業(yè)信用評(píng)分模型分類(lèi)能力喪失問(wèn)題，增強(qiáng)了對(duì)樣本填補(bǔ)率和模型分類(lèi)能力。Lessmann等［5］系統(tǒng)闡釋了信用評(píng)估領(lǐng)域的研究近況，指出異質(zhì)集成學(xué)習(xí)的優(yōu)越性。肖斌卿等［6］提出基于模糊神經(jīng)網(wǎng)絡(luò)開(kāi)展小微企業(yè)信用評(píng)級(jí)研究，以某農(nóng)村商業(yè)銀行小微企業(yè)信貸微觀數(shù)據(jù)為樣本，實(shí)證驗(yàn)證了模型在小微企業(yè)信用評(píng)級(jí)中可獲得更高的精度。為提高模型預(yù)測(cè)精度，在特征篩選方面，學(xué)者們做了不同方面的研究。熊志斌［7］提出在傳統(tǒng) CFS（correlation-based feature selection）算法中引入Gebelein最大相關(guān)系數(shù)，結(jié)合支持向量機(jī)，構(gòu)建了GCFS-SVM（Gebelein CFSSVM）模型，該模型可對(duì)非線性數(shù)據(jù)進(jìn)行有效的特征提取，分類(lèi)預(yù)測(cè)效果較好。Vlasselaer等［8］提出同時(shí)關(guān)注數(shù)據(jù)內(nèi)在特征和交易關(guān)系網(wǎng)絡(luò)特征的特征提取方法，結(jié)合邏輯回歸、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林建模，獲取了對(duì)異常交易較好的識(shí)別效果。Dahiya等［9］將特征選擇和混合Bagging（bootstrap aggregating）模型結(jié)合，使用卡方檢驗(yàn)對(duì)非數(shù)值型數(shù)據(jù)進(jìn)行特征篩選，而對(duì)于數(shù)值型數(shù)據(jù)，使用主成分分析。Chen等［10］分別將 LDA（latent dirichlet allocation）、決策樹(shù)、粗糙集以及F-score方法和SVM結(jié)合構(gòu)建模型，提升了單個(gè)SVM模型的性能。特征篩選通常能在數(shù)據(jù)維數(shù)大、信息冗余的情況下提升模型性能，而建模面對(duì)的數(shù)據(jù)集信息有時(shí)是不完全的，Guo等［11］詳細(xì)介紹了信用風(fēng)險(xiǎn)模型中不完整信息和延遲過(guò)濾的概念。肖進(jìn)等［12］根據(jù)信息完整度劃分訓(xùn)練集，依據(jù)數(shù)據(jù)缺失程度確定特征的權(quán)重，根據(jù)權(quán)重對(duì)特征進(jìn)行隨機(jī)選擇，充分利用了數(shù)據(jù)信息。關(guān)于算法的研究，國(guó)內(nèi)外研究者們主要采用集成學(xué)習(xí)方法來(lái)提升模型性能。Kültür等［13］基于SVM、KStar、決策樹(shù)、隨機(jī)森林、樸素貝葉斯和貝葉斯網(wǎng)絡(luò)等傳統(tǒng)模型，分別使用樂(lè)觀的投票策略、悲觀的投票策略和權(quán)重投票策略進(jìn)行集成學(xué)習(xí)，檢測(cè)信用卡欺詐。Xiao等［14］提出ECSC（ensemble classification approach based on supervised clustering）策略，先將數(shù)據(jù)集進(jìn)行有監(jiān)督聚類(lèi)，在不同數(shù)據(jù)集上訓(xùn)練模型，再分配權(quán)重構(gòu)建集成學(xué)習(xí)模型。Ala′raj等［15］則在進(jìn)行集成學(xué)習(xí)中考慮到基分類(lèi)器之間的關(guān)系，相較于傳統(tǒng)集成策略，對(duì)錯(cuò)誤預(yù)測(cè)有一定的修正效果。

對(duì)金融機(jī)構(gòu)而言，一個(gè)有效的模型需要充分考慮利潤(rùn)因素而不僅僅是分類(lèi)準(zhǔn)確率。Verbraken等［16］提出基于利潤(rùn)的分類(lèi)方法，以授信預(yù)期收益作為度量模型性能的一個(gè)因素。信用問(wèn)題中對(duì)于違約客戶(hù)的誤判代價(jià)遠(yuǎn)高于正?？蛻?hù)的誤判代價(jià)，而通常情況下，違約客戶(hù)數(shù)目又遠(yuǎn)少于正?？蛻?hù)。因此，信用評(píng)估問(wèn)題是代價(jià)敏感的，也是類(lèi)別不平衡的。對(duì)于這類(lèi)問(wèn)題，可從數(shù)據(jù)角度采用重采樣技術(shù)改變樣本分布，使其趨于類(lèi)別平衡，提高模型對(duì)正樣本的關(guān)注度。重采樣技術(shù)包括欠采樣和過(guò)采樣。欠采樣減少樣本集中負(fù)樣本的數(shù)量，而傳統(tǒng)基于隨機(jī)抽樣的欠采樣方式會(huì)丟失大量信息，Ng等［17］提出DSUS（diversified sensitivity undersampling）方法，使用該方法欠采樣可有效保留富含信息的樣本，有利于建模。將原始數(shù)據(jù)集分布的數(shù)據(jù)處理方法與集成學(xué)習(xí)結(jié)合往往可以獲取不錯(cuò)的效果，鄒權(quán)等［18］將負(fù)樣本均勻分割，依次與正樣本合成訓(xùn)練集，使用不同算法構(gòu)建基分類(lèi)器，最終用投票策略建立集成學(xué)習(xí)模型。與欠采樣方法相反，過(guò)采樣方法增加訓(xùn)練集中正樣本的數(shù)量，其中，SMOTE（synthetic minority oversampling technique）算法被廣泛應(yīng)用［19］。林舒楊等［20］對(duì)負(fù)樣本進(jìn)行K均值聚類(lèi)，提取與正樣本數(shù)目相當(dāng)?shù)木垲?lèi)中心，結(jié)合SMOTE算法對(duì)樣本進(jìn)行適度過(guò)采樣，有效避免樣本過(guò)度稀疏。Sun等［21］提出 DTE-SBD（decision tree ensemble based on SMOTE，bagging and differentiated sampling rates）模型，利用SMOTE算法按照不同比例對(duì)數(shù)據(jù)集進(jìn)行過(guò)采樣，提高了集成學(xué)習(xí)基礎(chǔ)分類(lèi)器之間的多樣性。另外，不少學(xué)者直接在算法層面改進(jìn)傳統(tǒng)機(jī)器學(xué)習(xí)方法，使其可有效應(yīng)對(duì)代價(jià)敏感問(wèn)題。Chung等［22］結(jié)合貝葉斯決策理論，修改SVM函數(shù)方程，使其獲取的決策超平面與樣本分布有關(guān)，通過(guò)超平面的偏移可使模型更多地識(shí)別正類(lèi)樣本。Bahnsen等［23-24］提出基于最小風(fēng)險(xiǎn)貝葉斯概率計(jì)算準(zhǔn)則的分類(lèi)器，可有效降低模型誤分類(lèi)帶來(lái)的代價(jià)。閆明松等［25］以C4.5決策樹(shù)為基算法，對(duì)代價(jià)敏感決策樹(shù)和多個(gè)代價(jià)敏感Boosting算法進(jìn)行了系統(tǒng)的對(duì)比。Hulse等［26］基于Adaboost算法，提出AsymBoost算法。關(guān)于代價(jià)敏感學(xué)習(xí)中的代價(jià)，之前的研究往往單純定義兩類(lèi)樣本的誤分代價(jià)，近些年，學(xué)者們開(kāi)始關(guān)注到具體針對(duì)個(gè)體的誤分代價(jià)。Bahnsen等［27］在信用評(píng)估領(lǐng)域提出計(jì)算與特征有關(guān)的樣本依賴(lài)的代價(jià)矩陣，使用該方法可更科學(xué)地表征代價(jià)，改善代價(jià)敏感模型性能。除了誤分類(lèi)帶來(lái)的經(jīng)濟(jì)意義上的代價(jià)，一些學(xué)者還考慮到模型訓(xùn)練的代價(jià)，在大規(guī)模數(shù)據(jù)集建模時(shí)，權(quán)衡學(xué)習(xí)時(shí)間代價(jià)、模型維護(hù)代價(jià)和誤分類(lèi)代價(jià)有重要意義［28］。Yang等［29］對(duì)于具有缺失值的屬性，考量獲取該缺失值對(duì)于整體精度的提升度和耗費(fèi)代價(jià)的關(guān)系，以建立整體代價(jià)最小的模型。

當(dāng)信用數(shù)據(jù)規(guī)模較小時(shí)，對(duì)于類(lèi)別不平衡問(wèn)題，采用欠采樣會(huì)導(dǎo)致模型訓(xùn)練所用信息不足，而僅對(duì)正樣本的過(guò)采樣易導(dǎo)致過(guò)擬合。本文在之前學(xué)者研究的基礎(chǔ)上，提出樣本依賴(lài)的SXG-BMR模型，同時(shí)對(duì)正負(fù)樣本進(jìn)行低倍率過(guò)采樣，使樣本分布明晰的同時(shí)有效避免了過(guò)擬合，以集成學(xué)習(xí)為基本模型，基于樣本依賴(lài)代價(jià)矩陣，利用最小貝葉斯風(fēng)險(xiǎn)決策框架在模型中引入更符合實(shí)際的代價(jià)，大大提高了模型對(duì)于正樣本的識(shí)別能力，可有效提高信用評(píng)估模型的性能。

1 樣本依賴(lài)代價(jià)敏感模型的數(shù)據(jù)策略

類(lèi)別不平衡問(wèn)題是信用評(píng)估領(lǐng)域普遍需要面對(duì)的問(wèn)題，而由于小微企業(yè)自身的特殊性，其信用評(píng)估過(guò)程中該問(wèn)題更為突出。銀行往往會(huì)主觀上拒絕對(duì)小微企業(yè)的信貸以防控風(fēng)險(xiǎn)，導(dǎo)致歷史數(shù)據(jù)集的整體數(shù)據(jù)量較少；同時(shí)，銀行對(duì)小微企業(yè)的借貸要求往往更為嚴(yán)格，導(dǎo)致歷史數(shù)據(jù)集中的正樣本數(shù)目極少，類(lèi)別不平衡的程度較高。為了應(yīng)對(duì)這一問(wèn)題，本文采用樣本依賴(lài)的代價(jià)敏感模型框架。在數(shù)據(jù)層面上，代價(jià)敏感模型訓(xùn)練的輸入包括數(shù)據(jù)集和代價(jià)敏感矩陣集。本文對(duì)整體樣本進(jìn)行過(guò)采樣以明晰樣本分布，并依據(jù)數(shù)據(jù)特征，針對(duì)每一個(gè)樣本計(jì)算其代價(jià)矩陣，以更為精確地衡量代價(jià)。

1.1 整體樣本過(guò)采樣

SMOTE算法是過(guò)采樣方法中的經(jīng)典算法，其基本思想是在樣本和其鄰近同類(lèi)樣本連線上隨機(jī)插入新的同類(lèi)樣本［19］。在應(yīng)對(duì)類(lèi)別不平衡問(wèn)題上，SMOTE方法多被用于生成少數(shù)類(lèi)樣本，以平衡數(shù)據(jù)集。但在樣本集規(guī)模較小的情況下，缺少的不只是正樣本的信息，負(fù)樣本的分布也很難由少數(shù)數(shù)據(jù)反映，正負(fù)樣本分界超平面較為模糊。若采用SMOTE算法僅僅對(duì)每個(gè)小類(lèi)樣本進(jìn)行過(guò)采樣，將會(huì)產(chǎn)生一定的盲目性現(xiàn)象，導(dǎo)致有些人工合成的小類(lèi)樣本對(duì)大類(lèi)樣本的泛化空間產(chǎn)生影響，降低分類(lèi)效果［30］。另外，SMOTE方法僅對(duì)所有少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣處理，未充分考慮不同樣本對(duì)分類(lèi)平面的重要度的差異，易導(dǎo)致模型對(duì)正樣本的過(guò)適應(yīng)，將可能使分類(lèi)器出現(xiàn)過(guò)擬合現(xiàn)象［31-32］。

為此，本文提出基于SMOTE算法對(duì)整體樣本進(jìn)行過(guò)采樣的方法，平衡了過(guò)采樣引入噪聲以及降采樣丟失樣本的矛盾。其基本思路如下：采用SMOTE算法對(duì)整個(gè)樣本集進(jìn)行處理，同時(shí)生成正、負(fù)樣本，樣本生成比例可視實(shí)際問(wèn)題數(shù)據(jù)規(guī)模而定。該方法可有效應(yīng)對(duì)數(shù)據(jù)集過(guò)小或數(shù)據(jù)缺失的情況，使正負(fù)樣本分界面更為明顯，降低模型分類(lèi)的難度，避免過(guò)擬合，提高模型的準(zhǔn)確性。對(duì)于樣本集中每一個(gè)樣本，以樣本xi為例，找到其K個(gè)同類(lèi)近鄰樣本zi1，zi2，…，ziK，按公式（1）隨機(jī)生成新的樣本：

同時(shí)，根據(jù)UCI（University of California Irvine）信用數(shù)據(jù)集和上海市小微企業(yè)信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果，可以發(fā)現(xiàn)，通過(guò)利用SMOTE算法對(duì)樣本整體過(guò)采樣處理得到的結(jié)果優(yōu)于僅僅利用SMOTE算法對(duì)正樣本進(jìn)行過(guò)采樣的結(jié)果，并且能夠很好地實(shí)現(xiàn)精確率（Precision）和召回率（Recall）的平衡。

1.2 樣本依賴(lài)代價(jià)矩陣

代價(jià)矩陣是標(biāo)識(shí)將樣本劃分為不同類(lèi)別所導(dǎo)致代價(jià)的矩陣，諸如信用評(píng)估這類(lèi)二分類(lèi)問(wèn)題，樣本xi的代價(jià)矩陣如表1所示。

表1 樣本xi的代價(jià)矩陣Tab.1 Cost matrix of sample xi

表1中，CTPi、CFPi、CFPi、CFPi分別表示樣本xi不同預(yù)測(cè)結(jié)果導(dǎo)致的成本（代價(jià)）。關(guān)于代價(jià)敏感學(xué)習(xí)，在一些問(wèn)題中，誤分的代價(jià)與樣本自身屬性有關(guān)，而不僅僅與類(lèi)別有關(guān)，比如不同貸款額度會(huì)帶來(lái)不同的誤分代價(jià)。Bahnsen等［27］將正確分類(lèi)的代價(jià)定為0，對(duì)錯(cuò)誤分類(lèi)的代價(jià)進(jìn)行計(jì)算，提出了信用評(píng)估中的樣本依賴(lài)代價(jià)矩陣，如表2所示。其中，對(duì)于樣本xi，Ri表示損失優(yōu)質(zhì)客戶(hù)帶來(lái)的損失，可根據(jù)借款利率和客戶(hù)信用額度計(jì)算而得；CFPα基于資金不會(huì)閑置的假設(shè)，表示拒絕好的客戶(hù)選擇其他客戶(hù)可能帶來(lái)的潛在損失，可根據(jù)市場(chǎng)上的平均信用額度和平均利潤(rùn)率計(jì)算；cli表示其信用額度，可根據(jù)客戶(hù)償債能力的指標(biāo)計(jì)算得到；Lgd表示壞賬帶來(lái)的損失占信用額度的比率，Bahnsen等在研究中擬定了Lgd為75%。通過(guò)這種規(guī)則可得出所有樣本的代價(jià)矩陣，每個(gè)矩陣都是根據(jù)個(gè)體的情況計(jì)算，更精確地描述了誤分類(lèi)帶來(lái)的代價(jià)。

表2 樣本xi的樣本依賴(lài)代價(jià)矩陣Tab.2 Sample-dependent cost matrix of sample xi

為了更貼近實(shí)際代價(jià)，本文根據(jù)所研究數(shù)據(jù)集所包含的特征以及市場(chǎng)情況，提出了相應(yīng)的代價(jià)矩陣計(jì)算方法，該方法與貸款額度和樣本類(lèi)別比例有關(guān)，這樣可以跟隨樣本集中兩類(lèi)樣本的比例，調(diào)整模型對(duì)正樣本的關(guān)注度，有利于提升模型的性能。對(duì)于樣本xi代價(jià)矩陣中的CFPi的計(jì)算，基于資金不會(huì)閑置的假設(shè)，拒絕該客戶(hù)后，將會(huì)貸給其他客戶(hù)，以樣本集的平均貸款額度表示將該資金貸給其他客戶(hù)的額度，以樣本集的平均貸款時(shí)間作為貸給其他客戶(hù)的時(shí)間，以樣本集的平均貸款利率作為貸給其他客戶(hù)的利率，以樣本中正負(fù)樣本的頻率分別作為貸給劣質(zhì)客戶(hù)和優(yōu)質(zhì)客戶(hù)的概率。因此，本文設(shè)計(jì)樣本依賴(lài)代價(jià)如下：

式中：cni為樣本xi的貸款額度；ti為樣本xi的貸款時(shí)間；ri為其貸款利率為樣本集平均貸款額度為平均貸款時(shí)間為平均貸款利率；ppercent為樣本集中的正樣本所占比例。

2 基于樣本依賴(lài)的SXG-BMR模型

鑒于 XGBoost（Extreme Gradient Boosting）算法可充分利用信息又能防止過(guò)擬合，本文構(gòu)造基于最小風(fēng)險(xiǎn)貝葉斯決策的代價(jià)敏感學(xué)習(xí)框架，采用XGBoost算法，并結(jié)合前文的數(shù)據(jù)策略，提出樣本依賴(lài)的SXG-BMR模型。

2.1 最小風(fēng)險(xiǎn)貝葉斯決策

若樣本共有u類(lèi)，分別為ω1，ω2，…，ωu，相應(yīng)地，其先驗(yàn)概率分別為p(ω1），p(ω2），…，p(ωu）。對(duì)于樣本xi，計(jì)算得到其對(duì)各類(lèi)的條件概率p(xi|ω1），p(xi|ω2），…，p(xi|ωu），若已知條件概率分布類(lèi)型，可使用最大似然法進(jìn)行參數(shù)估計(jì)；如概率分布未知，則可用訓(xùn)練樣本的方法進(jìn)行非參數(shù)估計(jì)。根據(jù)貝葉斯公式，計(jì)算出各后驗(yàn)概率p(ω1|xi)，p(ω2|xi)，…，p(ωu|xi)，如式（5）所示。

進(jìn)一步，引入風(fēng)險(xiǎn)代價(jià)因素，以整體風(fēng)險(xiǎn)最小化為目的優(yōu)化模型，即為最小風(fēng)險(xiǎn)貝葉斯決策，應(yīng)用于代價(jià)敏感學(xué)習(xí)問(wèn)題，可提升模型決策性能［23］。記將屬于ωj類(lèi)的樣本歸于ωk類(lèi)帶來(lái)的風(fēng)險(xiǎn)為λkj。對(duì)于某個(gè)樣本xi，求解式（6）得到λk*，進(jìn)而得到相對(duì)應(yīng)的k*，而相應(yīng)的類(lèi)ωk*即為樣本xi的最終類(lèi)別。

式中：p(ω)=(p(ω1|xi)，p(ω2|xi)，…，p(ωu|xi))；λk=(λk1，λk2，…，λku)。

2.2 XGBoost算法

XGBoost算法是梯度提升算法的一種優(yōu)化實(shí)現(xiàn)形式，由Chen等提出并實(shí)現(xiàn)［33］。其目標(biāo)函數(shù)包括損失函數(shù)和正則項(xiàng)，在進(jìn)行學(xué)習(xí)迭代更新時(shí)考慮二階導(dǎo)數(shù)信息，可更快地優(yōu)化目標(biāo)函數(shù)。同時(shí)，在目標(biāo)函數(shù)中加入正則項(xiàng)，可控制模型復(fù)雜度，有效防止過(guò)擬合。本文應(yīng)對(duì)的數(shù)據(jù)集，一方面數(shù)據(jù)規(guī)模較小，需要被充分地學(xué)習(xí)；另一方面，為提升模型對(duì)樣本的識(shí)別能力，對(duì)數(shù)據(jù)集進(jìn)行了一定程度的過(guò)采樣，建模有過(guò)擬合的風(fēng)險(xiǎn)。在這種情況下，XGBoost是一種較為理想的算法。對(duì)XGBoost的設(shè)計(jì)如下：

對(duì)于數(shù)據(jù)集{(x1，y1)，(x2，y2)，…，(xn，yn)}，xi為樣本，yi為樣本xi的真實(shí)值，y^i為樣本xi的預(yù)測(cè)結(jié)果，i∈{1，2，…，n}。設(shè)初始狀態(tài)設(shè)為，則

第m次迭代后，

式中：y^(m)i為第m輪后對(duì)樣本xi的預(yù)測(cè)結(jié)果；fm為第m輪迭代的分類(lèi)器，fm∈F，F(xiàn)為分類(lèi)器集合。

第m次迭代，XGBoost的目標(biāo)函數(shù)如式（9）所示。

式中：l為損失函數(shù)，Ω為正則項(xiàng)?？紤]二階信息，對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi)，舍去常數(shù)項(xiàng)，得到新的目標(biāo)函數(shù)，如公式（10）所示。

每次迭代求解得到fm，迭代M次之后，獲取最終分類(lèi)器y^(M)，如公式（11）所示。

2.3 樣本依賴(lài)的SXG-BMR算法流程

本文基于XGBoost算法，結(jié)合數(shù)據(jù)過(guò)采樣的預(yù)處理方式，利用樣本依賴(lài)代價(jià)矩陣和最小風(fēng)險(xiǎn)貝葉斯決策，將代價(jià)敏感元素引入模型，從而構(gòu)建了樣本依賴(lài)的SXG-BMR模型。以0表征負(fù)樣本（正?？蛻?hù)）類(lèi)別，1表示正樣本（違約客戶(hù)）類(lèi)別，具體決策流程如下：

（1）利用SMOTE算法對(duì)訓(xùn)練集進(jìn)行整體過(guò)采樣，得到新的樣本集合，過(guò)采樣比例根據(jù)樣本規(guī)模而定。

（2）對(duì)于樣本集合中每一個(gè)樣本xi，計(jì)算其樣本依賴(lài)代價(jià)矩陣(CFPi，CFNi，0，0)。

（3）利用XGBoost算法訓(xùn)練模型，得出將樣本xi的預(yù)測(cè)為負(fù)類(lèi)的概率

（4）獲取樣本xi的樣本依賴(lài)代價(jià)矩陣(CFPi，CFNi，0，0)。

（5）計(jì)算對(duì)樣本xi的分類(lèi)預(yù)測(cè)平均代價(jià)：

依據(jù)最小風(fēng)險(xiǎn)貝葉斯準(zhǔn)則進(jìn)行決策，將樣本xi判定為預(yù)測(cè)代價(jià)小的類(lèi)別。

值得說(shuō)明的是，本文較為簡(jiǎn)單直接地根據(jù)客戶(hù)信用額度、借貸時(shí)間兩個(gè)屬性進(jìn)行樣本依賴(lài)代價(jià)矩陣的計(jì)算，該方法具有較好的普適性。當(dāng)然，代價(jià)矩陣也可由數(shù)據(jù)集給出，也可根據(jù)樣本比例自行定義，兩類(lèi)樣本比例差別越大，對(duì)正樣本賦予的關(guān)注度越高，代價(jià)矩陣中CFN的值應(yīng)越大。在實(shí)際操作中，如果無(wú)法獲取代價(jià)矩陣，可通過(guò)不斷調(diào)整參數(shù)，選出在數(shù)據(jù)集上表現(xiàn)最好的代價(jià)矩陣建立模型。如果不考慮代價(jià)矩陣，則模型相當(dāng)于加入了SMOTE對(duì)整個(gè)樣本處理的貝葉斯最小錯(cuò)誤率決策，對(duì)于增強(qiáng)小樣本集的模型分類(lèi)性能也有一定的參考價(jià)值。

3 實(shí)驗(yàn)分析

本文使用了兩個(gè)數(shù)據(jù)集對(duì)提出的算法框架進(jìn)行驗(yàn)證。首先在UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行縱向、橫向?qū)Ρ?，以?yàn)證樣本依賴(lài)的SXG-BMR模型的性能。在對(duì)分類(lèi)算法進(jìn)行對(duì)比分析時(shí)，本文選用了較為經(jīng)典的Adaboost、Gradient Boosting、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、邏輯回歸方法，再分別對(duì)其進(jìn)行最小風(fēng)險(xiǎn)貝葉斯決策的改進(jìn)，以引入代價(jià)敏感學(xué)習(xí)算法，另外還選用了代價(jià)敏感決策樹(shù)和代價(jià)敏感隨機(jī)森林算法作為對(duì)比對(duì)象。數(shù)據(jù)處理層面，本文進(jìn)行了僅用SMOTE算法對(duì)正樣本進(jìn)行過(guò)采樣平衡數(shù)據(jù)和對(duì)整體數(shù)據(jù)進(jìn)行過(guò)采樣的對(duì)比。對(duì)整體樣本的過(guò)采樣，不改變?cè)颊?fù)樣本比例，為防止過(guò)擬合，對(duì)整體樣本采用了較低的過(guò)采樣倍數(shù)。代價(jià)矩陣層面，進(jìn)行了類(lèi)別依賴(lài)矩陣和樣本依賴(lài)代價(jià)矩陣的對(duì)比。之后，本文將基于樣本依賴(lài)的SXG-BMR模型應(yīng)用于上海市小微企業(yè)信用數(shù)據(jù)集中，通過(guò)對(duì)比實(shí)驗(yàn)，進(jìn)一步驗(yàn)證了該模型的有效性。本文模型性能皆使用五折交叉驗(yàn)證結(jié)果度量。

3.1 數(shù)據(jù)集

UCI信用數(shù)據(jù)集由Hofmann教授提供，共包含1 000個(gè)樣本，有20個(gè)屬性，樣本分布比例如表3所示。數(shù)據(jù)集描述了客戶(hù)的信用額度、貸款期限、借貸歷史、借款目的、年齡、房產(chǎn)、工作、婚姻狀況、國(guó)籍等信息，并提供了類(lèi)別依賴(lài)的代價(jià)矩陣，如表4所示。

表3 UCI信用數(shù)據(jù)樣本分布情況Tab.3 Sample distribution of UCI credit data

表4 信用數(shù)據(jù)代價(jià)矩陣Tab.4 Cost matrix of credit data

上海市小微企業(yè)信用數(shù)據(jù)記錄了上海地區(qū)部分小微企業(yè)的歷史借款違約情況，原始數(shù)據(jù)有財(cái)務(wù)型屬性也有非財(cái)務(wù)型屬性，考慮到小微企業(yè)財(cái)務(wù)數(shù)據(jù)的真實(shí)性問(wèn)題，數(shù)據(jù)中更側(cè)重于非財(cái)務(wù)型屬性，從企業(yè)的員工情況、組成結(jié)構(gòu)、歷史行為等方面描述企業(yè)特征。屬性主要包括企業(yè)借貸金額、企業(yè)固定資產(chǎn)、大股東學(xué)歷、房產(chǎn)、車(chē)產(chǎn)、婚姻情況、高管學(xué)歷以及信用逾期情況、法人代表學(xué)歷信用逾期情況、員工學(xué)歷分布、企業(yè)繳納社保情況。共4 193條樣本，樣本分布情況如表5所示，樣本類(lèi)別不平衡程度較嚴(yán)重。

表5 上海市小微企業(yè)信用數(shù)據(jù)樣本分布情況Tab.5 Sample distribution of credit data of smalland micro enterprises in Shanghai

3.2 模型性能度量指標(biāo)

在信用評(píng)估領(lǐng)域，一個(gè)優(yōu)質(zhì)的模型應(yīng)在盡可能識(shí)別有風(fēng)險(xiǎn)客戶(hù)的同時(shí)避免流失優(yōu)質(zhì)客戶(hù)，提高整體節(jié)約的代價(jià)。本文采用召回率（Recall）、精確率（Precision）、AUC（Area Under Curve，ROC曲線下的面積）和代價(jià)節(jié)省率Saving rate來(lái)度量模型性能。Recall和Precision定義如下：

式中：TP為實(shí)際正類(lèi)，預(yù)測(cè)正類(lèi)；FN為實(shí)際負(fù)類(lèi)，預(yù)測(cè)正類(lèi)。

式中：FP為實(shí)際負(fù)類(lèi)，預(yù)測(cè)正類(lèi)。

代價(jià)節(jié)省率標(biāo)識(shí)模型可度量節(jié)約代價(jià)的程度，本文將模型預(yù)測(cè)所產(chǎn)生的代價(jià)與將全部樣本預(yù)測(cè)為正或者負(fù)產(chǎn)生代價(jià)中較小值相比，來(lái)表征代價(jià)節(jié)省率。對(duì)于樣本集yi∈ {0，1}，i∈ {0，1，…，n}，使用分類(lèi)器f(x)對(duì)T中樣本進(jìn)行預(yù)測(cè)，得到預(yù)測(cè)類(lèi)別集合{y^1，y^2，…，y^n}，其代價(jià)節(jié)省率計(jì)算如式（16）所示。

式中：Cost(f(T))表示按照分類(lèi)器的預(yù)測(cè)結(jié)果所產(chǎn)生的代價(jià)。

這里，Cost(f0(T))表示將所有樣本全部判定為負(fù)類(lèi)所帶來(lái)的代價(jià)，Cost(f1(T))表示將所有樣本全部判定為正類(lèi)所帶來(lái)的代價(jià)。

3.3 整體性能評(píng)估與比較

3.3.1 UCI信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

本文進(jìn)行了不對(duì)數(shù)據(jù)集采樣處理、對(duì)正樣本進(jìn)行過(guò)采樣和對(duì)整個(gè)樣本集進(jìn)行不同倍率過(guò)采樣的對(duì)比，以驗(yàn)證用SMOTE算法對(duì)樣本整體過(guò)采樣的有效性。所使用訓(xùn)練集的分布如表6所示。

表6 實(shí)驗(yàn)所用訓(xùn)練集分布情況（UCI）Tab.6 Distribution of training sets used in experiments（UCI）

根據(jù)原始數(shù)據(jù)集中提供的代價(jià)矩陣，各分類(lèi)器對(duì)于初始數(shù)據(jù)集的分類(lèi)結(jié)果如表7所示。選用算法包括：AB（adaboost）、GB（gradient boosting）、XG（XGBoost）、LR（logistic regression）、NN（neural network），RF（random forest）、DT（decision tree）、BMR（對(duì)模型引入Bayes minimum risk）、CS-DT（cost sensitive decision tree）和CS-RF（cost sensitive random forest）。

由表7可以看出，在未引入代價(jià)敏感元素的分類(lèi)器中，各分類(lèi)器效果表現(xiàn)均不佳，且代價(jià)節(jié)省率多為負(fù)值。在引入最小風(fēng)險(xiǎn)貝葉斯決策之后，各分類(lèi)器的代價(jià)節(jié)省率有所提升，但其整體表現(xiàn)依然并不夠理想，其Saving rate值均小于0.2。雖然各分類(lèi)器的Recall值明顯增大，均接近1，但是，引入最小風(fēng)險(xiǎn)貝葉斯決策之后的各分類(lèi)器的Precision值比未引入代價(jià)敏感元素均偏小。這是因?yàn)樵摂?shù)據(jù)集的正負(fù)誤分類(lèi)代價(jià)比統(tǒng)一為1：5，而總體樣本數(shù)目較少，模型無(wú)法準(zhǔn)確得到正負(fù)樣本的分布規(guī)律，導(dǎo)致各模型對(duì)負(fù)樣本過(guò)于敏感。所以，在引入最小風(fēng)險(xiǎn)貝葉斯決策之后，各分類(lèi)器的Recall值明顯增大，但Precision值顯著減小，AUC值也有所下降。

本文以市場(chǎng)一年期貸款利率為4.75%，默認(rèn)壞賬損失金額率為75%，計(jì)算樣本依賴(lài)代價(jià)矩陣。引入樣本依賴(lài)代價(jià)矩陣后，各代價(jià)敏感模型性能如表8所示，結(jié)果顯示其性能優(yōu)于未引入代價(jià)敏感元素的原始模型，也優(yōu)于基于類(lèi)別依賴(lài)矩陣的代價(jià)敏感模型，取得了Precision和Recall的平衡，提升了AUC以及代價(jià)節(jié)省率。其中XG-BMR模型表現(xiàn)相對(duì)較好，各性能度量指標(biāo)數(shù)值較為均衡，且都優(yōu)于其他模型，代價(jià)節(jié)省率高達(dá)0.434。

表7 原始數(shù)據(jù)集上各模型性能表現(xiàn)（UCI）Tab.7 Performance of models on original data sets（UCI）

表8 樣本依賴(lài)的代價(jià)敏感模型性能表現(xiàn)（UCI）Tab.8 Performance of sample-dependent cost sensitive models（UCI）

選取性能表現(xiàn)相對(duì)較好的模型AB-BMR、GBBMR、XG-BMR、LR-BMR、RF-BMR、CS-DT和CS-RF，采用本文SMOTE方法處理數(shù)據(jù)集后，各模型在各數(shù)據(jù)集上的性能表現(xiàn)如表9所示。

從表9可以看出，利用SMOTE算法對(duì)樣本整體過(guò)采樣得到的結(jié)果優(yōu)于利用SMOTE算法僅僅對(duì)正樣本進(jìn)行過(guò)采樣得到的結(jié)果，使用SMOTE對(duì)整體數(shù)據(jù)集進(jìn)行處理可以使各模型分類(lèi)性能得到顯著提升。對(duì)整體數(shù)據(jù)集僅擴(kuò)充一倍時(shí)，使用XG-BMR模型的 Recall達(dá)到 0.771，Precision為 0.751，AUC為0.757，優(yōu)于傳統(tǒng)平衡數(shù)據(jù)集上訓(xùn)練模型的效果，由于樣本個(gè)體代價(jià)差異，代價(jià)節(jié)省率稍弱于僅對(duì)正樣本過(guò)采樣的結(jié)果，但也已十分接近，這表明了對(duì)整體數(shù)據(jù)集過(guò)采樣的有效性。不過(guò)，高倍過(guò)采樣比例對(duì)模型性能代價(jià)提升效果有限，并未呈現(xiàn)明顯與過(guò)采樣比例正相關(guān)的關(guān)系，為了避免過(guò)擬合，對(duì)整體樣本過(guò)采樣程度以不超過(guò)4倍為宜。在這種情況下，基于三種Boosting算法的模型性能表現(xiàn)相對(duì)穩(wěn)健，很好實(shí)現(xiàn)了Precision和Recall的平衡。其中，ABBMR模型在對(duì)整體樣本過(guò)采樣至四倍的數(shù)據(jù)集中獲得較優(yōu)效果，GB-BMR對(duì)整體過(guò)采樣至三倍的數(shù)據(jù)集中獲得較優(yōu)效果，而XG-BMR在對(duì)整體過(guò)采樣至兩倍的數(shù)據(jù)集中即獲取優(yōu)于其余模型的表現(xiàn)。

因此，本實(shí)驗(yàn)驗(yàn)證了本文所提出的SXG-BMR模型的有效性，以及樣本依賴(lài)代價(jià)敏感數(shù)據(jù)策略對(duì)模型性能的提升作用。

3.3.2 上海市小微企業(yè)信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

對(duì)于上海市小微企業(yè)數(shù)據(jù)集（SH），本部分實(shí)驗(yàn)所用的數(shù)據(jù)集分別為原始數(shù)據(jù)集、使用SMOTE平衡數(shù)據(jù)集以及對(duì)整體數(shù)據(jù)樣本過(guò)采樣2～4倍的數(shù)據(jù)集，具體訓(xùn)練集分布如表10所示。

代入市場(chǎng)貸款利率，計(jì)算出樣本依賴(lài)代價(jià)矩陣。對(duì)于缺失借貸時(shí)間的樣本，均默認(rèn)為1年。各樣本依賴(lài)代價(jià)敏感模型在原始數(shù)據(jù)集中的結(jié)果如表11所示。

由表11可以發(fā)現(xiàn)，各模型沒(méi)有達(dá)到Recall和Precision很好的平衡。其中，AB-BMR、GB-BMR、XG-BMR和LR-BMR取得了較高的Recall，但Precision皆較低。而CS-RF取得了很高的Precision，為0.883，Recall卻僅有0.486。

選取在原始數(shù)據(jù)集中表現(xiàn)相對(duì)較好的ABBMR、GB-BMR、XG-BMR、LR-BMR、RF-BMR，采用SMOTE方法處理數(shù)據(jù)集后，各模型在各數(shù)據(jù)集上的性能表現(xiàn)如表12所示。

由表12可知，使用SMOTE方法僅對(duì)正樣本過(guò)采樣平衡數(shù)據(jù)集后，模型獲得了很高的Precision，但并沒(méi)有很好地識(shí)別正樣本，Recall相較于原始數(shù)據(jù)集大幅降低，有過(guò)擬合的傾向。而對(duì)整體樣本低倍率過(guò)采樣取得了較為均衡的效果，當(dāng)數(shù)據(jù)集擴(kuò)充至4倍時(shí)，XG-BMR模型Recall達(dá)0.937，Precision達(dá)0.713，AUC高達(dá)0.820，代價(jià)節(jié)省率為0.704，效果優(yōu)于其他模型。同UCI信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果類(lèi)似，利用SMOTE算法對(duì)樣本整體過(guò)采樣得到的結(jié)果優(yōu)于利用SMOTE算法僅僅對(duì)正樣本進(jìn)行過(guò)采樣得到的結(jié)果，并且能夠很好地實(shí)現(xiàn)各模型Precision和Recall的平衡。

本實(shí)驗(yàn)進(jìn)一步驗(yàn)證了樣本依賴(lài)SXG-BMR模型可有效應(yīng)對(duì)類(lèi)別不平衡的信用數(shù)據(jù)，高效而精確地識(shí)別違約客戶(hù)，具有較好的實(shí)際應(yīng)用價(jià)值。為防止過(guò)擬合，實(shí)驗(yàn)中對(duì)整體數(shù)據(jù)集過(guò)采樣倍數(shù)控制在4倍以?xún)?nèi)，在實(shí)際應(yīng)用中，也可根據(jù)實(shí)際情況適度調(diào)整過(guò)采樣倍數(shù)，以獲取更優(yōu)的效果。

表9 樣本依賴(lài)的代價(jià)敏感模型在過(guò)采樣數(shù)據(jù)集的性能表現(xiàn)（UCI）Tab.9 Performance of sample-dependent cost sensitive model on oversampled data sets（UCI）

表10 實(shí)驗(yàn)所用訓(xùn)練集分布情況（SH）Tab.10 Distribution of training sets used in experiments（SH）

表11 樣本依賴(lài)的代價(jià)敏感模型性能表現(xiàn)（SH）Tab.11 Performance of sample-dependent cost sensitive models（SH）

表12 樣本依賴(lài)的代價(jià)敏感模型在過(guò)采樣數(shù)據(jù)集的性能表現(xiàn)（SH）Tab.12 Performance of sample-dependent cost sensitive model on the oversampled data sets（SH）

4 結(jié)語(yǔ)

本文著眼于諸如小微企業(yè)這類(lèi)數(shù)據(jù)集規(guī)模較小且類(lèi)別不平衡的信用評(píng)估問(wèn)題，改進(jìn)傳統(tǒng)的機(jī)器學(xué)習(xí)算法框架進(jìn)行代價(jià)敏感學(xué)習(xí)。數(shù)據(jù)處理上，為了緩解樣本中的噪聲信息以及過(guò)擬合問(wèn)題，本文應(yīng)用SMOTE算法對(duì)整體數(shù)據(jù)集進(jìn)行適度過(guò)采樣，可在不產(chǎn)生過(guò)擬合的前提下令數(shù)據(jù)集的分布更明顯。為了使模型對(duì)代價(jià)敏感，本文使用了最小風(fēng)險(xiǎn)貝葉斯決策與基本分類(lèi)器結(jié)合的框架，該框架下的模型訓(xùn)練高效且性能較為穩(wěn)健。在算法層面，構(gòu)建了以集成學(xué)習(xí)算法為基礎(chǔ)的模型，采用XGBoost集成學(xué)習(xí)算法，通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了其優(yōu)越性。另外，本文提出了一種適用小微企業(yè)的樣本依賴(lài)代價(jià)矩陣的構(gòu)建方法，可應(yīng)用于記錄了借貸額度屬性的信用數(shù)據(jù)集中。在實(shí)驗(yàn)中對(duì)比了類(lèi)別依賴(lài)代價(jià)矩陣和樣本依賴(lài)代價(jià)矩陣，驗(yàn)證了后者對(duì)代價(jià)敏感學(xué)習(xí)模型的性能具有顯著提升作用。最后，本文提出樣本依賴(lài)的SXG-BMR模型，可為金融機(jī)構(gòu)針對(duì)小微企業(yè)的信用評(píng)估提供參考。

未來(lái)研究可考慮結(jié)合特征篩選，使用相較于SMOTE算法更先進(jìn)的算法合成數(shù)據(jù)。另外，可引入諸如收入、資產(chǎn)、關(guān)系網(wǎng)、借貸用途等更多特征，研究更為精準(zhǔn)科學(xué)的信用評(píng)估領(lǐng)域的樣本依賴(lài)代價(jià)矩陣計(jì)算方法?？傊?，在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的今天，金融機(jī)構(gòu)的風(fēng)險(xiǎn)防控、業(yè)務(wù)經(jīng)營(yíng)決策將越來(lái)越依賴(lài)于大數(shù)據(jù)和人工智能，科學(xué)的信用評(píng)估體系可以幫助金融機(jī)構(gòu)高效準(zhǔn)確地識(shí)別客戶(hù)類(lèi)別，從而使優(yōu)質(zhì)企業(yè)獲取資金支持，促進(jìn)經(jīng)濟(jì)的良性發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡