国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樣本依賴(lài)代價(jià)矩陣的小微企業(yè)信用評(píng)估方法

2020-02-12 11:02:54汪御寒張玥杰
關(guān)鍵詞:代價(jià)貝葉斯分類(lèi)器

張 濤,汪御寒,李 凱,張玥杰

(1.上海財(cái)經(jīng)大學(xué)信息管理與工程學(xué)院,上海200433;2.上海財(cái)經(jīng)大學(xué)上海市金融信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,上海200433;3.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海200433;4.復(fù)旦大學(xué)上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海200433)

隨著金融業(yè)的發(fā)展,其服務(wù)范圍和方式日益豐富。聯(lián)合國(guó)于2005年提出普惠金融的概念,小微企業(yè)是普惠金融重點(diǎn)關(guān)注對(duì)象之一。我國(guó)近年來(lái)加大了對(duì)小微企業(yè)的扶持力度,鼓勵(lì)商業(yè)銀行對(duì)小微企業(yè)的借貸服務(wù)。小微企業(yè)本身暗含較高的風(fēng)險(xiǎn),建立科學(xué)的信用評(píng)估系統(tǒng)對(duì)風(fēng)險(xiǎn)進(jìn)行精準(zhǔn)判別,對(duì)金融機(jī)構(gòu)來(lái)說(shuō)至關(guān)重要。一般金融機(jī)構(gòu)對(duì)小微企業(yè)風(fēng)控嚴(yán)苛,導(dǎo)致可用的違約客戶(hù)數(shù)據(jù)集規(guī)模較小,類(lèi)別不平衡程度較高?;谶@類(lèi)信息不充分的數(shù)據(jù)集,構(gòu)建泛化性能較好的模型具有較高的理論和應(yīng)用價(jià)值,有助于金融機(jī)構(gòu)識(shí)別劣質(zhì)客戶(hù),更好地服務(wù)優(yōu)質(zhì)客戶(hù),從而促進(jìn)市場(chǎng)經(jīng)濟(jì)的發(fā)展。

國(guó)內(nèi)外對(duì)于信用評(píng)估已有較豐富的研究,主要根據(jù)一些財(cái)務(wù)指標(biāo)計(jì)算結(jié)合專(zhuān)家意見(jiàn)形成模型,而今,結(jié)合機(jī)器學(xué)習(xí)技術(shù)建模已成趨勢(shì)。West[1]建立了基于神經(jīng)網(wǎng)絡(luò)的信用評(píng)估模型,指出多專(zhuān)家模型和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型有更好的表現(xiàn)。肖文兵等[2]使用SVM(support vector machine)進(jìn)行個(gè)人信用評(píng)估,取得了較高的分類(lèi)準(zhǔn)確率。Bhattacharyya等[3]使用SVM算法、隨機(jī)森林算法和邏輯回歸算法對(duì)信用卡欺詐數(shù)據(jù)分類(lèi)預(yù)測(cè)。鄧超等[4]利用貝葉斯界定折疊法有效解決因樣本有偏引起的小企業(yè)信用評(píng)分模型分類(lèi)能力喪失問(wèn)題,增強(qiáng)了對(duì)樣本填補(bǔ)率和模型分類(lèi)能力。Lessmann等[5]系統(tǒng)闡釋了信用評(píng)估領(lǐng)域的研究近況,指出異質(zhì)集成學(xué)習(xí)的優(yōu)越性。肖斌卿等[6]提出基于模糊神經(jīng)網(wǎng)絡(luò)開(kāi)展小微企業(yè)信用評(píng)級(jí)研究,以某農(nóng)村商業(yè)銀行小微企業(yè)信貸微觀數(shù)據(jù)為樣本,實(shí)證驗(yàn)證了模型在小微企業(yè)信用評(píng)級(jí)中可獲得更高的精度。為提高模型預(yù)測(cè)精度,在特征篩選方面,學(xué)者們做了不同方面的研究。熊志斌[7]提 出 在 傳 統(tǒng) CFS(correlation-based feature selection)算法中引入Gebelein最大相關(guān)系數(shù),結(jié)合支持向量機(jī),構(gòu)建了GCFS-SVM(Gebelein CFSSVM)模型,該模型可對(duì)非線性數(shù)據(jù)進(jìn)行有效的特征提取,分類(lèi)預(yù)測(cè)效果較好。Vlasselaer等[8]提出同時(shí)關(guān)注數(shù)據(jù)內(nèi)在特征和交易關(guān)系網(wǎng)絡(luò)特征的特征提取方法,結(jié)合邏輯回歸、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林建模,獲取了對(duì)異常交易較好的識(shí)別效果。Dahiya等[9]將特征選擇和混合Bagging(bootstrap aggregating)模型結(jié)合,使用卡方檢驗(yàn)對(duì)非數(shù)值型數(shù)據(jù)進(jìn)行特征篩選,而對(duì)于數(shù)值型數(shù)據(jù),使用主成分分析。Chen等[10]分別將 LDA(latent dirichlet allocation)、決策樹(shù)、粗糙集以及F-score方法和SVM結(jié)合構(gòu)建模型,提升了單個(gè)SVM模型的性能。特征篩選通常能在數(shù)據(jù)維數(shù)大、信息冗余的情況下提升模型性能,而建模面對(duì)的數(shù)據(jù)集信息有時(shí)是不完全的,Guo等[11]詳細(xì)介紹了信用風(fēng)險(xiǎn)模型中不完整信息和延遲過(guò)濾的概念。肖進(jìn)等[12]根據(jù)信息完整度劃分訓(xùn)練集,依據(jù)數(shù)據(jù)缺失程度確定特征的權(quán)重,根據(jù)權(quán)重對(duì)特征進(jìn)行隨機(jī)選擇,充分利用了數(shù)據(jù)信息。關(guān)于算法的研究,國(guó)內(nèi)外研究者們主要采用集成學(xué)習(xí)方法來(lái)提升模型性能。Kültür等[13]基于SVM、KStar、決策樹(shù)、隨機(jī)森林、樸素貝葉斯和貝葉斯網(wǎng)絡(luò)等傳統(tǒng)模型,分別使用樂(lè)觀的投票策略、悲觀的投票策略和權(quán)重投票策略進(jìn)行集成學(xué)習(xí),檢測(cè)信用卡欺詐。Xiao等[14]提出ECSC(ensemble classification approach based on supervised clustering)策略,先將數(shù)據(jù)集進(jìn)行有監(jiān)督聚類(lèi),在不同數(shù)據(jù)集上訓(xùn)練模型,再分配權(quán)重構(gòu)建集成學(xué)習(xí)模型。Ala′raj等[15]則在進(jìn)行集成學(xué)習(xí)中考慮到基分類(lèi)器之間的關(guān)系,相較于傳統(tǒng)集成策略,對(duì)錯(cuò)誤預(yù)測(cè)有一定的修正效果。

對(duì)金融機(jī)構(gòu)而言,一個(gè)有效的模型需要充分考慮利潤(rùn)因素而不僅僅是分類(lèi)準(zhǔn)確率。Verbraken等[16]提出基于利潤(rùn)的分類(lèi)方法,以授信預(yù)期收益作為度量模型性能的一個(gè)因素。信用問(wèn)題中對(duì)于違約客戶(hù)的誤判代價(jià)遠(yuǎn)高于正??蛻?hù)的誤判代價(jià),而通常情況下,違約客戶(hù)數(shù)目又遠(yuǎn)少于正??蛻?hù)。因此,信用評(píng)估問(wèn)題是代價(jià)敏感的,也是類(lèi)別不平衡的。對(duì)于這類(lèi)問(wèn)題,可從數(shù)據(jù)角度采用重采樣技術(shù)改變樣本分布,使其趨于類(lèi)別平衡,提高模型對(duì)正樣本的關(guān)注度。重采樣技術(shù)包括欠采樣和過(guò)采樣。欠采樣減少樣本集中負(fù)樣本的數(shù)量,而傳統(tǒng)基于隨機(jī)抽樣的欠采樣方式會(huì)丟失大量信息,Ng等[17]提出DSUS(diversified sensitivity undersampling)方法,使用該方法欠采樣可有效保留富含信息的樣本,有利于建模。將原始數(shù)據(jù)集分布的數(shù)據(jù)處理方法與集成學(xué)習(xí)結(jié)合往往可以獲取不錯(cuò)的效果,鄒權(quán)等[18]將負(fù)樣本均勻分割,依次與正樣本合成訓(xùn)練集,使用不同算法構(gòu)建基分類(lèi)器,最終用投票策略建立集成學(xué)習(xí)模型。與欠采樣方法相反,過(guò)采樣方法增加訓(xùn)練集中正樣本的數(shù)量,其中,SMOTE(synthetic minority oversampling technique)算法被廣泛應(yīng)用[19]。林舒楊等[20]對(duì)負(fù)樣本進(jìn)行K均值聚類(lèi),提取與正樣本數(shù)目相當(dāng)?shù)木垲?lèi)中心,結(jié)合SMOTE算法對(duì)樣本進(jìn)行適度過(guò)采樣,有效避免樣本過(guò)度稀疏。Sun等[21]提出 DTE-SBD(decision tree ensemble based on SMOTE,bagging and differentiated sampling rates)模型,利用SMOTE算法按照不同比例對(duì)數(shù)據(jù)集進(jìn)行過(guò)采樣,提高了集成學(xué)習(xí)基礎(chǔ)分類(lèi)器之間的多樣性。另外,不少學(xué)者直接在算法層面改進(jìn)傳統(tǒng)機(jī)器學(xué)習(xí)方法,使其可有效應(yīng)對(duì)代價(jià)敏感問(wèn)題。Chung等[22]結(jié)合貝葉斯決策理論,修改SVM函數(shù)方程,使其獲取的決策超平面與樣本分布有關(guān),通過(guò)超平面的偏移可使模型更多地識(shí)別正類(lèi)樣本。Bahnsen等[23-24]提出基于最小風(fēng)險(xiǎn)貝葉斯概率計(jì)算準(zhǔn)則的分類(lèi)器,可有效降低模型誤分類(lèi)帶來(lái)的代價(jià)。閆明松等[25]以C4.5決策樹(shù)為基算法,對(duì)代價(jià)敏感決策樹(shù)和多個(gè)代價(jià)敏感Boosting算法進(jìn)行了系統(tǒng)的對(duì)比。Hulse等[26]基于Adaboost算法,提出AsymBoost算法。關(guān)于代價(jià)敏感學(xué)習(xí)中的代價(jià),之前的研究往往單純定義兩類(lèi)樣本的誤分代價(jià),近些年,學(xué)者們開(kāi)始關(guān)注到具體針對(duì)個(gè)體的誤分代價(jià)。Bahnsen等[27]在信用評(píng)估領(lǐng)域提出計(jì)算與特征有關(guān)的樣本依賴(lài)的代價(jià)矩陣,使用該方法可更科學(xué)地表征代價(jià),改善代價(jià)敏感模型性能。除了誤分類(lèi)帶來(lái)的經(jīng)濟(jì)意義上的代價(jià),一些學(xué)者還考慮到模型訓(xùn)練的代價(jià),在大規(guī)模數(shù)據(jù)集建模時(shí),權(quán)衡學(xué)習(xí)時(shí)間代價(jià)、模型維護(hù)代價(jià)和誤分類(lèi)代價(jià)有重要意義[28]。Yang等[29]對(duì)于具有缺失值的屬性,考量獲取該缺失值對(duì)于整體精度的提升度和耗費(fèi)代價(jià)的關(guān)系,以建立整體代價(jià)最小的模型。

當(dāng)信用數(shù)據(jù)規(guī)模較小時(shí),對(duì)于類(lèi)別不平衡問(wèn)題,采用欠采樣會(huì)導(dǎo)致模型訓(xùn)練所用信息不足,而僅對(duì)正樣本的過(guò)采樣易導(dǎo)致過(guò)擬合。本文在之前學(xué)者研究的基礎(chǔ)上,提出樣本依賴(lài)的SXG-BMR模型,同時(shí)對(duì)正負(fù)樣本進(jìn)行低倍率過(guò)采樣,使樣本分布明晰的同時(shí)有效避免了過(guò)擬合,以集成學(xué)習(xí)為基本模型,基于樣本依賴(lài)代價(jià)矩陣,利用最小貝葉斯風(fēng)險(xiǎn)決策框架在模型中引入更符合實(shí)際的代價(jià),大大提高了模型對(duì)于正樣本的識(shí)別能力,可有效提高信用評(píng)估模型的性能。

1 樣本依賴(lài)代價(jià)敏感模型的數(shù)據(jù)策略

類(lèi)別不平衡問(wèn)題是信用評(píng)估領(lǐng)域普遍需要面對(duì)的問(wèn)題,而由于小微企業(yè)自身的特殊性,其信用評(píng)估過(guò)程中該問(wèn)題更為突出。銀行往往會(huì)主觀上拒絕對(duì)小微企業(yè)的信貸以防控風(fēng)險(xiǎn),導(dǎo)致歷史數(shù)據(jù)集的整體數(shù)據(jù)量較少;同時(shí),銀行對(duì)小微企業(yè)的借貸要求往往更為嚴(yán)格,導(dǎo)致歷史數(shù)據(jù)集中的正樣本數(shù)目極少,類(lèi)別不平衡的程度較高。為了應(yīng)對(duì)這一問(wèn)題,本文采用樣本依賴(lài)的代價(jià)敏感模型框架。在數(shù)據(jù)層面上,代價(jià)敏感模型訓(xùn)練的輸入包括數(shù)據(jù)集和代價(jià)敏感矩陣集。本文對(duì)整體樣本進(jìn)行過(guò)采樣以明晰樣本分布,并依據(jù)數(shù)據(jù)特征,針對(duì)每一個(gè)樣本計(jì)算其代價(jià)矩陣,以更為精確地衡量代價(jià)。

1.1 整體樣本過(guò)采樣

SMOTE算法是過(guò)采樣方法中的經(jīng)典算法,其基本思想是在樣本和其鄰近同類(lèi)樣本連線上隨機(jī)插入新的同類(lèi)樣本[19]。在應(yīng)對(duì)類(lèi)別不平衡問(wèn)題上,SMOTE方法多被用于生成少數(shù)類(lèi)樣本,以平衡數(shù)據(jù)集。但在樣本集規(guī)模較小的情況下,缺少的不只是正樣本的信息,負(fù)樣本的分布也很難由少數(shù)數(shù)據(jù)反映,正負(fù)樣本分界超平面較為模糊。若采用SMOTE算法僅僅對(duì)每個(gè)小類(lèi)樣本進(jìn)行過(guò)采樣,將會(huì)產(chǎn)生一定的盲目性現(xiàn)象,導(dǎo)致有些人工合成的小類(lèi)樣本對(duì)大類(lèi)樣本的泛化空間產(chǎn)生影響,降低分類(lèi)效果[30]。另外,SMOTE方法僅對(duì)所有少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣處理,未充分考慮不同樣本對(duì)分類(lèi)平面的重要度的差異,易導(dǎo)致模型對(duì)正樣本的過(guò)適應(yīng),將可能使分類(lèi)器出現(xiàn)過(guò)擬合現(xiàn)象[31-32]。

為此,本文提出基于SMOTE算法對(duì)整體樣本進(jìn)行過(guò)采樣的方法,平衡了過(guò)采樣引入噪聲以及降采樣丟失樣本的矛盾。其基本思路如下:采用SMOTE算法對(duì)整個(gè)樣本集進(jìn)行處理,同時(shí)生成正、負(fù)樣本,樣本生成比例可視實(shí)際問(wèn)題數(shù)據(jù)規(guī)模而定。該方法可有效應(yīng)對(duì)數(shù)據(jù)集過(guò)小或數(shù)據(jù)缺失的情況,使正負(fù)樣本分界面更為明顯,降低模型分類(lèi)的難度,避免過(guò)擬合,提高模型的準(zhǔn)確性。對(duì)于樣本集中每一個(gè)樣本,以樣本xi為例,找到其K個(gè)同類(lèi)近鄰樣本zi1,zi2,…,ziK,按公式(1)隨機(jī)生成新的樣本:

同時(shí),根據(jù)UCI(University of California Irvine)信用數(shù)據(jù)集和上海市小微企業(yè)信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),通過(guò)利用SMOTE算法對(duì)樣本整體過(guò)采樣處理得到的結(jié)果優(yōu)于僅僅利用SMOTE算法對(duì)正樣本進(jìn)行過(guò)采樣的結(jié)果,并且能夠很好地實(shí)現(xiàn)精確率(Precision)和召回率(Recall)的平衡。

1.2 樣本依賴(lài)代價(jià)矩陣

代價(jià)矩陣是標(biāo)識(shí)將樣本劃分為不同類(lèi)別所導(dǎo)致代價(jià)的矩陣,諸如信用評(píng)估這類(lèi)二分類(lèi)問(wèn)題,樣本xi的代價(jià)矩陣如表1所示。

表1 樣本xi的代價(jià)矩陣Tab.1 Cost matrix of sample xi

表1中,CTPi、CFPi、CFPi、CFPi分別表示樣本xi不同預(yù)測(cè)結(jié)果導(dǎo)致的成本(代價(jià))。關(guān)于代價(jià)敏感學(xué)習(xí),在一些問(wèn)題中,誤分的代價(jià)與樣本自身屬性有關(guān),而不僅僅與類(lèi)別有關(guān),比如不同貸款額度會(huì)帶來(lái)不同的誤分代價(jià)。Bahnsen等[27]將正確分類(lèi)的代價(jià)定為0,對(duì)錯(cuò)誤分類(lèi)的代價(jià)進(jìn)行計(jì)算,提出了信用評(píng)估中的樣本依賴(lài)代價(jià)矩陣,如表2所示。其中,對(duì)于樣本xi,Ri表示損失優(yōu)質(zhì)客戶(hù)帶來(lái)的損失,可根據(jù)借款利率和客戶(hù)信用額度計(jì)算而得;CFPα基于資金不會(huì)閑置的假設(shè),表示拒絕好的客戶(hù)選擇其他客戶(hù)可能帶來(lái)的潛在損失,可根據(jù)市場(chǎng)上的平均信用額度和平均利潤(rùn)率計(jì)算;cli表示其信用額度,可根據(jù)客戶(hù)償債能力的指標(biāo)計(jì)算得到;Lgd表示壞賬帶來(lái)的損失占信用額度的比率,Bahnsen等在研究中擬定了Lgd為75%。通過(guò)這種規(guī)則可得出所有樣本的代價(jià)矩陣,每個(gè)矩陣都是根據(jù)個(gè)體的情況計(jì)算,更精確地描述了誤分類(lèi)帶來(lái)的代價(jià)。

表2 樣本xi的樣本依賴(lài)代價(jià)矩陣Tab.2 Sample-dependent cost matrix of sample xi

為了更貼近實(shí)際代價(jià),本文根據(jù)所研究數(shù)據(jù)集所包含的特征以及市場(chǎng)情況,提出了相應(yīng)的代價(jià)矩陣計(jì)算方法,該方法與貸款額度和樣本類(lèi)別比例有關(guān),這樣可以跟隨樣本集中兩類(lèi)樣本的比例,調(diào)整模型對(duì)正樣本的關(guān)注度,有利于提升模型的性能。對(duì)于樣本xi代價(jià)矩陣中的CFPi的計(jì)算,基于資金不會(huì)閑置的假設(shè),拒絕該客戶(hù)后,將會(huì)貸給其他客戶(hù),以樣本集的平均貸款額度表示將該資金貸給其他客戶(hù)的額度,以樣本集的平均貸款時(shí)間作為貸給其他客戶(hù)的時(shí)間,以樣本集的平均貸款利率作為貸給其他客戶(hù)的利率,以樣本中正負(fù)樣本的頻率分別作為貸給劣質(zhì)客戶(hù)和優(yōu)質(zhì)客戶(hù)的概率。因此,本文設(shè)計(jì)樣本依賴(lài)代價(jià)如下:

式中:cni為樣本xi的貸款額度;ti為樣本xi的貸款時(shí)間;ri為其貸款利率為樣本集平均貸款額度為平均貸款時(shí)間為平均貸款利率;ppercent為樣本集中的正樣本所占比例。

2 基于樣本依賴(lài)的SXG-BMR模型

鑒于 XGBoost(Extreme Gradient Boosting)算法可充分利用信息又能防止過(guò)擬合,本文構(gòu)造基于最小風(fēng)險(xiǎn)貝葉斯決策的代價(jià)敏感學(xué)習(xí)框架,采用XGBoost算法,并結(jié)合前文的數(shù)據(jù)策略,提出樣本依賴(lài)的SXG-BMR模型。

2.1 最小風(fēng)險(xiǎn)貝葉斯決策

若樣本共有u類(lèi),分別為ω1,ω2,…,ωu,相應(yīng)地,其先驗(yàn)概率分別為p(ω1),p(ω2),…,p(ωu)。對(duì)于樣本xi,計(jì)算得到其對(duì)各類(lèi)的條件概率p(xi|ω1),p(xi|ω2),…,p(xi|ωu),若已知條件概率分布類(lèi)型,可使用最大似然法進(jìn)行參數(shù)估計(jì);如概率分布未知,則可用訓(xùn)練樣本的方法進(jìn)行非參數(shù)估計(jì)。根據(jù)貝葉斯公式,計(jì)算出各后驗(yàn)概率p(ω1|xi),p(ω2|xi),…,p(ωu|xi),如式(5)所示。

進(jìn)一步,引入風(fēng)險(xiǎn)代價(jià)因素,以整體風(fēng)險(xiǎn)最小化為目的優(yōu)化模型,即為最小風(fēng)險(xiǎn)貝葉斯決策,應(yīng)用于代價(jià)敏感學(xué)習(xí)問(wèn)題,可提升模型決策性能[23]。記將屬于ωj類(lèi)的樣本歸于ωk類(lèi)帶來(lái)的風(fēng)險(xiǎn)為λkj。對(duì)于某個(gè)樣本xi,求解式(6)得到λk*,進(jìn)而得到相對(duì)應(yīng)的k*,而相應(yīng)的類(lèi)ωk*即為樣本xi的最終類(lèi)別。

式中:p(ω)=(p(ω1|xi),p(ω2|xi),…,p(ωu|xi));λk=(λk1,λk2,…,λku)。

2.2 XGBoost算法

XGBoost算法是梯度提升算法的一種優(yōu)化實(shí)現(xiàn)形式,由Chen等提出并實(shí)現(xiàn)[33]。其目標(biāo)函數(shù)包括損失函數(shù)和正則項(xiàng),在進(jìn)行學(xué)習(xí)迭代更新時(shí)考慮二階導(dǎo)數(shù)信息,可更快地優(yōu)化目標(biāo)函數(shù)。同時(shí),在目標(biāo)函數(shù)中加入正則項(xiàng),可控制模型復(fù)雜度,有效防止過(guò)擬合。本文應(yīng)對(duì)的數(shù)據(jù)集,一方面數(shù)據(jù)規(guī)模較小,需要被充分地學(xué)習(xí);另一方面,為提升模型對(duì)樣本的識(shí)別能力,對(duì)數(shù)據(jù)集進(jìn)行了一定程度的過(guò)采樣,建模有過(guò)擬合的風(fēng)險(xiǎn)。在這種情況下,XGBoost是一種較為理想的算法。對(duì)XGBoost的設(shè)計(jì)如下:

對(duì)于數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xn,yn)},xi為樣本,yi為樣本xi的真實(shí)值,y^i為樣本xi的預(yù)測(cè)結(jié)果,i∈{1,2,…,n}。設(shè)初始狀態(tài)設(shè)為,則

第m次迭代后,

式中:y^(m)i為第m輪后對(duì)樣本xi的預(yù)測(cè)結(jié)果;fm為第m輪迭代的分類(lèi)器,fm∈F,F(xiàn)為分類(lèi)器集合。

第m次迭代,XGBoost的目標(biāo)函數(shù)如式(9)所示。

式中:l為損失函數(shù),Ω為正則項(xiàng)??紤]二階信息,對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi),舍去常數(shù)項(xiàng),得到新的目標(biāo)函數(shù),如公式(10)所示。

每次迭代求解得到fm,迭代M次之后,獲取最終分類(lèi)器y^(M),如公式(11)所示。

2.3 樣本依賴(lài)的SXG-BMR算法流程

本文基于XGBoost算法,結(jié)合數(shù)據(jù)過(guò)采樣的預(yù)處理方式,利用樣本依賴(lài)代價(jià)矩陣和最小風(fēng)險(xiǎn)貝葉斯決策,將代價(jià)敏感元素引入模型,從而構(gòu)建了樣本依賴(lài)的SXG-BMR模型。以0表征負(fù)樣本(正??蛻?hù))類(lèi)別,1表示正樣本(違約客戶(hù))類(lèi)別,具體決策流程如下:

(1)利用SMOTE算法對(duì)訓(xùn)練集進(jìn)行整體過(guò)采樣,得到新的樣本集合,過(guò)采樣比例根據(jù)樣本規(guī)模而定。

(2)對(duì)于樣本集合中每一個(gè)樣本xi,計(jì)算其樣本依賴(lài)代價(jià)矩陣(CFPi,CFNi,0,0)。

(3)利用XGBoost算法訓(xùn)練模型,得出將樣本xi的預(yù)測(cè)為負(fù)類(lèi)的概率

(4)獲取樣本xi的樣本依賴(lài)代價(jià)矩陣(CFPi,CFNi,0,0)。

(5)計(jì)算對(duì)樣本xi的分類(lèi)預(yù)測(cè)平均代價(jià):

依據(jù)最小風(fēng)險(xiǎn)貝葉斯準(zhǔn)則進(jìn)行決策,將樣本xi判定為預(yù)測(cè)代價(jià)小的類(lèi)別。

值得說(shuō)明的是,本文較為簡(jiǎn)單直接地根據(jù)客戶(hù)信用額度、借貸時(shí)間兩個(gè)屬性進(jìn)行樣本依賴(lài)代價(jià)矩陣的計(jì)算,該方法具有較好的普適性。當(dāng)然,代價(jià)矩陣也可由數(shù)據(jù)集給出,也可根據(jù)樣本比例自行定義,兩類(lèi)樣本比例差別越大,對(duì)正樣本賦予的關(guān)注度越高,代價(jià)矩陣中CFN的值應(yīng)越大。在實(shí)際操作中,如果無(wú)法獲取代價(jià)矩陣,可通過(guò)不斷調(diào)整參數(shù),選出在數(shù)據(jù)集上表現(xiàn)最好的代價(jià)矩陣建立模型。如果不考慮代價(jià)矩陣,則模型相當(dāng)于加入了SMOTE對(duì)整個(gè)樣本處理的貝葉斯最小錯(cuò)誤率決策,對(duì)于增強(qiáng)小樣本集的模型分類(lèi)性能也有一定的參考價(jià)值。

3 實(shí)驗(yàn)分析

本文使用了兩個(gè)數(shù)據(jù)集對(duì)提出的算法框架進(jìn)行驗(yàn)證。首先在UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行縱向、橫向?qū)Ρ?,以?yàn)證樣本依賴(lài)的SXG-BMR模型的性能。在對(duì)分類(lèi)算法進(jìn)行對(duì)比分析時(shí),本文選用了較為經(jīng)典的Adaboost、Gradient Boosting、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、邏輯回歸方法,再分別對(duì)其進(jìn)行最小風(fēng)險(xiǎn)貝葉斯決策的改進(jìn),以引入代價(jià)敏感學(xué)習(xí)算法,另外還選用了代價(jià)敏感決策樹(shù)和代價(jià)敏感隨機(jī)森林算法作為對(duì)比對(duì)象。數(shù)據(jù)處理層面,本文進(jìn)行了僅用SMOTE算法對(duì)正樣本進(jìn)行過(guò)采樣平衡數(shù)據(jù)和對(duì)整體數(shù)據(jù)進(jìn)行過(guò)采樣的對(duì)比。對(duì)整體樣本的過(guò)采樣,不改變?cè)颊?fù)樣本比例,為防止過(guò)擬合,對(duì)整體樣本采用了較低的過(guò)采樣倍數(shù)。代價(jià)矩陣層面,進(jìn)行了類(lèi)別依賴(lài)矩陣和樣本依賴(lài)代價(jià)矩陣的對(duì)比。之后,本文將基于樣本依賴(lài)的SXG-BMR模型應(yīng)用于上海市小微企業(yè)信用數(shù)據(jù)集中,通過(guò)對(duì)比實(shí)驗(yàn),進(jìn)一步驗(yàn)證了該模型的有效性。本文模型性能皆使用五折交叉驗(yàn)證結(jié)果度量。

3.1 數(shù)據(jù)集

UCI信用數(shù)據(jù)集由Hofmann教授提供,共包含1 000個(gè)樣本,有20個(gè)屬性,樣本分布比例如表3所示。數(shù)據(jù)集描述了客戶(hù)的信用額度、貸款期限、借貸歷史、借款目的、年齡、房產(chǎn)、工作、婚姻狀況、國(guó)籍等信息,并提供了類(lèi)別依賴(lài)的代價(jià)矩陣,如表4所示。

表3 UCI信用數(shù)據(jù)樣本分布情況Tab.3 Sample distribution of UCI credit data

表4 信用數(shù)據(jù)代價(jià)矩陣Tab.4 Cost matrix of credit data

上海市小微企業(yè)信用數(shù)據(jù)記錄了上海地區(qū)部分小微企業(yè)的歷史借款違約情況,原始數(shù)據(jù)有財(cái)務(wù)型屬性也有非財(cái)務(wù)型屬性,考慮到小微企業(yè)財(cái)務(wù)數(shù)據(jù)的真實(shí)性問(wèn)題,數(shù)據(jù)中更側(cè)重于非財(cái)務(wù)型屬性,從企業(yè)的員工情況、組成結(jié)構(gòu)、歷史行為等方面描述企業(yè)特征。屬性主要包括企業(yè)借貸金額、企業(yè)固定資產(chǎn)、大股東學(xué)歷、房產(chǎn)、車(chē)產(chǎn)、婚姻情況、高管學(xué)歷以及信用逾期情況、法人代表學(xué)歷信用逾期情況、員工學(xué)歷分布、企業(yè)繳納社保情況。共4 193條樣本,樣本分布情況如表5所示,樣本類(lèi)別不平衡程度較嚴(yán)重。

表5 上海市小微企業(yè)信用數(shù)據(jù)樣本分布情況Tab.5 Sample distribution of credit data of smalland micro enterprises in Shanghai

3.2 模型性能度量指標(biāo)

在信用評(píng)估領(lǐng)域,一個(gè)優(yōu)質(zhì)的模型應(yīng)在盡可能識(shí)別有風(fēng)險(xiǎn)客戶(hù)的同時(shí)避免流失優(yōu)質(zhì)客戶(hù),提高整體節(jié)約的代價(jià)。本文采用召回率(Recall)、精確率(Precision)、AUC(Area Under Curve,ROC曲線下的面積)和代價(jià)節(jié)省率Saving rate來(lái)度量模型性能。Recall和Precision定義如下:

式中:TP為實(shí)際正類(lèi),預(yù)測(cè)正類(lèi);FN為實(shí)際負(fù)類(lèi),預(yù)測(cè)正類(lèi)。

式中:FP為實(shí)際負(fù)類(lèi),預(yù)測(cè)正類(lèi)。

代價(jià)節(jié)省率標(biāo)識(shí)模型可度量節(jié)約代價(jià)的程度,本文將模型預(yù)測(cè)所產(chǎn)生的代價(jià)與將全部樣本預(yù)測(cè)為正或者負(fù)產(chǎn)生代價(jià)中較小值相比,來(lái)表征代價(jià)節(jié)省率。對(duì)于樣本集yi∈ {0,1},i∈ {0,1,…,n},使用分類(lèi)器f(x)對(duì)T中樣本進(jìn)行預(yù)測(cè),得到預(yù)測(cè)類(lèi)別集合{y^1,y^2,…,y^n},其代價(jià)節(jié)省率計(jì)算如式(16)所示。

式中:Cost(f(T))表示按照分類(lèi)器的預(yù)測(cè)結(jié)果所產(chǎn)生的代價(jià)。

這里,Cost(f0(T))表示將所有樣本全部判定為負(fù)類(lèi)所帶來(lái)的代價(jià),Cost(f1(T))表示將所有樣本全部判定為正類(lèi)所帶來(lái)的代價(jià)。

3.3 整體性能評(píng)估與比較

3.3.1 UCI信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

本文進(jìn)行了不對(duì)數(shù)據(jù)集采樣處理、對(duì)正樣本進(jìn)行過(guò)采樣和對(duì)整個(gè)樣本集進(jìn)行不同倍率過(guò)采樣的對(duì)比,以驗(yàn)證用SMOTE算法對(duì)樣本整體過(guò)采樣的有效性。所使用訓(xùn)練集的分布如表6所示。

表6 實(shí)驗(yàn)所用訓(xùn)練集分布情況(UCI)Tab.6 Distribution of training sets used in experiments(UCI)

根據(jù)原始數(shù)據(jù)集中提供的代價(jià)矩陣,各分類(lèi)器對(duì)于初始數(shù)據(jù)集的分類(lèi)結(jié)果如表7所示。選用算法包括:AB(adaboost)、GB(gradient boosting)、XG(XGBoost)、LR(logistic regression)、NN(neural network),RF(random forest)、DT(decision tree)、BMR(對(duì)模型引入Bayes minimum risk)、CS-DT(cost sensitive decision tree)和CS-RF(cost sensitive random forest)。

由表7可以看出,在未引入代價(jià)敏感元素的分類(lèi)器中,各分類(lèi)器效果表現(xiàn)均不佳,且代價(jià)節(jié)省率多為負(fù)值。在引入最小風(fēng)險(xiǎn)貝葉斯決策之后,各分類(lèi)器的代價(jià)節(jié)省率有所提升,但其整體表現(xiàn)依然并不夠理想,其Saving rate值均小于0.2。雖然各分類(lèi)器的Recall值明顯增大,均接近1,但是,引入最小風(fēng)險(xiǎn)貝葉斯決策之后的各分類(lèi)器的Precision值比未引入代價(jià)敏感元素均偏小。這是因?yàn)樵摂?shù)據(jù)集的正負(fù)誤分類(lèi)代價(jià)比統(tǒng)一為1:5,而總體樣本數(shù)目較少,模型無(wú)法準(zhǔn)確得到正負(fù)樣本的分布規(guī)律,導(dǎo)致各模型對(duì)負(fù)樣本過(guò)于敏感。所以,在引入最小風(fēng)險(xiǎn)貝葉斯決策之后,各分類(lèi)器的Recall值明顯增大,但Precision值顯著減小,AUC值也有所下降。

本文以市場(chǎng)一年期貸款利率為4.75%,默認(rèn)壞賬損失金額率為75%,計(jì)算樣本依賴(lài)代價(jià)矩陣。引入樣本依賴(lài)代價(jià)矩陣后,各代價(jià)敏感模型性能如表8所示,結(jié)果顯示其性能優(yōu)于未引入代價(jià)敏感元素的原始模型,也優(yōu)于基于類(lèi)別依賴(lài)矩陣的代價(jià)敏感模型,取得了Precision和Recall的平衡,提升了AUC以及代價(jià)節(jié)省率。其中XG-BMR模型表現(xiàn)相對(duì)較好,各性能度量指標(biāo)數(shù)值較為均衡,且都優(yōu)于其他模型,代價(jià)節(jié)省率高達(dá)0.434。

表7 原始數(shù)據(jù)集上各模型性能表現(xiàn)(UCI)Tab.7 Performance of models on original data sets(UCI)

表8 樣本依賴(lài)的代價(jià)敏感模型性能表現(xiàn)(UCI)Tab.8 Performance of sample-dependent cost sensitive models(UCI)

選取性能表現(xiàn)相對(duì)較好的模型AB-BMR、GBBMR、XG-BMR、LR-BMR、RF-BMR、CS-DT和CS-RF,采用本文SMOTE方法處理數(shù)據(jù)集后,各模型在各數(shù)據(jù)集上的性能表現(xiàn)如表9所示。

從表9可以看出,利用SMOTE算法對(duì)樣本整體過(guò)采樣得到的結(jié)果優(yōu)于利用SMOTE算法僅僅對(duì)正樣本進(jìn)行過(guò)采樣得到的結(jié)果,使用SMOTE對(duì)整體數(shù)據(jù)集進(jìn)行處理可以使各模型分類(lèi)性能得到顯著提升。對(duì)整體數(shù)據(jù)集僅擴(kuò)充一倍時(shí),使用XG-BMR模型的 Recall達(dá)到 0.771,Precision為 0.751,AUC為0.757,優(yōu)于傳統(tǒng)平衡數(shù)據(jù)集上訓(xùn)練模型的效果,由于樣本個(gè)體代價(jià)差異,代價(jià)節(jié)省率稍弱于僅對(duì)正樣本過(guò)采樣的結(jié)果,但也已十分接近,這表明了對(duì)整體數(shù)據(jù)集過(guò)采樣的有效性。不過(guò),高倍過(guò)采樣比例對(duì)模型性能代價(jià)提升效果有限,并未呈現(xiàn)明顯與過(guò)采樣比例正相關(guān)的關(guān)系,為了避免過(guò)擬合,對(duì)整體樣本過(guò)采樣程度以不超過(guò)4倍為宜。在這種情況下,基于三種Boosting算法的模型性能表現(xiàn)相對(duì)穩(wěn)健,很好實(shí)現(xiàn)了Precision和Recall的平衡。其中,ABBMR模型在對(duì)整體樣本過(guò)采樣至四倍的數(shù)據(jù)集中獲得較優(yōu)效果,GB-BMR對(duì)整體過(guò)采樣至三倍的數(shù)據(jù)集中獲得較優(yōu)效果,而XG-BMR在對(duì)整體過(guò)采樣至兩倍的數(shù)據(jù)集中即獲取優(yōu)于其余模型的表現(xiàn)。

因此,本實(shí)驗(yàn)驗(yàn)證了本文所提出的SXG-BMR模型的有效性,以及樣本依賴(lài)代價(jià)敏感數(shù)據(jù)策略對(duì)模型性能的提升作用。

3.3.2 上海市小微企業(yè)信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

對(duì)于上海市小微企業(yè)數(shù)據(jù)集(SH),本部分實(shí)驗(yàn)所用的數(shù)據(jù)集分別為原始數(shù)據(jù)集、使用SMOTE平衡數(shù)據(jù)集以及對(duì)整體數(shù)據(jù)樣本過(guò)采樣2~4倍的數(shù)據(jù)集,具體訓(xùn)練集分布如表10所示。

代入市場(chǎng)貸款利率,計(jì)算出樣本依賴(lài)代價(jià)矩陣。對(duì)于缺失借貸時(shí)間的樣本,均默認(rèn)為1年。各樣本依賴(lài)代價(jià)敏感模型在原始數(shù)據(jù)集中的結(jié)果如表11所示。

由表11可以發(fā)現(xiàn),各模型沒(méi)有達(dá)到Recall和Precision很好的平衡。其中,AB-BMR、GB-BMR、XG-BMR和LR-BMR取得了較高的Recall,但Precision皆較低。而CS-RF取得了很高的Precision,為0.883,Recall卻僅有0.486。

選取在原始數(shù)據(jù)集中表現(xiàn)相對(duì)較好的ABBMR、GB-BMR、XG-BMR、LR-BMR、RF-BMR,采用SMOTE方法處理數(shù)據(jù)集后,各模型在各數(shù)據(jù)集上的性能表現(xiàn)如表12所示。

由表12可知,使用SMOTE方法僅對(duì)正樣本過(guò)采樣平衡數(shù)據(jù)集后,模型獲得了很高的Precision,但并沒(méi)有很好地識(shí)別正樣本,Recall相較于原始數(shù)據(jù)集大幅降低,有過(guò)擬合的傾向。而對(duì)整體樣本低倍率過(guò)采樣取得了較為均衡的效果,當(dāng)數(shù)據(jù)集擴(kuò)充至4倍時(shí),XG-BMR模型Recall達(dá)0.937,Precision達(dá)0.713,AUC高達(dá)0.820,代價(jià)節(jié)省率為0.704,效果優(yōu)于其他模型。同UCI信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果類(lèi)似,利用SMOTE算法對(duì)樣本整體過(guò)采樣得到的結(jié)果優(yōu)于利用SMOTE算法僅僅對(duì)正樣本進(jìn)行過(guò)采樣得到的結(jié)果,并且能夠很好地實(shí)現(xiàn)各模型Precision和Recall的平衡。

本實(shí)驗(yàn)進(jìn)一步驗(yàn)證了樣本依賴(lài)SXG-BMR模型可有效應(yīng)對(duì)類(lèi)別不平衡的信用數(shù)據(jù),高效而精確地識(shí)別違約客戶(hù),具有較好的實(shí)際應(yīng)用價(jià)值。為防止過(guò)擬合,實(shí)驗(yàn)中對(duì)整體數(shù)據(jù)集過(guò)采樣倍數(shù)控制在4倍以?xún)?nèi),在實(shí)際應(yīng)用中,也可根據(jù)實(shí)際情況適度調(diào)整過(guò)采樣倍數(shù),以獲取更優(yōu)的效果。

表9 樣本依賴(lài)的代價(jià)敏感模型在過(guò)采樣數(shù)據(jù)集的性能表現(xiàn)(UCI)Tab.9 Performance of sample-dependent cost sensitive model on oversampled data sets(UCI)

表10 實(shí)驗(yàn)所用訓(xùn)練集分布情況(SH)Tab.10 Distribution of training sets used in experiments(SH)

表11 樣本依賴(lài)的代價(jià)敏感模型性能表現(xiàn)(SH)Tab.11 Performance of sample-dependent cost sensitive models(SH)

表12 樣本依賴(lài)的代價(jià)敏感模型在過(guò)采樣數(shù)據(jù)集的性能表現(xiàn)(SH)Tab.12 Performance of sample-dependent cost sensitive model on the oversampled data sets(SH)

4 結(jié)語(yǔ)

本文著眼于諸如小微企業(yè)這類(lèi)數(shù)據(jù)集規(guī)模較小且類(lèi)別不平衡的信用評(píng)估問(wèn)題,改進(jìn)傳統(tǒng)的機(jī)器學(xué)習(xí)算法框架進(jìn)行代價(jià)敏感學(xué)習(xí)。數(shù)據(jù)處理上,為了緩解樣本中的噪聲信息以及過(guò)擬合問(wèn)題,本文應(yīng)用SMOTE算法對(duì)整體數(shù)據(jù)集進(jìn)行適度過(guò)采樣,可在不產(chǎn)生過(guò)擬合的前提下令數(shù)據(jù)集的分布更明顯。為了使模型對(duì)代價(jià)敏感,本文使用了最小風(fēng)險(xiǎn)貝葉斯決策與基本分類(lèi)器結(jié)合的框架,該框架下的模型訓(xùn)練高效且性能較為穩(wěn)健。在算法層面,構(gòu)建了以集成學(xué)習(xí)算法為基礎(chǔ)的模型,采用XGBoost集成學(xué)習(xí)算法,通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了其優(yōu)越性。另外,本文提出了一種適用小微企業(yè)的樣本依賴(lài)代價(jià)矩陣的構(gòu)建方法,可應(yīng)用于記錄了借貸額度屬性的信用數(shù)據(jù)集中。在實(shí)驗(yàn)中對(duì)比了類(lèi)別依賴(lài)代價(jià)矩陣和樣本依賴(lài)代價(jià)矩陣,驗(yàn)證了后者對(duì)代價(jià)敏感學(xué)習(xí)模型的性能具有顯著提升作用。最后,本文提出樣本依賴(lài)的SXG-BMR模型,可為金融機(jī)構(gòu)針對(duì)小微企業(yè)的信用評(píng)估提供參考。

未來(lái)研究可考慮結(jié)合特征篩選,使用相較于SMOTE算法更先進(jìn)的算法合成數(shù)據(jù)。另外,可引入諸如收入、資產(chǎn)、關(guān)系網(wǎng)、借貸用途等更多特征,研究更為精準(zhǔn)科學(xué)的信用評(píng)估領(lǐng)域的樣本依賴(lài)代價(jià)矩陣計(jì)算方法??傊?,在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的今天,金融機(jī)構(gòu)的風(fēng)險(xiǎn)防控、業(yè)務(wù)經(jīng)營(yíng)決策將越來(lái)越依賴(lài)于大數(shù)據(jù)和人工智能,科學(xué)的信用評(píng)估體系可以幫助金融機(jī)構(gòu)高效準(zhǔn)確地識(shí)別客戶(hù)類(lèi)別,從而使優(yōu)質(zhì)企業(yè)獲取資金支持,促進(jìn)經(jīng)濟(jì)的良性發(fā)展。

猜你喜歡
代價(jià)貝葉斯分類(lèi)器
BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
愛(ài)的代價(jià)
海峽姐妹(2017年12期)2018-01-31 02:12:22
貝葉斯公式及其應(yīng)用
代價(jià)
加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
電子器件(2015年5期)2015-12-29 08:43:15
成熟的代價(jià)
基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
汉沽区| 临洮县| 阿尔山市| 秭归县| 马尔康县| 砚山县| 武夷山市| 迁西县| 六盘水市| 巴彦县| 麦盖提县| 泉州市| 巴中市| 延边| 通城县| 巴东县| 湘乡市| 河池市| 南溪县| 双桥区| 邻水| 益阳市| 三原县| 阳山县| 辽源市| 鄂伦春自治旗| 沂水县| 灵石县| 丁青县| 石狮市| 聂拉木县| 洛阳市| 吉林省| 纳雍县| 晋城| 新昌县| 边坝县| 靖边县| 类乌齐县| 青神县| 晋宁县|