国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Tri-training算法的多分類信用評級方法

2023-04-29 00:44:03曹欣妍周杰
關鍵詞:決策樹評級發(fā)票

曹欣妍 周杰

隨著經(jīng)濟的快速發(fā)展,信用貸款在企業(yè)資金周轉(zhuǎn)中的作用越來越重要.信用評級是信用貸款發(fā)放的基本依據(jù)之一.本文針對實際信用評級中有標簽樣本數(shù)量不足的問題,提出一種基于Tri-training算法的多分類信用評級方法,該方法選擇支持向量機、決策樹和最大熵模型作為基分類器組合.最后,本文使用真實的信用數(shù)據(jù)集驗證了該方法的實際效果.

多分類信用評級; 半監(jiān)督學習; Tri-training

O175.5A2023.021001

收稿日期: 2022-04-18

基金項目: 國家自然科學基金 (11871357)

作者簡介: 曹欣妍(1997-), 女, 四川成都人, 碩士研究生, 主要研究方向為大數(shù)據(jù)分析. E-mail: 1216510013@qq.com

通訊作者: 周杰. E-mail: jzhou@scu.edu.cn

Multi-class credit rating method based on Tri-training algorithm

CAO Xin-Yan, ZHOU Jie

(School of Mathematics, Sichuan University, Chengdu 610064, China)

Credit loans become more and more important in the capital turnover of corporations with the rapid development of? economy. Credit rating is the base of credit loan. In this paper we focus on the problem of insuicient number of label samples in actual credit rating and propose a multi-class credit rating method based on the Tri-training algorithm, which selects the support vector machine, the decision tree and the maximum entropy model as the base classifiers combination. Finally, the performance of the method is verified by using some real credit datasets.

Multi-class credit rating; Semi-supervised learning; Tri-training algorithm

1 引 言

隨著國民經(jīng)濟的快速發(fā)展,信用貸款在企業(yè)資金周轉(zhuǎn)中的作用越來越大.信用評級是金融機構發(fā)放信用貸款的一個基本依據(jù).傳統(tǒng)的信用評級方法是專家通過對貸款申請者的各方面要素進行分析評定,例如借款用途、經(jīng)濟能力、償債記錄等.這種方法依靠人工經(jīng)驗,具有效率低、結果不穩(wěn)定等缺點.隨著信貸行業(yè)的飛速發(fā)展,貸款業(yè)務種類越來越多、貸款申請者數(shù)量越來越大、信用評級的準確率要求越來越高,傳統(tǒng)的專家要素分析法已經(jīng)不再適用.

另一方面,隨著數(shù)據(jù)科學的發(fā)展和大數(shù)據(jù)時代的到來,數(shù)據(jù)分析與數(shù)據(jù)挖掘方法被廣泛應用于信用評級問題中.此類信用評級方法需要大量有標簽的樣本數(shù)據(jù),以便對分類器進行訓練,保證其準確率和泛化性.但是,在實際應用場景中,多數(shù)貸款申請者沒有信用標簽,如果僅使用少量有標簽申請者信息作為樣本數(shù)據(jù),就可能因樣本量不足導致分類器性能不佳,導致分類效果變差. 因此,如何利用大量無信用標簽申請者的信息來提高分類器的性能是一個值得研究的問題.

信用評級方法的研究經(jīng)歷了從基于傳統(tǒng)統(tǒng)計學習方法到基于機器學習方法的轉(zhuǎn)變.1941年,Durand[1]提出了基于使用數(shù)理統(tǒng)計的模型,將線性判別分析法(Linear Discriminant Analysis, LDA)應用于個人信用風險評估中.這是最早將信用評估問題從定性分析轉(zhuǎn)變?yōu)槎糠治龅姆椒?1970 年,Orgler[2] 首先將回歸分析應用于消費者貸款的信用評級問題,通過建立多元線性回歸模型 (Multiple Linear Regression, MLR),對尚未償還的貸款進行分數(shù)評級,以預測風險.同一時期,運籌學的相關方法也被廣泛用于信用評估領域.例如,1965年,Mangasarian[3]第一個提出線性規(guī)劃(Linear Programming,LP)方法可用于信用評估領域.1984年,Breiman[4]提出了分類樹(Classification Tree)與回歸樹 (Regression Tree)算法.此后,決策樹(Decision Tree)被廣泛用于信用評估領域.1987 年,Carter 和 Catlett[5] 最早將決策樹方法應用于信用卡申請者的信用風險評估,得到了決策樹方法的分類效果優(yōu)于簡單線性回歸模型的結論.1992 年,Salchenberger等[6]用神經(jīng)網(wǎng)絡預測了儲貸危機.1994 年,Rosenberg和Gleit[7]分析探討了神經(jīng)網(wǎng)絡在信用決策中的實際應用和效果.1995 年,Vapnik[8]提出支持向量機(Support Vector Machine, SVM)算法,該算法具有適用于小樣本、存在理論全局最優(yōu)點、泛化能力強等優(yōu)點,成為個人信用風險評估中研究最多的模型[9] .

近年來,更多的半監(jiān)督學習模型和集成學習模型被應用到信用評估領域.例如,2017年,Xia等[10]使用極限梯度提升(Extreme Gradient Boosting,XGBoost)算法完整展示了一套個人風險評估模型建立的流程.2018 年,Tounsi等[11]比較了7種監(jiān)督分類方法和5種集成學習方法,結果表明集成學習方法普遍優(yōu)于監(jiān)督學習方法. 2019年,Wei等[12]通過半監(jiān)督文本挖掘方法從銀行財務報表中提取信息,對銀行進行了風險信用評級.2020年,Li等[13]使用極限梯度提升法解決信用評估問題,通過實證研究得到極限梯度提升法與邏輯回歸等傳統(tǒng)模型相比分類效果更好的結論.2020年,Xiao等[14]將半監(jiān)督學習、成本敏感學習、數(shù)據(jù)分組處理方法和集成學習相結合,提出了基于數(shù)據(jù)分組處理的成本敏感半監(jiān)督的選擇集合模型.

值得注意的是,多數(shù)文獻僅研究了二分類信用評級問題.本文則基于分歧的思想,結合信用評級問題數(shù)據(jù)的特征,選擇支持向量機、決策樹和最大熵模型作為基分類器,提出一種基于多分類的Tri-training 算法的多分類信用評級方法,然后使用真實信用數(shù)據(jù)集驗證了該方法的效果.

4 結果與分析

4.1 實驗數(shù)據(jù)集

本文使用數(shù)據(jù)集來源于 2020 年全國大學生數(shù)學建模競賽 (http://www.mcm.edu.cn/). 數(shù)據(jù)集為某銀行的貸款申請企業(yè)的進項發(fā)票信息和銷項發(fā)票信息,每條發(fā)票數(shù)據(jù)有發(fā)票號碼、開票日期、銷方單位代號、金額、稅額、價稅合計及發(fā)票狀態(tài)七項信息. 數(shù)據(jù)集共有 425 家企業(yè)的發(fā)票信息,其中包括 123 家已經(jīng)評定信用等級的企業(yè)和 302 家無信用等級企業(yè),分別為有標簽數(shù)據(jù)集和無標簽數(shù)據(jù)集,信用等級分為 A, B, C, D 四個類別.

記第i個企業(yè)的進項發(fā)票總個數(shù)為αi,其中作廢發(fā)票個數(shù)為ai;銷項發(fā)票總個數(shù)為βi,其中作廢發(fā)票個數(shù)為bi. 第i個企業(yè)進項有效發(fā)票總金額為φi,第k個月進項有效發(fā)票金額為φi(k); 銷項有效發(fā)票總金額為ψi,第k個月銷項有效發(fā)票金額為ψi(k),正銷項有效發(fā)票金額為γi,負銷項有效發(fā)票金額為ρi. 第i個企業(yè)有發(fā)票記錄的月份總數(shù)為λi.

根據(jù)以上數(shù)據(jù)信息計算得到六個信用評級特征,記第i個企業(yè)的特征向量為xi=(xi1,xi2,xi3,xi4,xi5,xi6), 其中xij表示第i個企業(yè)的第j個特征. 各特征xij的含義及計算方法分別如下.

(1) 第i個企業(yè)進項發(fā)票作廢率

xi1=aiαi(18)

(2) 第i個企業(yè)銷項發(fā)票作廢率

xi2=biβi(19)

(3) 第i個企業(yè)的月平均營業(yè)額

xi3=ψiλi(20)

(4) 第i個企業(yè)的月平均利潤

xi4=ψi-φiλi(21)

(5) 第i個企業(yè)的月平均凈利潤率

xi5=1λi∑λik=1ψi(k)-φikφi(k)(22)

(6) 第i個企業(yè)的銷售退回率

xi6=ρiγi(23)

計算得到各特征量后,對數(shù)據(jù)進行歸一化,記歸一化后第i個企業(yè)的第j個特征為x′ij,采用最大最小歸一化公式

x′ij=2xij-xminjxmaxj-xminj-1(24)

其中,x′ij∈[-1,1],xminj和xmaxj分別表示所有企業(yè)第j個特征中的最小值和最大值.

4.2 評價指標

本文對實驗結果的評估采用最直觀的評價指標:分類準確率(Accuracy),計算公式如下.

Accuracy=TaT(25)

其中,Ta為測試集中分類正確的樣本數(shù)量;T為測試集樣本總數(shù).

4.3 實驗結果分析

在數(shù)據(jù)集中取 73 個樣本為有標簽訓練集,50 個樣本為測試集,實驗結果如表 1 所示. 由實驗結果對比可知,半監(jiān)督算法在數(shù)據(jù)集上的分類正確率較監(jiān)督算法均有提高,且本文提出的使用決策樹、支持向量機和最大熵分類器作為基分類器組合的 Tri-training 信用評級算法與使用單一種類基分類器的 Tri-training 算法相比,準確率都有較明顯的提升.

在該多分類數(shù)據(jù)集上,本文提出的基于Tri-training 算法在的信用評級方法相比于監(jiān)督算法分類準確率平均提升了 18.74%,且可達到近 90% 的分類正確率,表明所選的分類器組合在信用評級問題上有較好的效果.

5 結 論

本文在僅有少量有信用標簽樣本的應用背景下,提出了 基于 Tri-training 算法的多分類信用評級方法,采用三種不同類別分類器的組合作為基分類器,分別為決策樹、支持向量機、最大熵模型. 實驗結果表明,本文提出的信用評級方法可有效提高分類性能.

多分類的信用評級可用于更多的實際應用中,例如貸款方可根據(jù)信用等級決定發(fā)放貸款的額度、最大放貸金額及貸款利率等.

參考文獻:

[1] Durand D. Risk elements in consumer installment financing [M]. Cambridge: National Bureau of Economic Research, 1941.

[2] Eisenbeis R A. Problems in applying discriminant analysis in credit scoring models [J]. J Bank Finan, 1978, 2: 206.

[3] Mangasarian O L. Linear, nonlinear separation of patterns by linear programming [J]. Oper Res, 1965, 13: 444.

[4] Breiman L. Classification and regression trees [M]. Boca Raton: CRC Press, 1984.

[5] Carter C, Catlett J. Assessing credit card applications using machine learning [J]. IEEE Intell Syst, 1987, 2: 71.

[6] Salchenberger L M, Cinar E M, Lash N A. Neural networks: a new tool for predicting thrift failures [J]. Decis Sci, 1992, 23: 899.

[7] Rosenberg E, Gleit A. Quantitative methods in credit management: a survey [J]. Oper Res, 1994, 42: 589.

[8] Vapnik V. The nature of statistical learning theory [M]. Berlin: Springer, 1999.

[9] Louzada F, Ara A, Fernandes G B. Classification methods applied to credit scoring: systematic review and overall comparison [J]. Surv Oper Res Manag Sci, 2016, 21: 117.

[10] Xia Y, Liu C, Li Y. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring [J]. Expert Syst Appl, 2017, 78: 225.

[11] Tounsi Y, Hassouni L, Anoun H. An enhanced comparative assessment of ensemble learning for credit scoring [J]. Int J Mach Learn Comput, 2018, 8: 409.

[12] Wei L, Li G, Zhu X, et al. Discovering bank risk factors from financial statements based on a new semi-supervised text mining algorithm [J]. Account Finan, 2019, 59: 1519.

[13] Li H, Cao Y, Li S.XGBoost model and its application to personal credit evaluation [J]. IEEE Intell Syst, 2020, 35: 52.

[14] Xiao J, Zhou X, Zhong Y, et al. Cost-sensitivesemisupervised selective ensemble model for customer credit scoring [J]. Knowl Based Syst, 2020, 189: 105118.

猜你喜歡
決策樹評級發(fā)票
基于改進LeNet-5卷積神經(jīng)網(wǎng)絡的發(fā)票識別研究
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
關于發(fā)票顯示額外費用的分歧
中國外匯(2019年21期)2019-05-21 03:04:22
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
全國增值稅發(fā)票查驗平臺啟用
分析師最新給予買入評級的公司
基于決策樹的出租車乘客出行目的識別
百度遭投行下調(diào)評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
基于肺癌CT的決策樹模型在肺癌診斷中的應用
基于肺癌CT的決策樹模型在肺癌診斷中的應用
灵宝市| 教育| 商南县| 永善县| 修文县| 遂平县| 榆社县| 诸城市| 军事| 克东县| 治县。| 谢通门县| 清流县| 麻江县| 论坛| 房山区| 铜鼓县| 周至县| 隆昌县| 海南省| 沂水县| 孟州市| 常山县| 务川| 沙湾县| 清远市| 永吉县| 炉霍县| 金华市| 岗巴县| 吉安县| 南和县| 台山市| 大宁县| 临沂市| 双牌县| 泾阳县| 景宁| 敖汉旗| 徐水县| 靖州|