李新華 余開朝 凌靈
摘 ?要: 本文采用阿里云網(wǎng)站天池實(shí)驗(yàn)室中的公開部分個(gè)人信貸面板數(shù)據(jù)資料,利用STATA軟件實(shí)現(xiàn)二分類Logistics Regression建模,對個(gè)人信貸信用風(fēng)險(xiǎn)進(jìn)行了研究。研究結(jié)果顯示:該模型的擬合能力較好,對違約的識(shí)別正確率較高,達(dá)到80.26%。在0.95的置信區(qū)間內(nèi),工齡、信用卡負(fù)債和負(fù)債率對信用違約風(fēng)險(xiǎn)有顯著的影響,而其他的因素的影響不是很明顯。借款公司可借助該模型評估貸款客戶的違約風(fēng)險(xiǎn),改善貸款的質(zhì)量。
關(guān)鍵詞: 信用風(fēng)險(xiǎn);STATA軟件;Logistic模型
中圖分類號(hào): O212.4;TP39 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.08.044
本文著錄格式:李新華,余開朝,凌靈. 基于二分類LR的個(gè)人信貸違約風(fēng)險(xiǎn)評估[J]. 軟件,2020,41(08):165-167
【Abstract】: The published personal credit panel data in tianchi laboratory of aliyun website were used to study the credit risk of personal ?credit in this paper, and a dichotomy Logistics Regression model was implemented by using STATA software. The results show that the model has a good fitting ability and a high recognition accuracy of default (80.26%). Within the confidence interval of 0.95 years of service, credit card debt and debt ratio had significant effects on credit default risk, while other factors were less significant. Loan companies can use this model to evaluate the default risk of loan customers and improve the quality of loans.
【Key words】: The credit risk; STATA software; Logistic model
0 ?引言
隨著我國經(jīng)濟(jì)體制和政策不斷改革創(chuàng)新,信用經(jīng)濟(jì)和市場得到了迅速的發(fā)展和開放。另一方面,互聯(lián)網(wǎng)不斷創(chuàng)新發(fā)展,廣泛普及,使得各種網(wǎng)貸平臺(tái)應(yīng)運(yùn)而生,由于其便利和受眾廣等因素受到客戶的認(rèn)可。但我國相關(guān)的經(jīng)濟(jì)政策仍需不斷的完善,公眾信用素養(yǎng)需進(jìn)一步提高,信用經(jīng)濟(jì)和市場需穩(wěn)定和發(fā)展。對于借貸而言,由于借貸雙方之間的信息不對稱性、不透明性,借款人違約的風(fēng)險(xiǎn)增加。因此,信用風(fēng)險(xiǎn)評估受到各界的關(guān)注。建立行之有效的評估模型和體系,對相關(guān)的信用數(shù)據(jù)進(jìn)行科學(xué)研究,來降低風(fēng)險(xiǎn),提高貸款質(zhì)量。本文利用阿里云網(wǎng)站天池實(shí)驗(yàn)室中的公開部分個(gè)人信貸數(shù)據(jù)資料,采用二分類LR(Logistics Regression,LR)模型,識(shí)別主要影響因素,為借貸方開展信貸業(yè)務(wù),評估違約風(fēng)險(xiǎn)提供一定的參考。
信用風(fēng)險(xiǎn)評估的研究可從定性化和定量化來進(jìn)行,王穎基于模糊綜合評價(jià)模型對農(nóng)戶信貸風(fēng)險(xiǎn)進(jìn)行評估[1]、宋麗平等人建立BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測P2P網(wǎng)貸風(fēng)險(xiǎn)[1]、王華松基于貝葉斯網(wǎng)絡(luò)建立信用評估模型[2]和羅方科等人對廣大銀行某分行的信貸風(fēng)險(xiǎn)進(jìn)行評估[3]。席衛(wèi)華用LR模型設(shè)計(jì)廢舊物資處理系統(tǒng)[5]。關(guān)于LR模型使用的研究表明,LR模型因?yàn)橄拗茥l件較少,便于操作,預(yù)測性較好等原因,使用較為廣泛,可在信貸違約風(fēng)險(xiǎn)評估上取得良好的效果。
1 ?LR模型簡介
LR分析,作為一種廣義的線性模型,用途比較廣泛。根據(jù)因變量的類型,模型中的可以分為多分類LR和常用的二分類LR。LR不局限在類條件概率服從Normal Distribution,也不要求等協(xié)方差等作為前提假設(shè),只需要類條件概率服從Exponential Family of Distributions,可知該回歸模型的魯棒性較強(qiáng),而對于最佳回歸系數(shù),則使用最大似然法來確定。
2 ?基于二分類LR的個(gè)人信貸風(fēng)險(xiǎn)評估模型
2.1 ?數(shù)據(jù)變量處理
為建立二分類LR的個(gè)人信貸風(fēng)險(xiǎn)評估模型,作者采用阿里云天池實(shí)驗(yàn)室中的公開部分個(gè)人信貸面板數(shù)據(jù)作為實(shí)證數(shù)據(jù)來源,其中包含有效數(shù)據(jù)699條,因頁面有限,僅展示部分?jǐn)?shù)據(jù)如表1,其主要變量包括:年齡、教育、工齡、收入、負(fù)債率、信用卡負(fù)債和其他負(fù)債為自變量,違約作為因變量(1為違約,0為不違約),變量對應(yīng)的量化或編碼如表2所示。
2.2 ?模型的建立
采用STATA軟件進(jìn)行二分類LR計(jì)算,考慮到在置信區(qū)間內(nèi),自變量對結(jié)果是否存在明顯影響,本文采用逐步后退法對其進(jìn)行回歸,剔除變量過程如圖2,最終得到回歸OR值、回歸系數(shù)、標(biāo)準(zhǔn)差、顯著性水平等結(jié)果如圖3,可得違約的LR方程可以表示為。
自變量工齡、信用卡負(fù)債和其他負(fù)債對應(yīng)的OR值分別為0.783703、1.646704和1.092159。對于自變量的假設(shè)性檢驗(yàn),結(jié)果可以看出工齡(P=0.0000)、信用卡負(fù)債(P=0.0000)和負(fù)債率(P=0.0000)對違約有明顯的影響,對應(yīng)的回歸系數(shù)為–0.2437251,0.498776和0.0881566,常數(shù)項(xiàng)的回歸系數(shù)為–1.229872。即工齡的系數(shù)為負(fù),表示該變量對違約有負(fù)向的影響,該變量在定義范圍內(nèi)越大違約風(fēng)險(xiǎn)越低,反知信用卡負(fù)債和負(fù)債率對違約有正向的影響,該變量越大違約風(fēng)險(xiǎn)越大。LR逐步回歸過程中,剔除P值比0.05大的因變量,可知年齡、教育、其他負(fù)債和收入對違約在95%的置信區(qū)間內(nèi),無明顯的影響。
2.3 ?模型的檢驗(yàn)
為進(jìn)一步評估LR模型(3)的科學(xué)合理性和預(yù)測的效果,利用以下檢驗(yàn)方法對其進(jìn)行檢驗(yàn)和分析。
(1)擬合優(yōu)度檢驗(yàn):利用擬合優(yōu)度來評估預(yù)測結(jié)果與實(shí)際結(jié)果的效果,在STATA軟件中運(yùn)用lfit命令進(jìn)行檢驗(yàn),結(jié)果如圖4:可知擬合優(yōu)度的P值為0.9720,即回歸模型與觀測值之間的擬合程度是比較高的,可以認(rèn)為建立的回歸模型是合理的。
(2)交叉驗(yàn)證:在STATA軟件中利用lstat命令進(jìn)行交叉驗(yàn)證,結(jié)果如圖5:可知模型的敏感性為45.60%、特異性為92.46%,LR模型的陽性、陰性預(yù)測值分別為68.03%、82.84%,總的結(jié)果預(yù)測分類正確率為80.26%。
(3)靈敏度和特性度圖檢驗(yàn):利用STATA中的lsens命令繪制出靈敏度、特異度的關(guān)系圖(如圖6所示),可以更直觀地看出二者與切分點(diǎn)的關(guān)系和位置。其靈敏度和特異度的相交點(diǎn)對應(yīng)的P值約為0.3,得知以此為分割點(diǎn)可得到最佳得結(jié)果。
ROC檢驗(yàn):利用STATA中的lroc命令繪制出本回歸模型的ROC曲線(圖7所示),且其曲線下面積AUC值為0.8421,說明用該模型預(yù)測具有一定的準(zhǔn)確性。
3 ?結(jié)論
在目前的研究基礎(chǔ)上,利用STATA軟件對個(gè)人信貸違約風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)LR回歸,可得以下主要結(jié)論:確定的回歸模型可以用于初步的違約風(fēng)險(xiǎn)評估,具有一定的科學(xué)合理性。其中有顯著影響因素是工齡的長短、信用卡負(fù)債的高低和負(fù)債率的大小,而且工齡的長短對違約有著負(fù)向影響,工齡越大則違約風(fēng)險(xiǎn)越小;信用卡負(fù)債越高和負(fù)債率越小則違約風(fēng)險(xiǎn)越大。由于收集的資料有限,考慮的因素不夠全面,可能影響評估結(jié)果。
參考文獻(xiàn)
[1] 王穎. 中國農(nóng)戶小額信貸信用風(fēng)險(xiǎn)評估研究——基于模糊綜合評價(jià)模型[J]. 西南金融, 2010(8): 60-62.
[2] 宋麗平, 張利坤, 徐瑋. P2P網(wǎng)絡(luò)借貸個(gè)人信用風(fēng)險(xiǎn)評估[J]. 財(cái)會(huì)月刊, 2015(35): 94-96.
[3] 王華松. 基于貝葉斯網(wǎng)絡(luò)的SVM客戶信用評估模型研究[D]. 遼寧工程技術(shù)大學(xué), 2017.
[4] 羅方科, 陳曉紅. 基于Logistic回歸模型的個(gè)人小額貸款信用風(fēng)險(xiǎn)評估及應(yīng)用[J]. 財(cái)經(jīng)理論與實(shí)踐, 2017, 38(1): 30-35.
[5] 席衛(wèi)華. 基于多因素Logistic回歸分析的廢舊物資處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 軟件, 2018, 39(9): 188-193.