国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹與Logistic回歸的P2P網(wǎng)貸平臺信用風險評價比較分析

2017-10-21 03:05:32余華銀雷雅慧
長春大學學報 2017年9期
關鍵詞:信用風險網(wǎng)貸決策樹

余華銀,雷雅慧

(安徽財經(jīng)大學 統(tǒng)計與數(shù)學學院,安徽 蚌埠 233000)

基于決策樹與Logistic回歸的P2P網(wǎng)貸平臺信用風險評價比較分析

余華銀,雷雅慧

(安徽財經(jīng)大學 統(tǒng)計與數(shù)學學院,安徽 蚌埠 233000)

P2P網(wǎng)貸行業(yè)在中國發(fā)展迅速,其背后的風險不容忽視。文章旨在研究P2P網(wǎng)貸平臺存在的信用風險,參考銀行對中小企業(yè)的信用風險評價方法以及國內相關文獻的評價指標,構建了P2P網(wǎng)貸平臺信用風險評價指標體系。運用兩種決策樹模型和Logistic回歸對529家網(wǎng)貸平臺進行了實證分析,建立了網(wǎng)貸平臺的信用風險評價模型。結果表明,3種模型都具有較好的信用風險預測能力,其中決策樹的預測能力更優(yōu),具有更好的應用前景。

P2P網(wǎng)貸平臺;決策樹;Logistic;信用風險

長期以來,我國中小企業(yè)和個人貸款難度高、大眾小額理財?shù)男枨罅看螅谶@種背景下,近年來P2P網(wǎng)貸的優(yōu)勢日益突出,在國內得到了迅速發(fā)展。P2P網(wǎng)貸融入互聯(lián)網(wǎng)技術,給民間借貸帶來了新思維,受到了借貸雙方的普遍歡迎,成為互聯(lián)網(wǎng)金融領域的代表模式之一。然而,我國投資者普遍風險意識較弱、投資缺乏理性,很容易被網(wǎng)貸華麗的“包裝”所迷惑。近些年,P2P在國內日益蓬勃發(fā)展,看似欣欣向榮的表象下,其潛在的風險也日益顯現(xiàn)。2016年,全年出現(xiàn)因經(jīng)營不善、攜款跑路、黑客攻擊等原因使網(wǎng)站無法正常運營而停業(yè)的平臺就有一千余家??梢姡脚_的信用風險是投資者甄選平臺的重要依據(jù),因此,選用恰當?shù)姆椒▽ζ脚_進行信用風險評價是網(wǎng)貸領域研究的焦點。

國內外學者以網(wǎng)貸平臺真實數(shù)據(jù)為基礎,對信用風險領域展開了研究。孫同陽和謝朝陽從網(wǎng)貸個人信用風險角度,運用決策樹模型進行實證分析,發(fā)現(xiàn)網(wǎng)貸平臺對個人信用風險評級方面存在嚴重問題[1]。王丹和張洪潮參考了傳統(tǒng)金融機構對小微企業(yè)信用評價方法,運用AHP和模糊數(shù)學綜合評價法對網(wǎng)貸平臺進行了信用評級[2]。嚴復雷和李浩然利用Logit模型對87家網(wǎng)貸平臺進行回歸分析,得出了對網(wǎng)貸平臺信用風險有著重要影響的指標[3]。潘爽和魏建國運用信號傳遞模型探索了分散網(wǎng)貸平臺信用風險的有效方式[4]。董梁和胡明雅對新進的借款人進行研究,以借款人年齡、借款用途、收入等指標為依據(jù),運用Logistic回歸模型建立了信用風險評價模型。實證分析結果表明,擴大評價指標類型和加大對平臺的審核力度是防范借款人信用風險的有效方法[5]。Laura等人對P2P借款者在貸款時的描述性語言展開了研究,并使用LIWC軟件對20萬余個借款請求進行了分析。借款請求中,借款者使用具體的描述性語言和定量的詞匯更容易借到貸款;而借款請求中使用個性化描述語言的借款者較難借到貸款。Chen和Han認為,中國和美國兩個國家信貸結果的影響因素存在差異,美國影響因素側重于“硬”信息,而“軟”信息在中國更為可靠。本文以P2P網(wǎng)貸平臺信用風險評價為出發(fā)點,比較不同的分類模型在信用風險評價應用中的優(yōu)劣,以期為評價我國P2P網(wǎng)貸平臺信用風險提供理論支持。

1 理論基礎

1.1 決策樹模型

決策樹的外形呈樹狀結構,是利用樣本數(shù)據(jù)的屬性進行分類的方法。決策樹算法有眾多思想來源,其中,Quinlan于1986年率先發(fā)明了ID3算法,之后在ID3算法的基礎上分別于1984年和1993年衍生出C4.5算法和CART算法。文章選取C4.5算法和CART算法對樣本數(shù)據(jù)進行分類。

CART的基本算法如下:

(1)輸入訓練樣本集T,根據(jù)樣本節(jié)點對B=b的判斷為“yes”或“no”,將訓練樣本集分為T1和T2,運用Gini系數(shù)的定義式,計算B=b時的Gini系數(shù)。

(2)選取Gini系數(shù)最小的特征和其對應的分割點,分別作為最優(yōu)特征和最優(yōu)分割點。根據(jù)樣本數(shù)據(jù)集中的最優(yōu)屬性特征與最優(yōu)分割點,在現(xiàn)有的結點中生成兩個子節(jié)點,將訓練樣本數(shù)據(jù)集依照屬性特征分配到兩個新的子節(jié)點中。

C4.5的基本算法如下:

(1)輸入訓練樣本數(shù)據(jù)集T、閾值β和特征集B。若訓練樣本數(shù)據(jù)T中所有樣本都屬于同一個類別,則決策樹F生成為單個節(jié)點的決策樹,返回決策樹F。

(2)若B為空集,則F為單個節(jié)點的決策樹,返回F;若B為非空集,則計算特征集B中的特征對T的信息增益比gR(T,B),選擇gR(T,B)最大的特征Bg。

(3)若Bg的信息增益比比β小,那么F為單個節(jié)點的樹,把T中樣本數(shù)最多的類作為節(jié)點的類。否則,對與Bg的所有可能值bi,根據(jù)Bg=bi的原則將F分成若干個非空子集Ti,對Ti中樣本數(shù)最多的類做標記,生成子節(jié)點,構建決策樹F,返回F。

(4)遞歸調用(1)~(3)步驟,對于第i個節(jié)點,特征集為B-{Bg},訓練集為Ti,生成子樹Fi,返回Fi。

1.2 Logistic回歸模型

2 P2P網(wǎng)貸平臺信用風險評價實證分析

2.1 數(shù)據(jù)來源與處理

本文用于實證分析的數(shù)據(jù)來源于國泰安數(shù)據(jù)庫,選取2015年12月至2016年12月數(shù)據(jù)相對完整的529家網(wǎng)貸平臺數(shù)據(jù)。將獲得的樣本數(shù)據(jù)分為兩個類別,分別為高風險平臺和低風險平臺。將出現(xiàn)跑路、停業(yè)、提現(xiàn)困難等問題的平臺歸為一類,即高風險平臺;將截至2017年1月尚未出現(xiàn)問題的平臺歸為一類,即低風險平臺。若評價結果將高風險平臺歸為低風險平臺,則認為結果存在第一類錯誤;若評價結果將低風險平臺歸為高風險平臺,則認為結果存在第二類錯誤。樣本數(shù)據(jù)中有55家網(wǎng)貸平臺被定義為高風險平臺,474家網(wǎng)貸平臺被定義為低風險平臺。其中,高風險平臺僅占樣本總數(shù)的10%,存在嚴重的樣本不平衡的問題。因此,在將樣本數(shù)據(jù)代入模型運算前,使用SMOTE算法平衡樣本數(shù)據(jù),經(jīng)過平衡的樣本數(shù)據(jù)總數(shù)為886,高風險平臺與低風險平臺占總平臺數(shù)量的比例大致相同。

2.2 指標體系

現(xiàn)階段,網(wǎng)貸平臺的信用評價沒有統(tǒng)一的指標體系,相關文獻不全,評級難度較大。因此,筆者借鑒了銀行對中小企業(yè)的信用風險評價方法以及國內相關文獻的評價指標,基于前人的研究經(jīng)驗,從經(jīng)營能力、發(fā)展前景、平臺素質、盈利能力4個方面構建了P2P網(wǎng)貸平臺信用風險評級指標體系。

(1)經(jīng)營能力指標。判斷平臺的各類資產(chǎn)是否能夠快速變現(xiàn)的能力,運營能力越好,平臺資金的流動性越強,風險越低。平臺若不能快速得到足夠的資金以支付投資者的本息,資金鏈一旦斷裂,會出現(xiàn)嚴重的“擠兌”現(xiàn)象。選擇未來60日待還金額(X1)、日均投資人數(shù)(X2)、日均借款人數(shù)(X3)對網(wǎng)貸平臺的經(jīng)營能力進行衡量。

(2)發(fā)展前景指標。平臺的發(fā)展能力值得關注,該項指標越大,說明平臺的潛力越大,發(fā)展前景越廣,在未來的同類行業(yè)競爭中優(yōu)勢會更多,相應的信用風險也更小。衡量平臺發(fā)展前景的指標有日均成交量(X4)、平均借款期限(X5)、平均利率(X6)。

(3)償債能力指標。平臺的償債能力是平臺信用的保障,平臺的償債能力通常是直接反映平臺資信的依據(jù),償債能力也是平臺實力的體現(xiàn)。選擇注冊資金(X7)、保障方式(X8)、債權轉讓(X9)來衡量平臺的償債能力。

(4)盈利能力指標。該項指標主要衡量平臺的獲利情況,獲利能力是平臺信用的基礎。由于平臺具體的獲利數(shù)據(jù)很難獲得,可以用平臺近30日資金凈流入(X10)、累計待還金額(X11)、營業(yè)時間(X12)來衡量網(wǎng)貸平臺的盈利能力。

2.3 模型構建

將樣本數(shù)據(jù)經(jīng)過預處理后,代入到3個模型中分別進行運算。同時,使用10折交叉驗證的方法,分別計算決策樹模型和logistic回歸在訓練集和測試集上的第一類錯誤率、第二類錯誤率和平均分類錯誤率。其中,生成的決策樹如圖1所示。

圖1 基于CART算法的決策樹模型

CP值為0.011的CART算法的決策樹如圖1所示,其中,X10屬性是決策樹的根節(jié)點,即近30日資金凈流入對平臺信用風險分類的貢獻程度是最大的。最終,基于CART算法的決策樹由6個最優(yōu)屬性構成,對應6條分類規(guī)則,例如:①近30日資金凈流入大于等于110的平臺均為低風險平臺;②營業(yè)時間小于3的平臺均為高風險平臺;③平均借款期限大于3.1的平臺均為低風險平臺。其他結論以此類推。

2.4 結果分析

將經(jīng)過處理的樣本數(shù)據(jù)代入3種模型進行運算,將運算結果整理匯總如表1所示。從實證結果來看,3種模型都具有較好的預測能力。比較而言,C4.5決策樹和CART決策樹總體分類的錯誤率較低,表明決策樹模型在P2P網(wǎng)貸平臺信用風險評價方面具有較好的應用前景。同時,從表1可看出,CART決策樹模型的準確率為80%,C4.5決策樹模型的準確率為77%,明顯優(yōu)于logistic回歸的69%的準確率。

表1 運算結果匯總

根據(jù)評價結果, 對3種模型的魯棒性進行比較分析。在訓練樣本中CART模型的總誤判率最低,僅為10%;C4.5模型總誤判率為20%;Logistic的總誤判率最高,為29%。相比訓練樣本,3種模型在測試樣本的總誤判率都有不同程度的提高,提高比例最低的是Logistic回歸,提高了2%;其次是C4.5模型,提高了3%;最高的是CART模型,提高了10%。這說明Logistic回歸模型的魯棒性最強,CART模型和C4.5模型的魯棒性相對較弱,但保持了較低水平,能夠滿足實際運用的需求。最終,運用兩種決策樹模型和Logistic回歸對P2P網(wǎng)貸平臺信用風險進行了建模和預測,預測總體結果較好。并將兩種決策樹模型與Logistic回歸的評價結果進行比較,得出決策樹模型在P2P網(wǎng)貸平臺信用風險評價方面具有更好的應用前景。

3 政策建議

我國目前尚未形成完善的個人征信體系,網(wǎng)貸行業(yè)難以從線上直接獲得個人信用數(shù)據(jù),僅依靠線下審核的方式,不僅成本高、周期長,而且能夠識別風險的概率也令人擔憂。因此,建議有關部門盡快建立完善的征信體系,對網(wǎng)貸平臺提供開放的信息服務,為網(wǎng)貸平臺的長遠發(fā)展創(chuàng)造條件。同時,提醒投資者高度警惕不法平臺的虛假宣傳,切勿盲目追逐高收益率,應綜合考量網(wǎng)貸平臺風險后謹慎投資。

[1] 孫同陽,謝朝陽.基于決策樹的P2P網(wǎng)貸信用風險評價[J]. 商業(yè)經(jīng)濟研究,2015(2):81-82.

[2] 王丹,張洪潮.P2P網(wǎng)貸平臺信用風險評級模型構建[J]. 財會月刊,2016(9):76-80.

[3] 嚴復雷,李浩然.P2P網(wǎng)貸平臺信用風險影響因素分析[J]. 西南金融,2016(10):13-17.

[4] 潘爽,魏建國. P2P網(wǎng)貸平臺的信用風險及其分散機制設計:基于信號傳遞模型[J]. 財會月刊,2017(11):88-91.

[5] 董梁,胡明雅. 基于Logistic回歸模型的P2P網(wǎng)貸平臺新進借款人信用風險研究[J]. 江蘇科技大學學報(社會科學版),2016(3):102-108.

責任編輯:沈 玲

ComparativeAnalysisonCreditRiskEvaluationofP2PNetworkLoanPlatformBasedonDecisionTreeandLogisticRegression

YU Huayin, LEI Yahui

(Institute of Statistics and Applied Mathematics,Anhui Finance and Economics University, Bengbu 233000, China)

P2P network loan industry grows rapidly in China, and the credit risk problems of the platform are increasingly apparent. This paper aims to explore the credit risk problems of P2P network loan platform, and constructs an evaluation index system by drawing references from banks’ credit risk evaluation on small and middle-sized enterprises and evaluation indexes in domestic related literature. Empirical analysis on 529 network loan platforms is made by using the two decision tree models and Logistic regression and the credit risk model is established. The results show that the three models have strong ability to predict credit risks, and among which the effect of decision tree is superior, having better application prospect.

P2P network loan platform; decision tree; Logistic; credit risk

F830

A

1009-3907(2017)09-0013-04

2017-07-11

安徽省哲學社會科學規(guī)劃項目(AHSKY2015D53);安徽財經(jīng)大學研究生科研創(chuàng)新基金項目(ACYC2016111)

余華銀(1962-),男,安徽全椒人,教授,主要從事金融與投資統(tǒng)計研究。

猜你喜歡
信用風險網(wǎng)貸決策樹
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
P2P網(wǎng)貸中的消費者權益保護
中國外匯(2019年10期)2019-08-27 01:58:18
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
網(wǎng)貸十年:迎來“去偽存真” 時代
商周刊(2017年17期)2017-09-08 13:08:58
網(wǎng)貸平臺未來亟需轉型
商周刊(2017年17期)2017-09-08 13:08:58
淺析我國商業(yè)銀行信用風險管理
基于決策樹的出租車乘客出行目的識別
京東商城電子商務信用風險防范策略
個人信用風險評分的指標選擇研究
中國網(wǎng)貸地圖
嵩明县| 铁岭市| 莒南县| 浠水县| 长岛县| 孝义市| 旺苍县| 射阳县| 西昌市| 格尔木市| 嫩江县| 六安市| 水富县| 富源县| 新闻| 连江县| 蒙山县| 璧山县| 柳江县| 施甸县| 仙桃市| 文成县| 阿图什市| 翁源县| 镇宁| 九江市| 徐州市| 曲水县| 沙洋县| 九龙城区| 岳阳县| 巴青县| 廊坊市| 株洲市| 客服| 沭阳县| 西峡县| 石门县| 孟津县| 中方县| 襄汾县|