黃建瓊, 郭文龍, 陳曉峰
(1.福州外語外貿(mào)學(xué)院 理工學(xué)院, 福州 350202; 2.福建江夏學(xué)院 電子信息科學(xué)學(xué)院, 福州 350108)
隨著互聯(lián)網(wǎng)金融的發(fā)展,P2P網(wǎng)絡(luò)貸款(簡稱網(wǎng)貸)平臺作為一種新型的互聯(lián)網(wǎng)金融模式于2007年開始興起并迅速發(fā)展壯大。網(wǎng)貸平臺因其便捷、低門檻、高效等優(yōu)勢,迅速成為商業(yè)銀行和民間借貸之外的第三方小額資金供求平臺。截至2019年11月,全國共有網(wǎng)貸平臺6 575家,而出現(xiàn)平臺跑路、平臺詐騙、平臺失聯(lián)等停業(yè)及問題平臺則高達(dá)5 796家,正常營業(yè)的網(wǎng)貸平臺僅為779家(占比11.85%)。雖然政府監(jiān)管部門已出臺相關(guān)政策打擊逃廢債、違約等行為,但網(wǎng)貸平臺違規(guī)及網(wǎng)貸借款人違約等問題仍然頻發(fā),這嚴(yán)重制約了互聯(lián)網(wǎng)金融尤其是網(wǎng)貸行業(yè)的健康發(fā)展。利用網(wǎng)貸平臺運營數(shù)據(jù),采用智能機器學(xué)習(xí)算法,建立網(wǎng)貸平臺的信用風(fēng)險評估模型,可為投資者進行項目投資時提供決策支持,也必將為政府監(jiān)管部門提供科學(xué)依據(jù),進而促進網(wǎng)貸行業(yè)健康發(fā)展。
目前,國內(nèi)外學(xué)者對網(wǎng)貸平臺的信用風(fēng)險評估研究主要分為兩類:一是網(wǎng)貸平臺風(fēng)險評估;二是網(wǎng)貸借款人信用評估。在網(wǎng)貸平臺風(fēng)險評估方面,王丹等運用層次分析法和模糊綜合評價法建立了P2P網(wǎng)貸平臺風(fēng)險評價模型[1];張杰等建立P2P網(wǎng)貸平臺風(fēng)險評價的因子體系,對80家主流P2P網(wǎng)貸平臺進行風(fēng)險評價排名[2];孟毅等利用支持向量機模型,對網(wǎng)絡(luò)貸款平臺的等級評價方法進行研究[3];文獻(xiàn)[4]則提出了一種基于K-Means聚類和支持向量機的非均衡分類方法的P2P網(wǎng)貸平臺風(fēng)險模型;嚴(yán)武等在動態(tài)預(yù)警框架下研究網(wǎng)貸平臺全生命周期內(nèi)各模型的動態(tài)預(yù)警效果[5]。在網(wǎng)貸借款人信用評估方面,國外學(xué)者已有系統(tǒng)的研究[6-7],國內(nèi)也有一些學(xué)者對此進一步展開研究。許艷秋等結(jié)合層次分析法和支持向量機對數(shù)據(jù)進行分類[8];李迅菡等利用支持向量機(SVM)建立借款人逾期預(yù)測模型[9];李昕等則建立基于BP神經(jīng)網(wǎng)絡(luò)的信用風(fēng)險評估模型,并進行實驗仿真[10];文獻(xiàn)[11]通過Probit回歸模型和Logistic回歸模型比較,分析借款人發(fā)生逾期行為的影響因素,并建立借款人逾期率的概率模型;文獻(xiàn)[12]通過多重學(xué)習(xí)器,構(gòu)建基于Stacking集成策略的評估模型來預(yù)測P2P網(wǎng)貸中借款人的違約風(fēng)險,預(yù)測性能較好。
上述關(guān)于借款人信用風(fēng)險評估的文獻(xiàn)主要關(guān)注的是借款人是否逾期,而借款人在還款過程中出現(xiàn)逾期行為,最終不一定會違約。因此,文章以網(wǎng)貸借款人借款項目的最終狀態(tài)判定借款人是否違約,即項目狀態(tài)為“已墊付”的視為“違約”,其他狀態(tài)均視為“非違約”。并以借款人的項目狀態(tài)是否違約作為目標(biāo)變量,借款人的基本信息(年齡、婚姻狀態(tài)、性別、學(xué)歷、收入、房產(chǎn)、房貸、車產(chǎn)、車貸、工作年限)和貸款信息(年利率、還款期限、信用分?jǐn)?shù)、信用評級、申請貸款筆數(shù)、成功貸款筆數(shù)、逾期次數(shù))等17個核心變量作為解釋變量。同時,因?qū)嶒灁?shù)據(jù)維度較多、非線性且樣本量較少,故采用智能化的監(jiān)督學(xué)習(xí)算法——支持向量機,建立P2P網(wǎng)貸平臺借款人違約風(fēng)險評估模型。最后,通過設(shè)計實驗對此評價方法的辨識度與穩(wěn)定性進行驗證。
支持向量機[13](Support Vector Machine, SVM)是由VAPNIK等人于1995年提出的一類半監(jiān)督學(xué)習(xí)算法,是一種對數(shù)據(jù)進行二元分類的廣義線性分類器,適用于小樣本、高維度數(shù)據(jù)的機器學(xué)習(xí) 。
設(shè)有樣本數(shù)量為n、維度為p的二分類數(shù)據(jù)訓(xùn)練集D:
(1)
在線性分類問題中,支持向量機通過在p維空間中找到一個能夠?qū)崿F(xiàn)二元分類的最優(yōu)超平面H(滿足wTx+b=0,w和b分別為最優(yōu)超平面的權(quán)值和閾值),并且能夠使得兩類中距離最近的點間隔盡量大,如圖1所示。
圖1 最優(yōu)超平面
其中,H0(滿足wTx+b=1)和H1(滿足wTx+b=-1)與H平行,且分別經(jīng)過兩類樣本中距離H最近的樣本,則對于任意點xi滿足式子(2)的條件。
(2)
s.t.yi(wTxi+b)≥1,i=1,2,…,n
(3)
對式子(3)引入拉格朗日乘子法,將其轉(zhuǎn)化為對偶問題:
(4)
在上式中,ai為拉格朗日乘子。求得最優(yōu)w和b后,可得決策函數(shù)為:
(5)
而在非線性分類問題中,則通過多項式核函數(shù)、徑向基核函數(shù)、線性核函數(shù)等核函數(shù)將數(shù)據(jù)映射到高維空間,進而在高維空間中將非線性問題轉(zhuǎn)化為線性問題。其最優(yōu)超平面用wTφ(x)+b=0,核函數(shù)記為K(xi,xj),則得到?jīng)Q策函數(shù)如下:
(6)
選擇不同的核函數(shù),產(chǎn)生的支持向量機也會不同。
利用支持向量機對數(shù)據(jù)進行建模分類時,通常可用數(shù)據(jù)的總體分類準(zhǔn)確度作為模型的分類性能評價指標(biāo)。但是,P2P網(wǎng)貸平臺的借款人項目是否違約的類別分布是不平衡的,也就是項目狀態(tài)為違約的類別數(shù)量為少量,而項目狀態(tài)為非違約的類別數(shù)量為大量,屬于不平衡數(shù)據(jù)。在不平衡數(shù)據(jù)分類中,少量樣本的有效識別比大量樣本更有價值。因此,不能僅用總體分類準(zhǔn)確度來衡量模型分類性能的優(yōu)劣。
在不平衡數(shù)據(jù)分類中,把數(shù)量為少量的類別稱為少數(shù)類,而把數(shù)量為大量的類別稱為多數(shù)類,且少數(shù)類樣本的分類準(zhǔn)確率往往更重要。因為對P2P網(wǎng)貸平臺而言,若借款人實際“違約”而被分類器判定為“非違約”的比實際“非違約”而被分類器判定為“違約”所造成的損失更大。對于支持向量機模型的分類結(jié)果,實際是少數(shù)類的“違約”樣本被正確分類的用TP表示,被錯誤分類的則用FP表示;而實際是多數(shù)類的“非違約”樣本被正確分類的用TN表示,被錯誤分類的則用FP表示??捎没煜仃噥肀硎局С窒蛄繖C的分類結(jié)果,如表1所示。
表1 分類結(jié)果混淆矩陣
因此,可以分別用召回率(Recall)、精確率(Precision)和準(zhǔn)確率(Accuracy)作為P2P網(wǎng)貸借款人違約風(fēng)險評估模型的分類性能評價指標(biāo)。其中,召回率(Recall)、精確率(Precision)和準(zhǔn)確率(Accuracy)分別用如下公式表示:
(7)
(8)
(9)
在其他文獻(xiàn)研究中,一般將網(wǎng)貸借款人出現(xiàn)逾期行為的判定其違約,但有逾期行為的借款人最終不一定會違約。因此,本文將網(wǎng)貸平臺的借款人數(shù)據(jù)中的項目狀態(tài)為“已墊付”的視為違約,其他項目狀態(tài)(還款中、已還清、已逾期)視為非違約,且選取項目狀態(tài)為目標(biāo)變量,選取借款人的性別、婚姻狀態(tài)等基本信息和信用評分、信用等級、逾期次數(shù)等借款信息作為解釋變量,并利用支持向量機建立P2P網(wǎng)貸借款人違約風(fēng)險模型,具體流程如圖2所示。
圖2 評估模型流程圖
本文使用Python語言編寫爬蟲程序抓取某網(wǎng)貸平臺公布的投資列表數(shù)據(jù),剔除“已流標(biāo)”的項目數(shù)據(jù),共獲取1 973條樣本數(shù)據(jù),每條數(shù)據(jù)包括借款人的借款I(lǐng)D、年齡、學(xué)歷等27列數(shù)據(jù),違約項目(項目狀態(tài)為已墊付的)為122個(占比6.18%),非違約項目1 851個(占比93.82%)。選取借款人的信用評分、信用等級、逾期次數(shù)等17個變量作為模型解釋變量,而將項目狀態(tài)作為目標(biāo)變量并對數(shù)據(jù)進行量化,如表2所示。
表2 變量和變量量化說明
實驗編程語言環(huán)境為RStudio-1.1.463平臺,使用R語言中的e1071包對數(shù)據(jù)建立基于支持向量機的P2P網(wǎng)貸平臺借款人信用風(fēng)險模型。實驗隨機選取80%樣本數(shù)據(jù)作為訓(xùn)練樣本,剩下的20%樣本數(shù)據(jù)作為測試樣本。
由表3可知,數(shù)據(jù)分類的準(zhǔn)確性較高,表明該模型具有較好的識別度。其訓(xùn)練集的分類召回率和分類準(zhǔn)確率平均值分別為100%和99.89%,測試集的分類召回率和分類準(zhǔn)確率平均值分別為96%和99.04%,說明模型具有較好的穩(wěn)健性和泛化能力。
表3 訓(xùn)練集和測試集的分類結(jié)果分析表
同時,通過分類決策樹(Classification and Regression Trees,CART)和隨機森林(RandomForest,RF)對實驗數(shù)據(jù)進行建模,并取5折交叉驗證的平均值為實驗結(jié)果。三種算法的分類結(jié)果如表4所示。
表4 三種算法的分類準(zhǔn)確度
由表4可見,決策樹模型的召回率較低,隨機森林模型是決策樹的加強分類器,因此,各方面表現(xiàn)總體優(yōu)于決策樹,而利用支持向量機建模的平均分類召回率、精確率和準(zhǔn)確率總體最高,分類效果最好。
通過實驗建模及對比實驗可以發(fā)現(xiàn),決策樹雖然可直觀地顯示分類規(guī)則,且隨機森林具有較強的容錯能力和穩(wěn)健性,而支持向量機在實驗數(shù)據(jù)維度較多、非線性且樣本量較少的情況下在平均分類召回率、精確率和準(zhǔn)確率上,總體表現(xiàn)更佳。
同時,本文在綜合分析各類文獻(xiàn)的基礎(chǔ)上,剔除了網(wǎng)貸借款人信息中與違約行為相關(guān)度較低的特征,選取了17個核心特征作為模型的解釋變量;以項目狀態(tài)為“已墊付”視為“違約”,其他情況均視為“非違約”,這樣處理更符合實際情況。因此,訓(xùn)練集的平均分類召回率高達(dá)100%,平均分類精確度和準(zhǔn)確度也較高,可以為網(wǎng)貸平臺做好風(fēng)險防控提供有力支撐。
論文通過爬蟲技術(shù)獲取某P2P網(wǎng)貸平臺借款人信息,以借款人的基本信息和貸款信息中的17個核心變量作為解釋變量,以貸款項目狀態(tài)作為目標(biāo)變量,對網(wǎng)貸借款人違約風(fēng)險展開研究。文中將項目狀態(tài)為“已墊付”的項目視為“違約”,其他項目狀態(tài)視為“非違約”,并分別量化為1和0。利用支持向量機建立借款人違約風(fēng)險模型,采用5折交叉驗證對違約風(fēng)險評估模型進行驗證,并與決策樹和隨機森林建立對比實驗,實驗結(jié)果表明該方法得到的訓(xùn)練集和測試集的平均分類召回率、精確率和準(zhǔn)確率總體最高,說明該違約風(fēng)險模型具有較好的穩(wěn)定性和泛化能力,有助于P2P網(wǎng)貸平臺進行有效的風(fēng)險評估和風(fēng)險預(yù)警,并提前做好風(fēng)險防控,進而促進平臺的良性發(fā)展。文章將貸款項目狀態(tài)分為“違約”和“非違約”兩類,暫未對“非違約”中的各種情況進一步分類,在后續(xù)的研究中,將增加分類數(shù)量,以期為網(wǎng)貸平臺提供更多的決策支持。同時,網(wǎng)貸平臺根據(jù)借款人填報的信息進行實地核實,并給出相應(yīng)的信用評分和信用等級。但信息不對稱可能會造成部分信息失真,所以,在下一階段的研究,將結(jié)合借款人的履約情況建立動態(tài)的信用評分,并重新設(shè)置等級,有助于網(wǎng)貸平臺做好借款人違約風(fēng)險預(yù)警。