王重仁,韓冬梅
(上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433)
基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)預(yù)測(cè)研究*
王重仁,韓冬梅
(上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海200433)
針對(duì)互聯(lián)網(wǎng)金融行業(yè)的信用風(fēng)險(xiǎn)評(píng)估問(wèn)題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的客戶違約風(fēng)險(xiǎn)預(yù)測(cè)方法。首先將輸入數(shù)據(jù)分為動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),將動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)分別轉(zhuǎn)換為矩陣和向量,然后利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)提取特征并進(jìn)行分類,最后使用ROC曲線、AUC值和KS值作為評(píng)價(jià)指標(biāo),將該方法與其他機(jī)器學(xué)習(xí)算法(Logistic回歸、隨機(jī)森林)進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)于信用風(fēng)險(xiǎn)的預(yù)測(cè)效果要優(yōu)于對(duì)比模型。
信用風(fēng)險(xiǎn)評(píng)估;卷積神經(jīng)網(wǎng)絡(luò);機(jī)器學(xué)習(xí);深度學(xué)習(xí)
近年來(lái),國(guó)內(nèi)互聯(lián)網(wǎng)金融行業(yè)呈爆炸式增長(zhǎng)態(tài)勢(shì),隨著行業(yè)的不斷發(fā)展,如何有效評(píng)價(jià)借款人的信用風(fēng)險(xiǎn)已成為互聯(lián)網(wǎng)金融行業(yè)能否可持續(xù)健康發(fā)展的關(guān)鍵環(huán)節(jié)之一,日益受到人們的重視[1]。
客戶信用風(fēng)險(xiǎn)評(píng)估本質(zhì)上是一個(gè)分類問(wèn)題,即將客戶分成違約和按時(shí)還款兩類。客戶信用風(fēng)險(xiǎn)預(yù)測(cè)模型的發(fā)展經(jīng)歷了三個(gè)階段:定性分析、統(tǒng)計(jì)學(xué)方法和人工智能方法[2]。定性分析是最早用于信用評(píng)估的方法,其后統(tǒng)計(jì)學(xué)方法被逐漸引入到信用評(píng)估中。近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,一些智能化方法被陸續(xù)應(yīng)用到信用評(píng)估研究中。例如, MALEKIPIRBAZARI M等[3]使用隨機(jī)森林算法對(duì)國(guó)外網(wǎng)絡(luò)借貸平臺(tái)Lending Club借款人的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。然而,這些傳統(tǒng)機(jī)器學(xué)習(xí)方法預(yù)測(cè)效果的好壞非常依賴于人工設(shè)計(jì)的特征,而人工設(shè)計(jì)特征的方法往往無(wú)法考慮到所有特征,同時(shí)人工設(shè)計(jì)特征需要花費(fèi)大量時(shí)間和人工成本[4]。
近年來(lái),深度學(xué)習(xí)受到了越來(lái)越多學(xué)者的關(guān)注,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)則是其中一種經(jīng)典而廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。LECUN V等人[5]在1998年提出了LeNet-5,LeNet-5成功應(yīng)用到了手寫字符識(shí)別領(lǐng)域。2012年,KRIZHEVSKY A等人提出的AlexNet[6]在ImageNet圖像分類競(jìng)賽中奪得了冠軍,使得CNN成為了各界關(guān)注的焦點(diǎn)。在此之后,CNN模型不斷改進(jìn),比如Google的GoogLeNet[7]等。CNN能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,從而代替人工設(shè)計(jì)特征,且深層的結(jié)構(gòu)使它具有很強(qiáng)的表達(dá)能力和學(xué)習(xí)能力。經(jīng)過(guò)不斷發(fā)展,CNN逐漸從圖像分類擴(kuò)展到其他領(lǐng)域,比如:行人檢測(cè)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等。目前CNN的應(yīng)用場(chǎng)景大部分都是非結(jié)構(gòu)化數(shù)據(jù)分類問(wèn)題,近年來(lái),開(kāi)始有研究嘗試將CNN應(yīng)用到結(jié)構(gòu)化數(shù)據(jù)分類問(wèn)題中,比如李思琴等[8]提出了基于CNN的搜索廣告點(diǎn)擊率預(yù)測(cè)的方法。本文研究所用數(shù)據(jù)來(lái)源于國(guó)內(nèi)一家互聯(lián)網(wǎng)金融平臺(tái)——融360,本文嘗試使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行互聯(lián)網(wǎng)金融行業(yè)違約風(fēng)險(xiǎn)預(yù)測(cè)研究。
將輸入數(shù)據(jù)分為兩類,一類為靜態(tài)數(shù)據(jù),如描述用戶基本屬性的性別、職業(yè)等;另一類為動(dòng)態(tài)數(shù)據(jù),動(dòng)態(tài)數(shù)據(jù)主要包括用戶的歷史行為數(shù)據(jù),如用戶的銀行流水記錄、用戶瀏覽行為、信用卡賬單記錄。動(dòng)態(tài)數(shù)據(jù)為時(shí)點(diǎn)數(shù)據(jù),會(huì)隨著時(shí)間的變化而改變。本文研究所用到的輸入數(shù)據(jù)的變量如表1所示,數(shù)據(jù)的標(biāo)簽為用戶是否違約,用戶違約定義為逾期30天以上。
表1 輸入數(shù)據(jù)變量列表
在本文中,將用戶動(dòng)態(tài)數(shù)據(jù)轉(zhuǎn)換成矩陣,矩陣如圖1所示,其中矩陣的行代表用戶的行為數(shù)據(jù),矩陣的列代表時(shí)間,時(shí)間基本單位為月或周。假設(shè)用戶放款時(shí)間為時(shí)間點(diǎn)t,用戶數(shù)據(jù)的時(shí)間范圍為放款前m個(gè)時(shí)間單位和放款后n個(gè)時(shí)間單位,因此構(gòu)建矩陣時(shí),矩陣各列以用戶放款時(shí)間t為基準(zhǔn),按照時(shí)間的先后順序進(jìn)行排列。假設(shè)用戶的行為數(shù)據(jù)種類數(shù)量為p,那么矩陣共有p行,m+n+1列,矩陣中的元素代表用戶在某個(gè)時(shí)間點(diǎn)上的某一種行為的特征,一個(gè)矩陣代表了一個(gè)用戶在不同時(shí)間點(diǎn)上的所有行為特征。
將銀行流水記錄和信用卡賬單記錄的時(shí)間基本單位設(shè)置為月,以月為單位進(jìn)行匯總,將用戶瀏覽行為的時(shí)間基本單位設(shè)置為周,以周為單位進(jìn)行匯總,匯總時(shí)可選用的指標(biāo)有合計(jì)、計(jì)數(shù)、平均等。因三種歷史行為記錄轉(zhuǎn)換成的矩陣的大小不相同,所以將三個(gè)矩陣作為三個(gè)單獨(dú)的數(shù)據(jù)源進(jìn)行輸入。
對(duì)于輸入數(shù)據(jù)中靜態(tài)數(shù)據(jù),因數(shù)據(jù)不會(huì)隨著時(shí)間的改變而改變,所以用向量的方式來(lái)進(jìn)行編碼,假設(shè)用戶基本屬性數(shù)據(jù)在數(shù)據(jù)處理后的種類數(shù)量為q,則用戶靜態(tài)輸入數(shù)據(jù)的大小是1×q。
圖1 動(dòng)態(tài)數(shù)據(jù)轉(zhuǎn)換后的矩陣示意圖
本文提出的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型借鑒了經(jīng)典的LeNet-5和GoogLeNet的結(jié)構(gòu),構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型包含四個(gè)子卷積網(wǎng)絡(luò),每個(gè)子卷積網(wǎng)絡(luò)都有單獨(dú)的輸入,四個(gè)子卷積網(wǎng)絡(luò)最后在全連接層(Fully Connected Layer,FC)進(jìn)行融合,全連接層之后是Softmax輸出層,CNN結(jié)構(gòu)如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)于四個(gè)子卷積網(wǎng)絡(luò),與動(dòng)態(tài)輸入數(shù)據(jù)連接的子卷積網(wǎng)絡(luò)采用兩個(gè)卷積層(Convolutional Layer,CONV)和兩個(gè)池化層(Pooling Layer,POOL)來(lái)自動(dòng)提取特征,考慮到靜態(tài)輸入數(shù)據(jù)特征較少,與靜態(tài)數(shù)據(jù)連接的子卷積網(wǎng)絡(luò)只采用了一個(gè)卷積層和一個(gè)池化層。
卷積層由多個(gè)特征面(Feature Map)組成,每個(gè)特征面由多個(gè)神經(jīng)元組成,每一個(gè)神經(jīng)元通過(guò)卷積核與上一層特征面的局部區(qū)域連接。卷積層利用局部連接和權(quán)值共享,減少網(wǎng)絡(luò)自由參數(shù)個(gè)數(shù),降低網(wǎng)絡(luò)參數(shù)復(fù)雜度[9]。卷積層計(jì)算公式如下:
X(l)=f(Wl?X(l-1)+b(l))
(1)
其中X(l)和X(l-1)代表層l層和l-1層的神經(jīng)元活性,Wl代表卷積核,b代表偏置。
對(duì)于與動(dòng)態(tài)輸入數(shù)據(jù)連接的三個(gè)子卷積網(wǎng)絡(luò),采用相同的參數(shù),在第一個(gè)卷積層,選擇了64個(gè)大小為1×3卷積核,目的是提取用戶每一個(gè)行為在不同時(shí)間點(diǎn)上的特征。卷積層之后是池化層,池化層起到二次提取特征的作用,它的每個(gè)神經(jīng)元對(duì)局部接受域進(jìn)行池化操作。常用的池化方法有最大池化、隨機(jī)池化和均值池化,這里選擇最大池化法(取局部接受域中值最大的點(diǎn))。在池化層之后連接第二個(gè)卷積層,選擇了128個(gè)大小為3×3的卷積核,目的是進(jìn)一步提取用戶每一個(gè)行為指標(biāo)在不同時(shí)間點(diǎn)上的特征,并且提取用戶同一時(shí)間上不同行為的特征。在第二個(gè)卷積層后同樣連接了一個(gè)池化層。對(duì)于靜態(tài)輸入數(shù)據(jù)采用了一個(gè)卷積層和一個(gè)池化層來(lái)提取特征,卷積層使用了64個(gè)大小為1×3的卷積核。
四個(gè)子卷積網(wǎng)絡(luò)的輸出全部在全連接層進(jìn)行融合,第一個(gè)全連接層和第二個(gè)全連接層的維度分別是512和256。最后,選擇Softmax函數(shù)作為輸出分類器。Softmax函數(shù)估計(jì)輸入x屬于特定類別j∈k的概率:
(2)
選擇常用的修正線性單元(Rectified Linear Unit,ReLU)作為激勵(lì)函數(shù),ReLU激勵(lì)函數(shù)可以防止梯度消失和過(guò)擬合問(wèn)題,ReLU激勵(lì)函數(shù)定義為:
fcov(x)=max(0,x)
(3)
Dropout是CNN中防止過(guò)擬合提高效果的一種有效手段,它是指在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其從網(wǎng)絡(luò)中丟棄,本文在每個(gè)子卷積網(wǎng)絡(luò)的最后一個(gè)池化層后面進(jìn)行Dropout(0.3)操作。
為了證明CNN在用戶信用風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題上的優(yōu)越性,選擇了在信用風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域常用的兩種傳統(tǒng)機(jī)器學(xué)習(xí)方法作為對(duì)比:Logistic回歸(Logistic Regression,LR)和隨機(jī)森林(Random Forests,RF)。
以TP(True Positive)代表被模型預(yù)測(cè)為正的正樣本,以TN(True Negative)代表被模型預(yù)測(cè)為負(fù)的負(fù)樣本,以FP(False Positive)代表被模型預(yù)測(cè)為正的負(fù)樣本,以FN(False Negative)代表被模型預(yù)測(cè)為負(fù)的正樣本。
ROC(Receiver Operating Characteristic)和AUC(Area under Curve)指標(biāo)是常用的評(píng)價(jià)指標(biāo)。首先計(jì)算真正率(TPR)和假正率(FPR)的值,然后以FPR和TPR為坐標(biāo)形成折線圖,即ROC曲線。
(4)
(5)
ROC曲線越靠近左上角,代表模型分類性能越好。AUC是ROC曲線下方面積,AUC越大,代表模型的準(zhǔn)確性就越高。
KS(Kolmogorov-Smirnov)是信用風(fēng)險(xiǎn)評(píng)分領(lǐng)域常用的評(píng)價(jià)指標(biāo),首先將數(shù)據(jù)樣本按照預(yù)測(cè)違約概率由低到高進(jìn)行排序,然后計(jì)算每一個(gè)違約率下的累積TPR值和累積FPR值,最后求這兩個(gè)值的差值的最大值,即為KS指標(biāo)。KS值越大代表模型對(duì)于違約客戶和按時(shí)還款客戶的分辨能力越強(qiáng)。
本文數(shù)據(jù)源共包含50 000個(gè)用戶的數(shù)據(jù)。首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。將類別型變量,如性別,轉(zhuǎn)換為One-hot編碼,同時(shí)將連續(xù)型變量,如收入金額,進(jìn)行歸一化處理。將用戶行為記錄和用戶基本屬性分別轉(zhuǎn)換成矩陣和向量作為CNN的輸入。同時(shí)采用特征提取的方式,從用戶行為記錄中抽取特征作為傳統(tǒng)算法的輸入,特征值從用戶行為記錄中匯總得到,選用的匯總指標(biāo)有合計(jì)、計(jì)數(shù)、平均等。為了更好地對(duì)模型進(jìn)行評(píng)估,將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
實(shí)驗(yàn)結(jié)果如表2和圖3所示,表2中顯示了3種模型實(shí)驗(yàn)結(jié)果的AUC值和KS值。從表中可以看到,本文構(gòu)建的CNN模型實(shí)驗(yàn)結(jié)果的AUC值和KS值都遠(yuǎn)遠(yuǎn)高于傳統(tǒng)方法。同時(shí)如圖3所示,CNN的ROC曲線始終處于最左上方。以上表明本文提出的CNN方法具有較好的信用風(fēng)險(xiǎn)預(yù)測(cè)效果。
表2 模型運(yùn)行結(jié)果
本文針對(duì)互聯(lián)網(wǎng)金融行業(yè)的用戶信用風(fēng)險(xiǎn)評(píng)估問(wèn)題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的客戶違約風(fēng)險(xiǎn)預(yù)測(cè)模型。首先將輸入數(shù)據(jù)分為動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),將動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)分別轉(zhuǎn)換為矩陣和向量,本文建立的卷積神經(jīng)網(wǎng)絡(luò)模型包含四個(gè)子卷積網(wǎng)絡(luò),最后使用ROC、AUC值和KS值作為評(píng)價(jià)指標(biāo),將該方法與其他傳統(tǒng)機(jī)器學(xué)習(xí)算法(LR、RF)進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)模型的客戶違約風(fēng)險(xiǎn)預(yù)測(cè)性能要優(yōu)于其他模型,能對(duì)借款人的信用風(fēng)險(xiǎn)進(jìn)行更準(zhǔn)確的評(píng)估,同時(shí),卷積神經(jīng)網(wǎng)絡(luò)模型能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,與人工設(shè)計(jì)特征相比,可以節(jié)約大量的時(shí)間,因此本文建立的模型在互聯(lián)網(wǎng)金融行業(yè)的信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域更具有優(yōu)勢(shì)。
[1] 于曉虹,樓文高.基于隨機(jī)森林的P2P網(wǎng)貸信用風(fēng)險(xiǎn)評(píng)價(jià)、預(yù)警與實(shí)證研究[J].金融理論與實(shí)踐,2016(2):53-58.
[2] REDMOND U,CUNNINGHAM P. A temporal network analysis reveals the unprofitability of arbitrage in the prosper marketplace[J]. Expert Systems with Applications,2013,40(9): 3715-3721.
[3] MALEKIPIRBAZARI M,AKSAKALLI V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications,2015,42(10): 4621-4631.
[4] 操小文,薄華. 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別研究[J]. 微型機(jī)與應(yīng)用,2016,35(9): 55-57.
[5] LECUN Y,BOTTOU L,BENGIO Y ,et al. Gradient based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems,2012: 1097-1105.
[7] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]. Computer Vision and Pattern Recognition,2015:1-9.
[8] 李思琴,林磊,孫承杰,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的搜索廣告點(diǎn)擊率預(yù)測(cè)[J]. 智能計(jì)算機(jī)與應(yīng)用,2015(5): 22-25,28.
[9] 鄭昌艷,梅衛(wèi). 基于卷積神經(jīng)網(wǎng)絡(luò)的空中目標(biāo)戰(zhàn)術(shù)機(jī)動(dòng)模式分類器設(shè)計(jì)[J]. 微型機(jī)與應(yīng)用,2015,34(22): 50-52.
Prediction of credit riskin Internet financial industry based on convolutional neural network
Wang Chongren,Han Dongmei
(Department of Information Management and Engineering,Shanghai University of Finance and Economics,Shanghai 200433,China)
A method of customer default risk prediction based on convolutional neural network is proposed in the light of credit risk evaluation problem in the Internet financial industry. Firstly,the input data is divided into dynamic data and static data,and the dynamic data and static data are converted into matrix and vector. Then,an improved convolutional neural network is used to automatically extract features and classify. Finally,the ROC curve,AUC value and KS value are used as evaluation metrics,and the method is compared with other machine learning algorithms (Logistic Regression and Random Forest). The experimental results show that the convolutional neural network model overcomes the contrast model in the field of customer credit risk prediction.
credit risk evaluation; convolutional neural networks; machine learning; deep learning
上海財(cái)經(jīng)大學(xué)研究生教育創(chuàng)新計(jì)劃項(xiàng)目(2015111101)
TP391
A
10.19358/j.issn.1674-7720.2017.24.013
王重仁,韓冬梅.基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)預(yù)測(cè)研究J.微型機(jī)與應(yīng)用,2017,36(24):44-46,50.
2017-05-25)
王重仁(1984-),男,博士研究生,主要研究方向:數(shù)據(jù)挖掘。
韓冬梅(1961-),女,博士生導(dǎo)師,教授,主要研究方向:經(jīng)濟(jì)分析與預(yù)測(cè)。