譚天翔 李達(dá) 陳俊林
摘 要:近年來,隨著網(wǎng)絡(luò)個人貸款在中國蓬勃發(fā)展,一些平臺出現(xiàn)提現(xiàn)困難、經(jīng)偵介入、跑路等問題,究其原因主要是平臺對風(fēng)險的控制不過關(guān)。文章對國內(nèi)網(wǎng)絡(luò)借貸行業(yè)的貸款風(fēng)險數(shù)據(jù)(來源:拍拍貸官網(wǎng))進行選擇分析,基于機器學(xué)習(xí)技術(shù)提出個人借貸風(fēng)控模型的構(gòu)建方案,為投資人提供關(guān)鍵的決策思路。
關(guān)鍵詞:xgboost;SVM;邏輯回歸模型
中圖分類號:F832.4
文章編號:2095-624X(2019)06-0014-03
一、概述
本文的研究目標(biāo)是根據(jù)用戶歷史行為數(shù)據(jù)來預(yù)測用戶在未來6個月內(nèi)是否會逾期還款的概率。該問題可以轉(zhuǎn)換成二分類問題,從數(shù)據(jù)表中構(gòu)建特征,評估指標(biāo)為AUC,其本質(zhì)是排序優(yōu)化問題,所以本文在模型頂層融合也使用基于排序優(yōu)化的rank_avg融合方法。
本文首先從數(shù)據(jù)清洗開始,介紹我們對缺失值的多維度處理、對離群點的剔除方法以及對字符、空格等的處理;其次進行特征工程,包括對地理信息特征構(gòu)建、組合特征構(gòu)建和數(shù)據(jù)表的特征提取等;再次進行特征選擇,本文采用xgboost,其訓(xùn)練過程即對特征重要性排序過程;最后一部分是模型設(shè)計與分析,采用了工業(yè)界廣泛應(yīng)用的邏輯回歸模型,并基于Large-scale SVM的方法在本課題上的應(yīng)用,取得了較好的效果。
二、數(shù)據(jù)清洗
1.缺失值的處理
在個人信貸問題中,用戶所提供自身信息的數(shù)量對其在信貸體系中的信用等級有著至關(guān)重要的作用,所提供的信息越詳細(xì)則越容易通過審核得到貸款。我們以此為切入點來分析和處理原始數(shù)據(jù)中的缺失值。
首先,以行為單位統(tǒng)計各樣本的屬性缺失值個數(shù)。按照缺失屬性的個數(shù)由小到大排序,繪制散點圖并分析得出,訓(xùn)練集和測試集中的各樣本缺失屬性的個數(shù)的分布情況基本一致。同時在訓(xùn)練集數(shù)據(jù)中,序號在80000附近的少量樣本的缺失屬性個數(shù)非常多,可視為離群點刪除。其次,以列為單位統(tǒng)計各個屬性缺失值個數(shù),并計算相應(yīng)的缺失率,分析其中兩列缺失率達(dá)到97%,且這兩種屬性沒有有效的信息,故可直接刪除。而缺失率達(dá)到63%的三種屬性為分類型數(shù)據(jù),可以用-1來代替缺失值,從而等價于表示“是否缺失”的新類別。除去前五種缺失率較高的屬性,其余屬性的缺失率都比較低,因此可用中值代替。補全數(shù)據(jù)后最終達(dá)到了可以研究的目的。最后,缺失值的個數(shù)也可以作為一項衡量用戶信息詳細(xì)程度的重要指標(biāo)。
2.常變量的剔除
題目提供的數(shù)據(jù)中數(shù)值型特征有190個,我們可以計算每個特征的標(biāo)準(zhǔn)差后,將所得結(jié)果按照從大到小排序,從而刪除標(biāo)準(zhǔn)差最小,即變化較小的特征。
3.離群點的剔除
樣本空間中有一些樣本點與其他的特征或一般行為不相符,這些點便可稱為離群點。由于離群點的不同特征可能是多種因素造成的,在上文中我們就已通過分析處理缺失值的個數(shù)來篩選少量離群點。
但在本節(jié)中,我們在題目提供的數(shù)據(jù)上訓(xùn)練xgboost,用得到的xgb模型來評價各個特征的重要性,對其進行由大到小的排序得到前10個最重要的特征,如圖1所示。然后分別計算每個樣本的這10個特征的缺失值個數(shù)。如若缺失值個數(shù)大于10個,則將其視為離群點。這些離群點缺失了前10個特征上的取值,給訓(xùn)練模型增加了很多麻煩,不便于處理,故需要刪除。
4.其他處理
將數(shù)據(jù)表中其他數(shù)據(jù)進行相應(yīng)處理,如英文字符統(tǒng)一為小寫;數(shù)據(jù)包含了空格字符,是同一種取值,如“中國 電信”與“中國電信”,刪除空格字符;含有“長沙市”“長沙”等情況,其意義相同,故統(tǒng)一刪除“市”這個字符。
三、特征處理
1.地理信息處理
針對地理位置信息(類別變量),我們想到的處理方法是利用獨熱編碼(one-hot encoding),然而如此會產(chǎn)生較高維的稀疏特征,阻礙模型學(xué)習(xí)的效率和有效性,對此我們先對數(shù)據(jù)進行篩選。
數(shù)據(jù)中包含了六個字段的用戶地理信息,當(dāng)中的兩個字段為省份,另外四個為城市信息。我們計算各省份和城市的違約率,違約率最大的幾個地區(qū)分別為吉林、天津、山東、湖北、湖南以及四川,由此,我們設(shè)立6個二維特征,分別為:“是否為吉林省”“是否為天津市”“是否為山東省”等,取其值為0或1。即對其地理信息進行了獨熱編碼處理,保留其中判別性特征。之后,由于城市信息建立二值特征產(chǎn)生的稀疏特征維度較高,分析難度較高。因此我們對獨熱編碼處理后的高維稀疏特征進行xgb模型訓(xùn)練,根據(jù)輸出的特征重要性篩選出二值特征。
根據(jù)城市等級合并。因類別特征取值個數(shù)太多,對其獨熱編碼處理后所得稀疏特征維度較高,我們還使用了與上面不同的合并變量方法。
城市特征向量化。統(tǒng)計城市特征中城市數(shù),并取對數(shù),之后等值離散化到6~10個區(qū)間內(nèi)。
地理信息差異特征。地理信息中有4列為城市。因此我們設(shè)置城市差異特征,如diff_12表示1、2列的城市是否一致。
2.成交時間特征
依日期來統(tǒng)計訓(xùn)練集中每日借貸成交量,正負(fù)樣本分別計算,得到如下的曲線圖2,橫坐標(biāo)是日期(20131101至20141109),縱坐標(biāo)是每日借貸量。count_1曲線是違約樣本每日數(shù)量(為了體現(xiàn)對比,將量擴大一倍),coun_o曲線對應(yīng)未違約數(shù)量。
由圖中可以看到拍拍貸業(yè)務(wù)量總體呈增長趨勢,而違約量前期有緩慢增長,之后基本趨于平穩(wěn),總體上違約率為平穩(wěn)甚至下降趨勢。在300~350對應(yīng)的日期區(qū)間內(nèi),有一些借貸量非常大的情況出現(xiàn),其中可能隱藏著我們尚未挖掘出來的某些信息。
3.特征組合
訓(xùn)練完成xgboost后可以輸出特征重要性,我們發(fā)現(xiàn)第三方數(shù)據(jù)特征“ThirdParty_Info_Period_XX”的feature score較高(見圖1),即判別性比較高,于是用這部分特征構(gòu)建了組合特征:將特征相除得到6000多個特征,之后使用xgboost對其單獨進行模型訓(xùn)練,得到特征重要性排序,取其中前450個特征線下cv能達(dá)到0.73以上的AUC值。將其添加到初始體系中,線下cv的AUC值從0.777提高到0.7833。另外,也組合了乘法特征(取對數(shù)):log(x*y),篩選出其中的240多維,加入初始體系中,單模型cv又提高到了0.785左右。
4.其他特征
我們將剩余類別特征均做獨熱編碼處理,提取了用戶修改信息特征,比如:修改次數(shù),修改時間到成交時間的間隔,各信息修改次數(shù)等特征。我們提取了用戶登錄信息特征,如時間天數(shù),平均登錄間隔以及各操作代碼的次數(shù)等。對初始特征中190維數(shù)值型特征按數(shù)值從小到大進行排序,得到排序特征。排序特征對異常數(shù)據(jù)有更強的抗變換性,使模型更加穩(wěn)定,降低過度擬合的風(fēng)險。
四、特征選擇
在特征工程部分,我們構(gòu)建了一系列位置信息相關(guān)的特征、組合特征、成交時間特征、排序特征、類別稀疏特征等,所有特征加起來將近1500維,這么多維特征可能會導(dǎo)致維數(shù)災(zāi)難,需要做降維處理,此處通過特征選擇來降低特征維度。特征選擇的方法很多:最大信息系數(shù)(MIC)、正則化方法(L1,L2)、基于模型的特征排序方法。比較高效的是最后一種,即基于學(xué)習(xí)模型的特征排序方法,這種方法有一個好處:模型學(xué)習(xí)的過程和特征選擇的過程是同時進行的,因此我們采用這種方法基于xgboost來做特征選擇,xgboost模型訓(xùn)練完成后可以輸出特征的重要性,據(jù)此我們可以保留前N個特征,從而達(dá)到特征選擇的目的。
五、模型設(shè)計
本次研究所收集到的數(shù)據(jù)共有9萬個,將此數(shù)據(jù)分為三個集合,分別為訓(xùn)練數(shù)據(jù)(訓(xùn)練集)、測試數(shù)據(jù)(測試集)和驗證數(shù)據(jù)(驗證集合)。其中訓(xùn)練集8萬數(shù)據(jù),測試集1萬數(shù)據(jù),驗證集1萬數(shù)據(jù)。其中7萬的訓(xùn)練集用于模型的調(diào)參,本次實驗主要采用7折交叉驗證進行調(diào)參,而驗證數(shù)據(jù)主要是為了方便進行線上模擬實驗,在得到單個的模型結(jié)果后,可在驗證數(shù)據(jù)的基礎(chǔ)上做進一步的模型融合。
1.logistic回歸
logistic回歸即邏輯回歸,它與多重線性回歸實際上有很多相同之處,最大的區(qū)別就在于他們的因變量不同,其他的基本差不多。最為常用的就是因變量二分類的logistic回歸,這就為本次實驗的模型選取提供了可選擇性。
首先,對原始特征和構(gòu)建的多維特征進行添加和形式的變換。其次,就本次實驗來說,關(guān)鍵在于動態(tài)地根據(jù)交叉驗證的反饋來處理特征,這個基本思想貫穿整個建模的過程。對于xgboost模型訓(xùn)練后輸出的重要性與特征進行單因素分析和數(shù)值特征的離散化,對于連續(xù)性變量在分析過程中常常需要采用OCDD離散化方法進行離散化后變成等級特征然后進行獨熱編碼。為了提高模型的表達(dá)能力,如果單純用線性模型來對問題進行刻畫會有失準(zhǔn)確性,因此構(gòu)建并加入上文中描述的組合特征,特征組合正好可以加入非線性表達(dá),以此來增強模型的表達(dá)準(zhǔn)確性。最后,在高維特征上進行模型的訓(xùn)練,單模型驗證集得到的AUC為0.772左右。
2.xgboost
xgboost的全稱是extreme Gradient Boosting(極端梯度提升),它能夠自動利用CPU的多線程進行并行,同時在算法上加以改進提高精度,有著出眾的效率與較高的預(yù)測準(zhǔn)確度,值得我們在GBDT(Gradient Boosting Decision Tree:梯度提升決策樹)的基礎(chǔ)上對其進一步探索學(xué)習(xí)。
之前的原始特征和構(gòu)建的特征共有1439維特征,在此基礎(chǔ)上訓(xùn)練xgboost,單模型線下交叉驗證的ACU值為0.7833左右。我們又對模型做進一步改進。在之前模型得到的參數(shù)基礎(chǔ)上,讓參數(shù)在小范圍內(nèi)隨機波動,并對特征進行隨機抽樣。例如,之前模型的子樣品參數(shù)取值為0.75,而得到的新模型的子樣品參數(shù)在0.7~0.8隨機取值;原模型所用到的特征為1439維,而新模型則在隨機抽樣部分進行訓(xùn)練。經(jīng)過改進,線下模擬的ACU值達(dá)到了0.787。
3.大規(guī)模數(shù)據(jù)的SVM嘗試
SVM即支持向量機,它是在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法。但是,SVM存在的問題就是不能處理大規(guī)模的數(shù)據(jù),本次實驗我們收集了8萬的數(shù)據(jù),對于SVM來說數(shù)據(jù)規(guī)模過大,因為當(dāng)處理大規(guī)模的數(shù)據(jù)時它受到訓(xùn)練時間和實驗硬件設(shè)施的限制。因此,要解決數(shù)據(jù)過大而造成的時間過長問題,具體的做法就是采用工作集方法、訓(xùn)練集分解方法、增量學(xué)習(xí)方法等。實驗中我們訓(xùn)練了30個SVM,在此中采用Bootstrap抽樣產(chǎn)生子集。這種方法實質(zhì)上減小了計算復(fù)雜度。假設(shè)原始數(shù)據(jù)有n,則原方法訓(xùn)練的復(fù)雜度是O(n2),將數(shù)據(jù)集n分為p份,則每一份數(shù)據(jù)量為n/p,每一份訓(xùn)練一個子SVM,復(fù)雜度為O((n/p)2),全部相加,則復(fù)雜度減小了p倍。在此種方法上得到的AUC為0.77左右,在一定程度上減少了訓(xùn)練時間。
4.模型融合
我們實現(xiàn)模型融合的基本框架,基于3個方案的融合。
方案1:bagging xboost,通過參數(shù)擾動生成不同30個xgb模型,對同一數(shù)據(jù)集進行訓(xùn)練產(chǎn)生結(jié)果,采用均值融合產(chǎn)生M1結(jié)果。
方案2:Large-Scale SVM,通過shuffle將數(shù)據(jù)集劃分為30子數(shù)據(jù)集,根據(jù)復(fù)雜度分析,這個方式的時間復(fù)雜度進一步降低,對30個svm結(jié)果輸出取平均產(chǎn)生M2結(jié)果。
方案3:單模型,根據(jù)線下CV驗證,調(diào)試2個不同版本的最優(yōu)單模型,S_XGB_1, S_XGB_1分別為陳天奇版本的xgboost和graphlab版本的模型,生成不同的單模型結(jié)果。
模型融合的關(guān)鍵在于模型差異性??蚣苤畜w現(xiàn)出模型差異性主要是3個部分:不同模型、相同模型不同參數(shù)和訓(xùn)練數(shù)據(jù)集不同。因此每次在ensemble之前需要參考下各個模型的相關(guān)性,可以采用person系數(shù)評價等。
最上層的融合方式可以采用均值融合,rank均值融合等簡單方式,最終我們選用的是線下效果最好的1/rank加權(quán)融合(按score降序)。
六、結(jié)語
根據(jù)本文研究,通過數(shù)據(jù)預(yù)處理—特征處理—模型選擇—模型融合這樣一個過程,我們實現(xiàn)算法和方案的有效建立。其實模型與數(shù)據(jù)是相輔相成的,只有更加了解數(shù)據(jù)才能更好地使用模型。投資人根據(jù)本文提供的模型,結(jié)合實際數(shù)據(jù),可以更好地對用戶借貸行為進行預(yù)測。
參考文獻:
[1]趙花.基于組合模型的用戶是否二次貸款預(yù)測應(yīng)用研究[D].上海:上海師范大學(xué),2018.
[2]王磊.社交數(shù)據(jù)驅(qū)動的P2P借貸風(fēng)險評估模型[D].杭州:浙江大學(xué),2017.
[3]李洋,鄭志勇.量化投資:以MATLAB為工具[M].北京:電子工業(yè)出版社,2015.
[4]卓金武,周英.量化投資:MATLAB數(shù)據(jù)挖掘技術(shù)與實踐[M].北京:電子工業(yè)出版社,2017.
基金項目:湖南商學(xué)院2017年度大學(xué)生研究性學(xué)習(xí)和創(chuàng)新性實驗計劃項目。
作者簡介:譚天翔(1997—),男,湖南岳陽人,湖南商學(xué)院數(shù)學(xué)與應(yīng)用數(shù)學(xué)專業(yè)1501級學(xué)生。