鄭浦陽
(華東交通大學(xué),江西 南昌 330013)
最近幾年,以第三方支付、網(wǎng)絡(luò)借貸為代表的互聯(lián)網(wǎng)金融服務(wù)在國(guó)內(nèi)迅猛崛起,極大促進(jìn)了我國(guó)金融消費(fèi)市場(chǎng)的發(fā)展。金融消費(fèi)市場(chǎng)的擴(kuò)展推動(dòng)了金融領(lǐng)域的發(fā)展繁榮,同時(shí)也為金融機(jī)構(gòu)帶來新的挑戰(zhàn)。這種挑戰(zhàn)來自兩個(gè)方面:一方面是客戶層面,當(dāng)前金融產(chǎn)品在互聯(lián)網(wǎng)金融的背景下,融資渠道更為便利,從而導(dǎo)致信用風(fēng)險(xiǎn)高,用戶惡意違規(guī)手段不斷更新,這對(duì)金融公司造成了潛在隱患。同時(shí),當(dāng)前的信貸審批流程相對(duì)落后,對(duì)個(gè)人信用風(fēng)險(xiǎn)的識(shí)別和控制能力一般,這也影響到金融公司產(chǎn)品銷售的效率。以往對(duì)于金融消費(fèi)者資質(zhì)分析往往集中于消費(fèi)者的收入情況、信貸歷史等因素,很少通過消費(fèi)行為來反饋金融消費(fèi)者的金融素養(yǎng),從而對(duì)金融消費(fèi)者進(jìn)行系統(tǒng)評(píng)價(jià),本文從金融消費(fèi)者的消費(fèi)行為入手,通過大數(shù)據(jù)的獲取和機(jī)器學(xué)習(xí)方法的應(yīng)用,試圖建立金融消費(fèi)者“信用風(fēng)險(xiǎn)”與“消費(fèi)行為”之間的映射關(guān)系,從而為進(jìn)一步對(duì)金融消費(fèi)者的金融素養(yǎng)評(píng)定提供依據(jù)。
本文的數(shù)據(jù)來源為深圳某金融服務(wù)平臺(tái),獲取的數(shù)據(jù)部分字段經(jīng)歷“脫敏處理”,以保護(hù)用戶隱私。數(shù)據(jù)包括用戶的“消費(fèi)情況”和“信用風(fēng)險(xiǎn)”兩個(gè)層面,其中“信用風(fēng)險(xiǎn)”相關(guān)特征包括用戶的還款行為等信譽(yù)表現(xiàn)狀況。
該平臺(tái)提供了2017年1月—2019年1月的信貸數(shù)據(jù),包括訓(xùn)練樣品12萬條,測(cè)試樣品1萬條。數(shù)據(jù)共包含3部分:第一部分?jǐn)?shù)據(jù)集(Master文件)是用戶消費(fèi)行為數(shù)據(jù)集,每個(gè)樣本包含159個(gè)特征字段和1個(gè)是否違約的目標(biāo)字段,主要為用戶消費(fèi)的具體類型,其中1個(gè)是否違約的目標(biāo)字段,只要有違約記錄則計(jì)為1,沒有違約記錄計(jì)為0。部分字段的名稱和數(shù)量見表1所列;第二部分?jǐn)?shù)據(jù)集(Consume time文件)是用戶消費(fèi)時(shí)間的數(shù)據(jù)集,包括4個(gè)字段,見表2所列;第三部分?jǐn)?shù)據(jù)集(Habit_info文件)是表征用戶消費(fèi)習(xí)慣的數(shù)據(jù)集,包括3個(gè)字段。
由這3個(gè)數(shù)據(jù)文件可知特征變量共167個(gè),預(yù)測(cè)是否違約的目標(biāo)變量1個(gè),為典型的二分類問題。特征變量在邏輯上與借款人的消費(fèi)行為習(xí)慣有關(guān),且數(shù)據(jù)量具有一定規(guī)模,滿足了機(jī)器學(xué)習(xí)的一般需要。
1.2.1 消費(fèi)類別統(tǒng)計(jì)(見表1)
收集到的消費(fèi)項(xiàng)目,將159個(gè)字段分為9個(gè)類別,統(tǒng)計(jì)不同類別消費(fèi)類型的具體消費(fèi)比重。值得注意的是,單純的統(tǒng)計(jì)消費(fèi)額度是沒有意義的,因?yàn)椴煌M(fèi)者的消費(fèi)行為有較大差異,與自身經(jīng)濟(jì)能力有關(guān)。為了更好地表征消費(fèi)行為這一特征,本文對(duì)每一個(gè)消費(fèi)類別采用“該類別月消費(fèi)數(shù)額/月消費(fèi)總額”作為衡量特征。
本文獲得的2個(gè)較為極端的案例,即月消費(fèi)額超過10 000,和不足2 000的2個(gè)案例,二者之間的消費(fèi)能力差異較大,但消費(fèi)比重近似,這反映了二者在消費(fèi)觀念上相似性。值得注意的是,高消費(fèi)者在娛樂類消費(fèi)的比重較高,這與消費(fèi)習(xí)慣有關(guān),也與娛樂項(xiàng)目和基礎(chǔ)生活花銷在價(jià)值上的差異有關(guān)。本文從消費(fèi)行為上重點(diǎn)提取的是表征“非理性消費(fèi)”的特征,因此,消費(fèi)能力偏低,娛樂類消費(fèi)或者美妝類消費(fèi)較高的特征更偏重于這一點(diǎn)。這與通常意義上認(rèn)為的“消費(fèi)不理性”的印象一致。
1.2.2 消費(fèi)時(shí)間統(tǒng)計(jì)(見表2)
對(duì)消費(fèi)時(shí)間的評(píng)估,更多的是反饋消費(fèi)習(xí)慣的一方面特征。通常來說,集中在節(jié)假日、周末消費(fèi)的群體往往有穩(wěn)定的工作情況,這對(duì)他們履行金融義務(wù),按期還款提供了便利。長(zhǎng)假集中消費(fèi)的群體往往有假日出行旅游的習(xí)慣,這一群體往往有較好的經(jīng)濟(jì)背景,通常情況下逾期還款的可能性不高。相反,發(fā)生在特殊時(shí)段(深夜),特殊日期(工作日)的大額消費(fèi)往往可能是緊急情況下的“特殊消費(fèi)”,或者是“失業(yè)群體”的零散消費(fèi),無論是緊急情況下的“特殊消費(fèi)”,或者是“失業(yè)群體”的零散消費(fèi),當(dāng)消費(fèi)占據(jù)很大比重時(shí),都有理由懷疑他們的經(jīng)濟(jì)能力是否可以支持按期還款,因此這一方面的特征在邏輯上與金融信用有關(guān),可作為深度學(xué)習(xí)的輸入層。
1.2.3 消費(fèi)習(xí)慣統(tǒng)計(jì)(見表3)
用戶的消費(fèi)習(xí)慣是一個(gè)處理后的特征,用以更好地建立目標(biāo)映射。其中,沖動(dòng)消費(fèi)指數(shù):
Im_con=con_con/month
其中,Im_con為沖動(dòng)消費(fèi)指數(shù);con_con指代連續(xù)消費(fèi)次數(shù),month為每月。其中con_con連續(xù)消費(fèi)的定義為,在1 d時(shí)間內(nèi),同時(shí)進(jìn)行5個(gè)類別(如表1)消費(fèi)行為。一般來說,短時(shí)間內(nèi)進(jìn)行大量跨類別的消費(fèi),往往表征這個(gè)人在一定的消費(fèi)環(huán)境和消費(fèi)刺激下“沖動(dòng)消費(fèi)”行為,實(shí)際上這是一個(gè)表征“消費(fèi)理性的特征”,不難認(rèn)為,沖動(dòng)消費(fèi)的人更傾向于逾期還款,或者有較差的金融素養(yǎng)和金融行為。
消費(fèi)集中指數(shù)的計(jì)算為:
Fo_con=Lar_amon/month
其中,F(xiàn)o_con為消費(fèi)集中指數(shù);Lar_amon/month為1個(gè)月內(nèi)大額消費(fèi)的次數(shù),其中大額消費(fèi)定義為:消費(fèi)額度超過該用戶月平均消費(fèi)總額度20%的消費(fèi)行為(月平均消費(fèi)為1年內(nèi)的月平均水平)。
消費(fèi)分布指數(shù),指消費(fèi)行為發(fā)生集中度,即用戶在該月消費(fèi),集中在任何2個(gè)類別的消費(fèi)超過本月消費(fèi)總額度的60%,被認(rèn)定為集中消費(fèi)1次。
表1 消費(fèi)類別統(tǒng)計(jì)
表2 消費(fèi)時(shí)間統(tǒng)計(jì)
表3 消費(fèi)習(xí)慣統(tǒng)計(jì)
通過描述性統(tǒng)計(jì)分析,對(duì)數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)和部分字段內(nèi)容有了邏輯上的認(rèn)識(shí)。本章節(jié)將對(duì)消費(fèi)者消費(fèi)行為數(shù)據(jù)預(yù)處理、特征工程以及模型調(diào)優(yōu),建立消費(fèi)行為-信貸素養(yǎng)預(yù)測(cè)模型,以達(dá)到識(shí)別信用風(fēng)險(xiǎn)的目的。
在現(xiàn)實(shí)的工業(yè)場(chǎng)景中,大部分的數(shù)據(jù)都是不規(guī)整、高缺失的“臟數(shù)據(jù)”,如不處理這種數(shù)據(jù)“噪聲”就直接用于模型訓(xùn)練,效果往往大打折扣。本文通過數(shù)據(jù)清洗、數(shù)據(jù)集成以及數(shù)據(jù)變換等方法,結(jié)合具體業(yè)務(wù)邏輯對(duì)數(shù)據(jù)進(jìn)行處理后,從而大幅減少數(shù)據(jù)噪聲,提高訓(xùn)練分類器的性能和準(zhǔn)確率。
2.1.1 缺失值處理
在處理數(shù)據(jù)的過程中,樣本往往會(huì)含有缺失值。 這是由于顧客在消費(fèi)過程中,其購買的商品信息或者具體的消費(fèi)項(xiàng)目難以歸類,在判別消費(fèi)類型上有難度。此外,獲得的數(shù)據(jù)庫本身就存在數(shù)據(jù)不完整的問題。對(duì)缺失值的處理方面,首先對(duì)缺失率大于70%的數(shù)據(jù)進(jìn)行刪除,即Dailishop_和Traval_13,其中Traval_13項(xiàng)目數(shù)據(jù)的缺失與該金融產(chǎn)品及其綁定的旅行服務(wù)企業(yè)之間的數(shù)據(jù)交互問題有關(guān)。去除2個(gè)項(xiàng)目后,對(duì)剩余缺失值進(jìn)行基于歐氏距離的插值處理。即參照擁有數(shù)據(jù)的樣本數(shù)據(jù),選取該特征大類下(如Travel特征大類)與該確實(shí)樣本的其他未缺失特征平均歐氏距離最小的樣本,選取改樣本相應(yīng)值作為缺失樣本值的插值依據(jù)(如表4)。
2.1.2 單一值處理
所謂單一值,就是對(duì)各個(gè)樣本來說,彼此之間相沒有顯著差異的值,即對(duì)目標(biāo)預(yù)測(cè)沒有意義的值,本文通過數(shù)據(jù)標(biāo)準(zhǔn)差來反映數(shù)據(jù)的波動(dòng)情況,結(jié)果顯示,在7個(gè)項(xiàng)目上,標(biāo)準(zhǔn)差小于0.1。即這一數(shù)據(jù)在各個(gè)樣本之間的表現(xiàn)比較均一,包括“非商業(yè)醫(yī)療保險(xiǎn)投入額度”,“消費(fèi)發(fā)生的月份”等。值得注意的是,這些特征從邏輯上,本身就是與“消費(fèi)素養(yǎng)”因素?zé)o關(guān),也符合本文判斷。
表4 缺失值情況統(tǒng)計(jì)
2.1.3 重要特征處理
在原始數(shù)據(jù)的訓(xùn)練過程中,本文采用基于樹模型的LightGBM,用以輸出各個(gè)特征的重要性。這一重要性特征的篩選對(duì)后續(xù)機(jī)器學(xué)習(xí)模型的約束有重要意義。具體過程如下:首先定義訓(xùn)練數(shù)據(jù)集D,定義集合D的經(jīng)驗(yàn)熵為H(D),對(duì)于特征X,條件熵為H(D|X),則特征X的信息增益g(D,X)為H(D)與H(D|X)的差。值得注意的是,熵與條件熵之間的差值為“互信息”,訓(xùn)練數(shù)據(jù)集中類與特征的互信息就等價(jià)于決策樹學(xué)習(xí)中的信息增益。獲得的信息增益,往往反映特征的類群性,即信息增益越大,分類能力越強(qiáng)。通過比較信息增益,獲得了重要性最高的10個(gè)特征。選取這10個(gè)特征與樣本數(shù)據(jù)進(jìn)行對(duì)比,剔除缺失該特征的樣本。同時(shí),對(duì)于重要性較低(<0.02)的特征進(jìn)行刪除。
特征工程是指將原始數(shù)據(jù)轉(zhuǎn)化為可直接進(jìn)行訓(xùn)練的特征向量的過程。包括數(shù)據(jù)轉(zhuǎn)換、特征提取、特征選擇等方法。特征工程可以有效地簡(jiǎn)化數(shù)據(jù)處理的過程,通過建立判別特征來高效地進(jìn)行機(jī)器學(xué)習(xí)。
2.2.1 消費(fèi)時(shí)間統(tǒng)計(jì)
對(duì)于消費(fèi)時(shí)間統(tǒng)計(jì),本文收集了消費(fèi)的月份、日期(星期幾)、節(jié)假日、時(shí)間等特征,其中月份這一特征通過單一值分析過程已經(jīng)被剔除,對(duì)于剩余的幾個(gè)特征,本文發(fā)現(xiàn),其中星期六、日可以和短假期合并為一個(gè)特征,即“三天以內(nèi)假期”特征,對(duì)于長(zhǎng)假期特征則保留。具體的消費(fèi)時(shí)間,分成12個(gè)時(shí)段非常繁瑣。由于通過數(shù)據(jù)分析,產(chǎn)生不良金融信用行為的樣本在“9:00-17:00”的消費(fèi)行為比較活躍,因此對(duì)于消費(fèi)時(shí)間分為兩類:“工作時(shí)間”和“非工作時(shí)間”,兩類時(shí)間的主要?jiǎng)澏ㄒ罁?jù)為是否在“9:00-17:00時(shí)段”,盡管這一時(shí)段并不能完全代表“工作時(shí)間”。
2.2.2 相關(guān)性分析
高相關(guān)性特征即共線特征,表示特征變量之間高度相關(guān)。一般來說,2個(gè)相關(guān)性很高的特征沒有必要作為2個(gè)獨(dú)立的特征存在,從而造成“數(shù)據(jù)噪聲”或者增加了數(shù)據(jù)處理難度。
皮爾遜相關(guān)系數(shù)用于衡量變量之間線性相關(guān)的程度,2個(gè)變量之間的皮爾遜相關(guān)系數(shù)的計(jì)算方法為2個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商:
ρ(X,Y)=Cov(X,Y)/σXσY
對(duì)于相關(guān)性>0.96的特征進(jìn)行刪除。共刪除了6個(gè)特征。比如在1個(gè)月內(nèi)購買大型消費(fèi)品(商品房、汽車)這一類型的特征與消費(fèi)集中特征,具有前者特征的樣本往往也具有后者特征。因此這一類型特征可以去除,用消費(fèi)集中特征代表即可。
2.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化
為了對(duì)數(shù)值去量綱化,并能夠讓不同特征的數(shù)據(jù)進(jìn)行比較。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,采用最大值做商法,即對(duì)于樣本特征值I,比較全部樣本對(duì)應(yīng)特征值,選取最大值做商,得出標(biāo)準(zhǔn)化值Istan,從而讓所有樣本數(shù)值在0~1浮動(dòng)??梢员WC輸入值保持在一個(gè)相對(duì)較小的范圍內(nèi),加快訓(xùn)練速度。同時(shí),也可以避免因?yàn)檩斎胫捣秶^大而使權(quán)重過大的情況。
Istan=I/Imax
將以上預(yù)處理和特征工程后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,通過目前主流的機(jī)器學(xué)習(xí)算法,建立消費(fèi)行為-信貸違約模型。
通過Python人工智能主流模型,利用相應(yīng)數(shù)據(jù)包進(jìn)行計(jì)算。其中邏輯回歸模型使用SKLEARN機(jī)器學(xué)習(xí)庫的LogisticRegression算法接口,讀取已處理的結(jié)構(gòu)化訓(xùn)練集和測(cè)試集,通過網(wǎng)格搜索窮舉參數(shù)范圍確定最優(yōu)超參數(shù),進(jìn)行數(shù)據(jù)擬合。LightGBM、AdaBoost等模型使用Python專門的相應(yīng)程序包。不同模型的計(jì)算結(jié)果中,主要關(guān)注Auc(Area Under Curve)參數(shù),作為模型評(píng)估指標(biāo)。通過對(duì)比可以得出,在使用的六種模型中,LightGBM的擬合效果最好,邏輯回歸效果最差(如表5)。
表5 不同模型評(píng)價(jià)對(duì)比
為了進(jìn)一步提高擬合效果,本文參照機(jī)器學(xué)習(xí)慣例,使用SKlearn投票機(jī)將邏輯回歸、隨機(jī)森林,SVM,XGBoost等6種模型融合,結(jié)合不同機(jī)器學(xué)習(xí)分類器,采用平均預(yù)測(cè)概率(軟投票)來預(yù)測(cè)分類標(biāo)簽,提升分類效果。
軟投票模型的Auc值為0.804568,略高于Light GBM模型,反映集成學(xué)習(xí)的融合方式效果較好。
前述特征工程已經(jīng)提取了對(duì)違約率產(chǎn)生較大影響的消費(fèi)行為,基于樹模型的LightBGM根據(jù)信息增益、基尼系數(shù)計(jì)算來返回特征重要性,也有助于反饋影響違約率的消費(fèi)行為,本文展示了影響違約率的重要性前6指標(biāo),即消費(fèi)行為呈現(xiàn)以下特征的用戶更容易出現(xiàn)違約行為,以下消費(fèi)行為可看作不良消費(fèi)行為(如表6)。
表6 特征工程后的特征重要性
采用ACU值作為模型評(píng)估的指標(biāo),集成模型明顯優(yōu)于單一模型。單一模型中,LightBGM與AdaBoost具有良好的擬合效果,對(duì)用戶消費(fèi)行為的評(píng)估,采用融合模型有助于更準(zhǔn)確地獲得評(píng)估結(jié)果。
通過特征工程以及基于樹模型的LightBGM根據(jù)信息增益、基尼系數(shù)計(jì)算來返回特征重要性,本文得出了影響到用戶違約行為的不良消費(fèi)行為,其中,本文自建的2個(gè)特征“沖動(dòng)消費(fèi)指數(shù)”和“消費(fèi)集中指數(shù)”占據(jù)較高的兩個(gè)重要性,而具體的消費(fèi)項(xiàng)目影響程度相對(duì)較低。用戶的消費(fèi)習(xí)慣比消費(fèi)類型更能反映用戶的金融素養(yǎng)和違約風(fēng)險(xiǎn)。
本文根據(jù)平臺(tái)用戶使用的數(shù)據(jù),通過集成模型在預(yù)測(cè)中的準(zhǔn)確率可以達(dá)到94%,這反映模型還有一定的改良空間。更大的數(shù)據(jù)量以及對(duì)特征的優(yōu)化,對(duì)模型的優(yōu)化將有助于獲得更加精準(zhǔn)的預(yù)測(cè)結(jié)果。