深度學(xué)習(xí)算法在金融消費(fèi)者行為研究中的應(yīng)用

2020-07-14 04:10:20鄭浦陽

技術(shù)與市場(chǎng) 2020年7期

鄭浦陽

(華東交通大學(xué)，江西南昌 330013)

0 引言

最近幾年，以第三方支付、網(wǎng)絡(luò)借貸為代表的互聯(lián)網(wǎng)金融服務(wù)在國(guó)內(nèi)迅猛崛起，極大促進(jìn)了我國(guó)金融消費(fèi)市場(chǎng)的發(fā)展。金融消費(fèi)市場(chǎng)的擴(kuò)展推動(dòng)了金融領(lǐng)域的發(fā)展繁榮，同時(shí)也為金融機(jī)構(gòu)帶來新的挑戰(zhàn)。這種挑戰(zhàn)來自兩個(gè)方面：一方面是客戶層面，當(dāng)前金融產(chǎn)品在互聯(lián)網(wǎng)金融的背景下，融資渠道更為便利，從而導(dǎo)致信用風(fēng)險(xiǎn)高，用戶惡意違規(guī)手段不斷更新，這對(duì)金融公司造成了潛在隱患。同時(shí)，當(dāng)前的信貸審批流程相對(duì)落后，對(duì)個(gè)人信用風(fēng)險(xiǎn)的識(shí)別和控制能力一般，這也影響到金融公司產(chǎn)品銷售的效率。以往對(duì)于金融消費(fèi)者資質(zhì)分析往往集中于消費(fèi)者的收入情況、信貸歷史等因素，很少通過消費(fèi)行為來反饋金融消費(fèi)者的金融素養(yǎng)，從而對(duì)金融消費(fèi)者進(jìn)行系統(tǒng)評(píng)價(jià)，本文從金融消費(fèi)者的消費(fèi)行為入手，通過大數(shù)據(jù)的獲取和機(jī)器學(xué)習(xí)方法的應(yīng)用，試圖建立金融消費(fèi)者“信用風(fēng)險(xiǎn)”與“消費(fèi)行為”之間的映射關(guān)系，從而為進(jìn)一步對(duì)金融消費(fèi)者的金融素養(yǎng)評(píng)定提供依據(jù)。

1 描述性統(tǒng)計(jì)分析

1.1 數(shù)據(jù)來源和結(jié)構(gòu)

本文的數(shù)據(jù)來源為深圳某金融服務(wù)平臺(tái)，獲取的數(shù)據(jù)部分字段經(jīng)歷“脫敏處理”，以保護(hù)用戶隱私。數(shù)據(jù)包括用戶的“消費(fèi)情況”和“信用風(fēng)險(xiǎn)”兩個(gè)層面，其中“信用風(fēng)險(xiǎn)”相關(guān)特征包括用戶的還款行為等信譽(yù)表現(xiàn)狀況。

該平臺(tái)提供了2017年1月—2019年1月的信貸數(shù)據(jù)，包括訓(xùn)練樣品12萬條，測(cè)試樣品1萬條。數(shù)據(jù)共包含3部分：第一部分?jǐn)?shù)據(jù)集(Master文件)是用戶消費(fèi)行為數(shù)據(jù)集，每個(gè)樣本包含159個(gè)特征字段和1個(gè)是否違約的目標(biāo)字段，主要為用戶消費(fèi)的具體類型，其中1個(gè)是否違約的目標(biāo)字段，只要有違約記錄則計(jì)為1，沒有違約記錄計(jì)為0。部分字段的名稱和數(shù)量見表1所列；第二部分?jǐn)?shù)據(jù)集(Consume time文件)是用戶消費(fèi)時(shí)間的數(shù)據(jù)集，包括4個(gè)字段，見表2所列；第三部分?jǐn)?shù)據(jù)集(Habit_info文件)是表征用戶消費(fèi)習(xí)慣的數(shù)據(jù)集，包括3個(gè)字段。

由這3個(gè)數(shù)據(jù)文件可知特征變量共167個(gè)，預(yù)測(cè)是否違約的目標(biāo)變量1個(gè)，為典型的二分類問題。特征變量在邏輯上與借款人的消費(fèi)行為習(xí)慣有關(guān)，且數(shù)據(jù)量具有一定規(guī)模，滿足了機(jī)器學(xué)習(xí)的一般需要。

1.2 描述性數(shù)據(jù)統(tǒng)計(jì)分析

1.2.1 消費(fèi)類別統(tǒng)計(jì)(見表1)

收集到的消費(fèi)項(xiàng)目，將159個(gè)字段分為9個(gè)類別，統(tǒng)計(jì)不同類別消費(fèi)類型的具體消費(fèi)比重。值得注意的是，單純的統(tǒng)計(jì)消費(fèi)額度是沒有意義的，因?yàn)椴煌M(fèi)者的消費(fèi)行為有較大差異，與自身經(jīng)濟(jì)能力有關(guān)。為了更好地表征消費(fèi)行為這一特征，本文對(duì)每一個(gè)消費(fèi)類別采用“該類別月消費(fèi)數(shù)額/月消費(fèi)總額”作為衡量特征。

本文獲得的2個(gè)較為極端的案例，即月消費(fèi)額超過10 000，和不足2 000的2個(gè)案例，二者之間的消費(fèi)能力差異較大，但消費(fèi)比重近似，這反映了二者在消費(fèi)觀念上相似性。值得注意的是，高消費(fèi)者在娛樂類消費(fèi)的比重較高，這與消費(fèi)習(xí)慣有關(guān)，也與娛樂項(xiàng)目和基礎(chǔ)生活花銷在價(jià)值上的差異有關(guān)。本文從消費(fèi)行為上重點(diǎn)提取的是表征“非理性消費(fèi)”的特征，因此，消費(fèi)能力偏低，娛樂類消費(fèi)或者美妝類消費(fèi)較高的特征更偏重于這一點(diǎn)。這與通常意義上認(rèn)為的“消費(fèi)不理性”的印象一致。

1.2.2 消費(fèi)時(shí)間統(tǒng)計(jì)(見表2)

對(duì)消費(fèi)時(shí)間的評(píng)估，更多的是反饋消費(fèi)習(xí)慣的一方面特征。通常來說，集中在節(jié)假日、周末消費(fèi)的群體往往有穩(wěn)定的工作情況，這對(duì)他們履行金融義務(wù)，按期還款提供了便利。長(zhǎng)假集中消費(fèi)的群體往往有假日出行旅游的習(xí)慣，這一群體往往有較好的經(jīng)濟(jì)背景，通常情況下逾期還款的可能性不高。相反，發(fā)生在特殊時(shí)段(深夜)，特殊日期(工作日)的大額消費(fèi)往往可能是緊急情況下的“特殊消費(fèi)”，或者是“失業(yè)群體”的零散消費(fèi)，無論是緊急情況下的“特殊消費(fèi)”，或者是“失業(yè)群體”的零散消費(fèi)，當(dāng)消費(fèi)占據(jù)很大比重時(shí)，都有理由懷疑他們的經(jīng)濟(jì)能力是否可以支持按期還款，因此這一方面的特征在邏輯上與金融信用有關(guān)，可作為深度學(xué)習(xí)的輸入層。

1.2.3 消費(fèi)習(xí)慣統(tǒng)計(jì)(見表3)

用戶的消費(fèi)習(xí)慣是一個(gè)處理后的特征，用以更好地建立目標(biāo)映射。其中，沖動(dòng)消費(fèi)指數(shù)：

Im_con=con_con/month

其中，Im_con為沖動(dòng)消費(fèi)指數(shù)；con_con指代連續(xù)消費(fèi)次數(shù)，month為每月。其中con_con連續(xù)消費(fèi)的定義為，在1 d時(shí)間內(nèi)，同時(shí)進(jìn)行5個(gè)類別(如表1)消費(fèi)行為。一般來說，短時(shí)間內(nèi)進(jìn)行大量跨類別的消費(fèi)，往往表征這個(gè)人在一定的消費(fèi)環(huán)境和消費(fèi)刺激下“沖動(dòng)消費(fèi)”行為，實(shí)際上這是一個(gè)表征“消費(fèi)理性的特征”，不難認(rèn)為，沖動(dòng)消費(fèi)的人更傾向于逾期還款，或者有較差的金融素養(yǎng)和金融行為。

消費(fèi)集中指數(shù)的計(jì)算為：

Fo_con=Lar_amon/month

其中，F(xiàn)o_con為消費(fèi)集中指數(shù)；Lar_amon/month為1個(gè)月內(nèi)大額消費(fèi)的次數(shù)，其中大額消費(fèi)定義為：消費(fèi)額度超過該用戶月平均消費(fèi)總額度20%的消費(fèi)行為(月平均消費(fèi)為1年內(nèi)的月平均水平)。

消費(fèi)分布指數(shù)，指消費(fèi)行為發(fā)生集中度，即用戶在該月消費(fèi)，集中在任何2個(gè)類別的消費(fèi)超過本月消費(fèi)總額度的60%，被認(rèn)定為集中消費(fèi)1次。

表1 消費(fèi)類別統(tǒng)計(jì)

表2 消費(fèi)時(shí)間統(tǒng)計(jì)

表3 消費(fèi)習(xí)慣統(tǒng)計(jì)

2 基于機(jī)器學(xué)習(xí)的消費(fèi)行為評(píng)估模型

通過描述性統(tǒng)計(jì)分析，對(duì)數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)和部分字段內(nèi)容有了邏輯上的認(rèn)識(shí)。本章節(jié)將對(duì)消費(fèi)者消費(fèi)行為數(shù)據(jù)預(yù)處理、特征工程以及模型調(diào)優(yōu)，建立消費(fèi)行為-信貸素養(yǎng)預(yù)測(cè)模型，以達(dá)到識(shí)別信用風(fēng)險(xiǎn)的目的。

2.1 數(shù)據(jù)預(yù)處理

在現(xiàn)實(shí)的工業(yè)場(chǎng)景中，大部分的數(shù)據(jù)都是不規(guī)整、高缺失的“臟數(shù)據(jù)”，如不處理這種數(shù)據(jù)“噪聲”就直接用于模型訓(xùn)練，效果往往大打折扣。本文通過數(shù)據(jù)清洗、數(shù)據(jù)集成以及數(shù)據(jù)變換等方法，結(jié)合具體業(yè)務(wù)邏輯對(duì)數(shù)據(jù)進(jìn)行處理后，從而大幅減少數(shù)據(jù)噪聲，提高訓(xùn)練分類器的性能和準(zhǔn)確率。

2.1.1 缺失值處理

在處理數(shù)據(jù)的過程中，樣本往往會(huì)含有缺失值。這是由于顧客在消費(fèi)過程中，其購買的商品信息或者具體的消費(fèi)項(xiàng)目難以歸類，在判別消費(fèi)類型上有難度。此外，獲得的數(shù)據(jù)庫本身就存在數(shù)據(jù)不完整的問題。對(duì)缺失值的處理方面，首先對(duì)缺失率大于70%的數(shù)據(jù)進(jìn)行刪除，即Dailishop_和Traval_13，其中Traval_13項(xiàng)目數(shù)據(jù)的缺失與該金融產(chǎn)品及其綁定的旅行服務(wù)企業(yè)之間的數(shù)據(jù)交互問題有關(guān)。去除2個(gè)項(xiàng)目后，對(duì)剩余缺失值進(jìn)行基于歐氏距離的插值處理。即參照擁有數(shù)據(jù)的樣本數(shù)據(jù)，選取該特征大類下(如Travel特征大類)與該確實(shí)樣本的其他未缺失特征平均歐氏距離最小的樣本，選取改樣本相應(yīng)值作為缺失樣本值的插值依據(jù)(如表4)。

2.1.2 單一值處理

所謂單一值，就是對(duì)各個(gè)樣本來說，彼此之間相沒有顯著差異的值，即對(duì)目標(biāo)預(yù)測(cè)沒有意義的值，本文通過數(shù)據(jù)標(biāo)準(zhǔn)差來反映數(shù)據(jù)的波動(dòng)情況，結(jié)果顯示，在7個(gè)項(xiàng)目上，標(biāo)準(zhǔn)差小于0.1。即這一數(shù)據(jù)在各個(gè)樣本之間的表現(xiàn)比較均一，包括“非商業(yè)醫(yī)療保險(xiǎn)投入額度”，“消費(fèi)發(fā)生的月份”等。值得注意的是，這些特征從邏輯上，本身就是與“消費(fèi)素養(yǎng)”因素?zé)o關(guān)，也符合本文判斷。

表4 缺失值情況統(tǒng)計(jì)

2.1.3 重要特征處理

在原始數(shù)據(jù)的訓(xùn)練過程中，本文采用基于樹模型的LightGBM，用以輸出各個(gè)特征的重要性。這一重要性特征的篩選對(duì)后續(xù)機(jī)器學(xué)習(xí)模型的約束有重要意義。具體過程如下：首先定義訓(xùn)練數(shù)據(jù)集D，定義集合D的經(jīng)驗(yàn)熵為H(D)，對(duì)于特征X，條件熵為H(D|X)，則特征X的信息增益g(D，X)為H(D)與H(D|X)的差。值得注意的是，熵與條件熵之間的差值為“互信息”，訓(xùn)練數(shù)據(jù)集中類與特征的互信息就等價(jià)于決策樹學(xué)習(xí)中的信息增益。獲得的信息增益，往往反映特征的類群性，即信息增益越大，分類能力越強(qiáng)。通過比較信息增益，獲得了重要性最高的10個(gè)特征。選取這10個(gè)特征與樣本數(shù)據(jù)進(jìn)行對(duì)比，剔除缺失該特征的樣本。同時(shí)，對(duì)于重要性較低(<0.02)的特征進(jìn)行刪除。

2.2 特征工程

特征工程是指將原始數(shù)據(jù)轉(zhuǎn)化為可直接進(jìn)行訓(xùn)練的特征向量的過程。包括數(shù)據(jù)轉(zhuǎn)換、特征提取、特征選擇等方法。特征工程可以有效地簡(jiǎn)化數(shù)據(jù)處理的過程，通過建立判別特征來高效地進(jìn)行機(jī)器學(xué)習(xí)。

2.2.1 消費(fèi)時(shí)間統(tǒng)計(jì)

對(duì)于消費(fèi)時(shí)間統(tǒng)計(jì)，本文收集了消費(fèi)的月份、日期(星期幾)、節(jié)假日、時(shí)間等特征，其中月份這一特征通過單一值分析過程已經(jīng)被剔除，對(duì)于剩余的幾個(gè)特征，本文發(fā)現(xiàn)，其中星期六、日可以和短假期合并為一個(gè)特征，即“三天以內(nèi)假期”特征，對(duì)于長(zhǎng)假期特征則保留。具體的消費(fèi)時(shí)間，分成12個(gè)時(shí)段非常繁瑣。由于通過數(shù)據(jù)分析，產(chǎn)生不良金融信用行為的樣本在“9：00-17：00”的消費(fèi)行為比較活躍，因此對(duì)于消費(fèi)時(shí)間分為兩類：“工作時(shí)間”和“非工作時(shí)間”，兩類時(shí)間的主要?jiǎng)澏ㄒ罁?jù)為是否在“9：00-17：00時(shí)段”，盡管這一時(shí)段并不能完全代表“工作時(shí)間”。

2.2.2 相關(guān)性分析

高相關(guān)性特征即共線特征，表示特征變量之間高度相關(guān)。一般來說，2個(gè)相關(guān)性很高的特征沒有必要作為2個(gè)獨(dú)立的特征存在，從而造成“數(shù)據(jù)噪聲”或者增加了數(shù)據(jù)處理難度。

皮爾遜相關(guān)系數(shù)用于衡量變量之間線性相關(guān)的程度，2個(gè)變量之間的皮爾遜相關(guān)系數(shù)的計(jì)算方法為2個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商：

ρ(X，Y)=Cov(X，Y)/σXσY

對(duì)于相關(guān)性>0.96的特征進(jìn)行刪除。共刪除了6個(gè)特征。比如在1個(gè)月內(nèi)購買大型消費(fèi)品(商品房、汽車)這一類型的特征與消費(fèi)集中特征，具有前者特征的樣本往往也具有后者特征。因此這一類型特征可以去除，用消費(fèi)集中特征代表即可。

2.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化

為了對(duì)數(shù)值去量綱化，并能夠讓不同特征的數(shù)據(jù)進(jìn)行比較。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，采用最大值做商法，即對(duì)于樣本特征值I，比較全部樣本對(duì)應(yīng)特征值，選取最大值做商，得出標(biāo)準(zhǔn)化值Istan，從而讓所有樣本數(shù)值在0～1浮動(dòng)?？梢员ＷC輸入值保持在一個(gè)相對(duì)較小的范圍內(nèi)，加快訓(xùn)練速度。同時(shí)，也可以避免因?yàn)檩斎胫捣秶^大而使權(quán)重過大的情況。

Istan=I/Imax

3 機(jī)器學(xué)習(xí)算法建模

3.1 多模型對(duì)比

將以上預(yù)處理和特征工程后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集，通過目前主流的機(jī)器學(xué)習(xí)算法，建立消費(fèi)行為-信貸違約模型。

通過Python人工智能主流模型，利用相應(yīng)數(shù)據(jù)包進(jìn)行計(jì)算。其中邏輯回歸模型使用SKLEARN機(jī)器學(xué)習(xí)庫的LogisticRegression算法接口，讀取已處理的結(jié)構(gòu)化訓(xùn)練集和測(cè)試集，通過網(wǎng)格搜索窮舉參數(shù)范圍確定最優(yōu)超參數(shù)，進(jìn)行數(shù)據(jù)擬合。LightGBM、AdaBoost等模型使用Python專門的相應(yīng)程序包。不同模型的計(jì)算結(jié)果中，主要關(guān)注Auc(Area Under Curve)參數(shù)，作為模型評(píng)估指標(biāo)。通過對(duì)比可以得出，在使用的六種模型中，LightGBM的擬合效果最好，邏輯回歸效果最差(如表5)。

表5 不同模型評(píng)價(jià)對(duì)比

3.2 模型融合

為了進(jìn)一步提高擬合效果，本文參照機(jī)器學(xué)習(xí)慣例，使用SKlearn投票機(jī)將邏輯回歸、隨機(jī)森林，SVM，XGBoost等6種模型融合，結(jié)合不同機(jī)器學(xué)習(xí)分類器，采用平均預(yù)測(cè)概率(軟投票)來預(yù)測(cè)分類標(biāo)簽，提升分類效果。

軟投票模型的Auc值為0.804568，略高于Light GBM模型，反映集成學(xué)習(xí)的融合方式效果較好。

3.3 消費(fèi)行為與違約率關(guān)系

前述特征工程已經(jīng)提取了對(duì)違約率產(chǎn)生較大影響的消費(fèi)行為，基于樹模型的LightBGM根據(jù)信息增益、基尼系數(shù)計(jì)算來返回特征重要性，也有助于反饋影響違約率的消費(fèi)行為，本文展示了影響違約率的重要性前6指標(biāo)，即消費(fèi)行為呈現(xiàn)以下特征的用戶更容易出現(xiàn)違約行為，以下消費(fèi)行為可看作不良消費(fèi)行為(如表6)。

表6 特征工程后的特征重要性

4 結(jié)論

4.1 融合模型擬合率更高

采用ACU值作為模型評(píng)估的指標(biāo)，集成模型明顯優(yōu)于單一模型。單一模型中，LightBGM與AdaBoost具有良好的擬合效果，對(duì)用戶消費(fèi)行為的評(píng)估，采用融合模型有助于更準(zhǔn)確地獲得評(píng)估結(jié)果。

4.2 消費(fèi)習(xí)慣影響超過消費(fèi)類型

通過特征工程以及基于樹模型的LightBGM根據(jù)信息增益、基尼系數(shù)計(jì)算來返回特征重要性，本文得出了影響到用戶違約行為的不良消費(fèi)行為，其中，本文自建的2個(gè)特征“沖動(dòng)消費(fèi)指數(shù)”和“消費(fèi)集中指數(shù)”占據(jù)較高的兩個(gè)重要性，而具體的消費(fèi)項(xiàng)目影響程度相對(duì)較低。用戶的消費(fèi)習(xí)慣比消費(fèi)類型更能反映用戶的金融素養(yǎng)和違約風(fēng)險(xiǎn)。

4.3 模型具有一定的改良空間

本文根據(jù)平臺(tái)用戶使用的數(shù)據(jù)，通過集成模型在預(yù)測(cè)中的準(zhǔn)確率可以達(dá)到94%，這反映模型還有一定的改良空間。更大的數(shù)據(jù)量以及對(duì)特征的優(yōu)化，對(duì)模型的優(yōu)化將有助于獲得更加精準(zhǔn)的預(yù)測(cè)結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡