国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

銀行客戶分類的數(shù)據(jù)特征選擇方法與實(shí)證研究

2022-06-09 12:00:18段剛龍楊澤陽
關(guān)鍵詞:貢獻(xiàn)度特征選擇問卷

段剛龍,王 妍,馬 鑫,楊澤陽

西安理工大學(xué) 經(jīng)濟(jì)與管理學(xué)院,西安 710054

隨著信息化水平的提升和物聯(lián)網(wǎng)(Internet of things,IoT)技術(shù)的快速發(fā)展,教育、通信、金融和醫(yī)學(xué)等領(lǐng)域數(shù)據(jù)呈指數(shù)式增長,海量數(shù)據(jù)的累積標(biāo)志著大數(shù)據(jù)時(shí)代的到來。金融大數(shù)據(jù)是大數(shù)據(jù)的重要板塊,全國各大金融機(jī)構(gòu)每年都會(huì)產(chǎn)生大量數(shù)據(jù),一般金融機(jī)構(gòu)每年產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)已超5 PB,非結(jié)構(gòu)化數(shù)據(jù)超過15 PB,每次網(wǎng)上支付業(yè)務(wù)僅記錄用戶行為的數(shù)據(jù)量就達(dá)1 GB。數(shù)據(jù)內(nèi)容涵蓋金融產(chǎn)品數(shù)據(jù)、個(gè)人刷卡消費(fèi)數(shù)據(jù)、客戶基本信息數(shù)據(jù)、開戶數(shù)據(jù)、客戶各自信用數(shù)據(jù)等。其中的銀行客戶數(shù)據(jù)是金融大數(shù)據(jù)的重要組成部分,不僅包括受教育程度、婚姻狀況、受教育年限等客戶個(gè)人靜態(tài)數(shù)據(jù),還包含客戶日均消費(fèi)次數(shù)、日均消費(fèi)金額、預(yù)期還款天數(shù)等消費(fèi)行為的動(dòng)態(tài)行為數(shù)據(jù),包含了大量的有價(jià)值知識。研究者可通過統(tǒng)計(jì)分析或機(jī)器學(xué)習(xí)等方法挖掘數(shù)據(jù)集中潛在的規(guī)律、模式、經(jīng)驗(yàn)或知識[1-3],輔助銀行實(shí)現(xiàn)“以客戶為中心”的精準(zhǔn)營銷、風(fēng)險(xiǎn)管控和核心競爭力提升。

但由于銀行客戶數(shù)據(jù)維度高、量級大和冗余特征多[4]的特點(diǎn),為知識挖掘與發(fā)現(xiàn)帶來了諸多挑戰(zhàn),降低了數(shù)據(jù)價(jià)值密度,影響客戶分類模型效率,易產(chǎn)生維數(shù)災(zāi)難[5-6],而現(xiàn)有針對高維數(shù)據(jù)特征選擇方法的相關(guān)研究主要集中于單一視角,并未將人類先驗(yàn)認(rèn)知考慮在內(nèi),且很少有針對銀行客戶數(shù)據(jù)特征選擇的系統(tǒng)性研究,因此,本研究以高維銀行客戶數(shù)據(jù)為研究對象,綜合統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、先驗(yàn)認(rèn)知、多模態(tài)融合思想,對銀行客戶數(shù)據(jù)特征選擇方法進(jìn)行研究。

本研究的主要貢獻(xiàn)如下:

(1)綜合考慮現(xiàn)有與銀行客戶分類有關(guān)的研究成果以及真實(shí)銀行客戶數(shù)據(jù)特點(diǎn),本文給出了一種可用于銀行客戶分類特征篩選研究的數(shù)據(jù)預(yù)處理方案,該方案共包括類型轉(zhuǎn)換及離散化、缺失值填充和標(biāo)準(zhǔn)化三部分,能有效提升真實(shí)銀行客戶數(shù)據(jù)質(zhì)量。

(2)鑒于單一特征篩選方法在不同場景下存在性能受限的問題,本文在多模態(tài)視角下,綜合考慮主觀特征選擇方法和客觀特征選擇方法,提出了一種綜合性的特征篩選方法。

(3)本文給出了一種較為系統(tǒng)且全面的銀行客戶分類特征選擇效果評價(jià)方法,該方法包括定性評價(jià)與定量評價(jià)兩部分。其中,定性評價(jià)主要對各特征選擇方法的原理、適用條件和特征選擇占比等指標(biāo)進(jìn)行比較分析;定量評價(jià)則是在不同特征選擇方法的特征篩選結(jié)果之上比較不同銀行客戶分類模型的精確度(ac)、測試集精確度(tc)、查全率(tl)、查準(zhǔn)率(pd)、召回率(rl)、F1-score(f1)以及模型訓(xùn)練成本(ct)共計(jì)7個(gè)指標(biāo)。

(4)針對不同特征選擇方法,本文設(shè)計(jì)并實(shí)行了一種包含4種特征選擇方法、4種定性評價(jià)指標(biāo)和7種定量評價(jià)指標(biāo)的實(shí)驗(yàn)方案。實(shí)驗(yàn)結(jié)果表明,相較于單一特征選擇方法,本文提出的特征選擇方法更具多元性與全面性,能夠?yàn)殂y行客戶數(shù)據(jù)知識挖掘與發(fā)現(xiàn)提供參考。

1 研究現(xiàn)狀

銀行客戶數(shù)據(jù)的核心價(jià)值在于構(gòu)建用戶畫像,深度挖掘用戶統(tǒng)計(jì)學(xué)信息、消費(fèi)行為、社會(huì)關(guān)系和情景信息,為揭示用戶行為特征并進(jìn)行精準(zhǔn)營銷和風(fēng)險(xiǎn)管控等提供理論支持和現(xiàn)實(shí)依據(jù)[7-8]。目前,國內(nèi)外學(xué)者已將其應(yīng)用于加強(qiáng)渠道服務(wù)體系的建設(shè)[9]、客戶信用風(fēng)險(xiǎn)評估[10]、重要基金客戶識別[11]、小微金融客戶續(xù)貸預(yù)測[12]和個(gè)人客戶價(jià)值評價(jià)[13-14]等多項(xiàng)研究。隨著信息技術(shù)發(fā)展,銀行客戶數(shù)據(jù)傳輸和存儲(chǔ)成本大大降低,不僅數(shù)據(jù)體量逐年增大、數(shù)據(jù)類型增多,且數(shù)據(jù)維度提高,價(jià)值密度有所降低,這些變化在為銀行客戶數(shù)據(jù)應(yīng)用提供充足“養(yǎng)分”的同時(shí),也為知識挖掘與發(fā)現(xiàn)帶來了巨大挑戰(zhàn)。

國內(nèi)外相關(guān)學(xué)者針對數(shù)據(jù)特征選擇的相關(guān)研究,主要有兩大類:統(tǒng)計(jì)學(xué)方法[15-16]和機(jī)器學(xué)習(xí)方法[17-23]。部分常見的具有代表性的特征選擇方法及原理如表1所示。

表1 特征選擇方法與原理Table 1 Method and principle of feature selection

基于統(tǒng)計(jì)的特征選擇方法通過計(jì)算不同特征與目標(biāo)屬性之間的相似度或空間距離,按照排序結(jié)果從大到小對特征進(jìn)行篩選,該種特征選擇方式雖能對特征進(jìn)行篩選且效率較高,但篩選效果較差,對數(shù)據(jù)預(yù)處理質(zhì)量依賴較大,篩選后特征包含過多的冗余特征,從而影響最終的模型性能。相比之下,基于機(jī)器學(xué)習(xí)的特征選擇方法的特征篩選能力更強(qiáng),性能更優(yōu),因此被廣泛應(yīng)用于特征選擇當(dāng)中,依據(jù)特征中子集評價(jià)標(biāo)準(zhǔn)同后續(xù)算法的結(jié)合方式可分為:嵌入式(embedded)、過濾式(filter)和封裝式(wrapper),算法通用性強(qiáng),可快速去除大量不相關(guān)特征,但所選擇特征的通用性較低且忽略了低貢獻(xiàn)度特征,當(dāng)改變算法,則需進(jìn)行針對性的訓(xùn)練和測試,模型訓(xùn)練成本較高。

從國內(nèi)外現(xiàn)有針對銀行客戶數(shù)據(jù)的應(yīng)用以及高維度數(shù)據(jù)集特征選擇方法的研究成果可見,研究大多集中于單一特征選擇方法的應(yīng)用與優(yōu)化,篩選出的特征準(zhǔn)確性還有提升空間,多角度綜合性的銀行客戶數(shù)據(jù)降維方式特別是融合人先驗(yàn)認(rèn)知的研究相對較少。因此,本研究旨在提出一種有效的銀行客戶數(shù)據(jù)挖掘方法,來降低數(shù)據(jù)特征冗余,提高銀行客戶分類的模型精度,降低訓(xùn)練成本和構(gòu)建系統(tǒng)的主題模型。

2 高冗余銀行客戶數(shù)據(jù)特征選擇方法

黨的十八大以來,銀行遵循“創(chuàng)新、協(xié)調(diào)、綠色、開放、共享”的發(fā)展理念,貫徹實(shí)施網(wǎng)絡(luò)強(qiáng)國、大數(shù)據(jù)戰(zhàn)略等一系列重點(diǎn)戰(zhàn)略部署,積極推動(dòng)銀行信息化建設(shè),穩(wěn)步推進(jìn)重要信息系統(tǒng)建設(shè)[24]。銀行客戶電子數(shù)據(jù)正是銀行信息化進(jìn)程中的典型產(chǎn)物。

銀行客戶數(shù)據(jù)不僅集成了每個(gè)客戶的靜態(tài)數(shù)據(jù),還記錄了客戶的動(dòng)態(tài)行為數(shù)據(jù),形成了具有多個(gè)特征的高維數(shù)據(jù)集,銀行則可通過以上客戶數(shù)據(jù)對客戶進(jìn)行精準(zhǔn)畫像,及早發(fā)現(xiàn)待流失客戶、高風(fēng)險(xiǎn)客戶或高價(jià)值客戶等,及時(shí)規(guī)避金融風(fēng)險(xiǎn)提升銀行效益。然而,數(shù)據(jù)集中并非所有特征都與客戶分類的目標(biāo)密切有關(guān),而是存在大量冗余特征,如:卡類型、幣種代碼和戶籍所在地等,此類冗余特征會(huì)對模型結(jié)果產(chǎn)生較大影響,降低模型性能。因此,對高冗余銀行數(shù)據(jù)進(jìn)行挖掘前必須對數(shù)據(jù)特征進(jìn)行篩選,降低數(shù)據(jù)維度。為提高銀行客戶分類模型性能,本文所制定的高冗余銀行數(shù)據(jù)特征選擇具體流程如圖1所示。

圖1 高冗余銀行客戶數(shù)據(jù)特征選擇流程圖Fig.1 Flow chart for feature selection of high redundancy bank customer data

2.1 數(shù)據(jù)預(yù)處理

在實(shí)際情景中,特征值缺失的情況經(jīng)常發(fā)生甚至是不可避免的。采集自銀行信息系統(tǒng)的已整合有序原始數(shù)據(jù)同樣也不例外,因人為因素或機(jī)械因素導(dǎo)致原始數(shù)據(jù)中存在較多缺失值,數(shù)據(jù)價(jià)值密度較低,對銀行客戶數(shù)據(jù)的挖掘與分析產(chǎn)生不利影響,因此,需要對原始數(shù)據(jù)缺失值進(jìn)行填補(bǔ),缺失值填充方式有三大類:刪除、補(bǔ)齊和忽視。常用缺失值處理方法如表2所示。

表2 缺失值處理方法及優(yōu)缺點(diǎn)Table 2 Missing value processing methods and advantages and disadvantages

無論采用何種方式對缺失值進(jìn)行填充,均無法避免主觀因素對原始數(shù)據(jù)的影響,因此,本文綜合考慮表2中各填充方法優(yōu)缺點(diǎn)及銀行客戶數(shù)據(jù)缺失值分布較為集中特點(diǎn),采用KNN算法對缺失值進(jìn)行填充,但KNN計(jì)算的填充值為均值計(jì)算結(jié)果,對特征值的波動(dòng)較為敏感,故采用滑動(dòng)平均值替換算數(shù)平均值對缺失值進(jìn)行填充,填充過程如圖2所示。具體操作過程如下:

圖2 缺失值填充過程Fig.2 Missing value filling process

(1)將含n個(gè)對象p個(gè)特征的原始數(shù)據(jù)劃分為兩部分:包含m個(gè)對象的缺失值數(shù)據(jù)集MIS_V和m-k個(gè)對象組成的非缺失值數(shù)據(jù)集UNMIS_V。

(2)分別計(jì)算MIS_V中的對象obj i到UNMIS_V中的各對象obj j的歐式距離d ij,并組成向量D i={d i1,di2,…,d ij,…,d i,m-k}。

(3)向量D i中各元素按從小到大排序,并選擇前k個(gè)最小距離對應(yīng)對象MINS-Vi的對應(yīng)缺失值特征的特征值F i={f i1,f i2,…,f ik}。

(4)以步長s=3計(jì)算F中所有距離的滑動(dòng)平均值Q作為填充值進(jìn)行填充。

此外,由于現(xiàn)有的銀行客戶分類模型如決策樹和CART&Tree等均為基于離散型數(shù)據(jù)的算法模型,有效的離散化能夠降低模型的時(shí)間和空間開銷,提高分類模型的性能與抗噪能力,鑒于離散化特征值相對連續(xù)型特征值更易理解,更趨向于知識層面的表達(dá),還可有效屏蔽數(shù)據(jù)中的隱含缺陷,提升模型的普適性等原因,本文針對待離散化數(shù)據(jù)以距離d i進(jìn)行等距離散化:

式中,f i為待離散化特征值,Li為當(dāng)前離散化特征分段數(shù),d i為分段距離。

2.2 綜合特征選擇

綜合特征選擇是銀行客戶分類數(shù)據(jù)特征選擇方法的核心步驟,其綜合不同視角的特征選擇方法,將看似雜亂無章的數(shù)據(jù)映射為不同貢獻(xiàn)度的若干特征,并從各視角互補(bǔ)角度出發(fā)融合特征貢獻(xiàn)度,依據(jù)最終貢獻(xiàn)度大小篩選原始數(shù)據(jù)中冗余特征,保留少數(shù)能精確反映數(shù)據(jù)全貌的特征,從低維數(shù)據(jù)中挖掘知識。綜合特征選擇共包含三部分:客觀特征貢獻(xiàn)度計(jì)算、主觀量化特征認(rèn)知和特征貢獻(xiàn)度融合。前者包含基于統(tǒng)計(jì)的特征選擇方法Pearson相關(guān)系數(shù)和基于機(jī)器學(xué)習(xí)的特征選擇方法RF,后者則為考慮人為先驗(yàn)認(rèn)知的特征篩選方法。

(1)基于Pearson相關(guān)系數(shù)的特征選擇方法

Pearson相關(guān)系數(shù)(Pearson correlation coefficient,PCC)是用來衡量兩個(gè)不同特征之間線性相關(guān)程度的統(tǒng)計(jì)量,在特征篩選領(lǐng)域是一種經(jīng)典的基于統(tǒng)計(jì)的特征選擇方式,計(jì)算的是待篩選特征與目標(biāo)屬性之間的線性相關(guān)關(guān)系。

皮爾森相關(guān)系數(shù)計(jì)算公式如下:

式中,Xi和Y i分別為特征X和Y具體取值,Xˉ和Yˉ分別為特征列X和Y的均值,r為相關(guān)系數(shù)值,n為樣本量。當(dāng)r的取值位于[-1,1]之間,若r>0,表明自變量特征X對目標(biāo)屬性Y存在正相關(guān)關(guān)系,即X與Y的值同向變化;若r<0,表明自變量特征X對目標(biāo)屬性Y存在負(fù)相關(guān)關(guān)系,即X與Y的值反向變化;若r=0,則表明兩個(gè)特征之間并不存在線性相關(guān)關(guān)系,但并不能排除其他類型的相關(guān)關(guān)系。

同時(shí),為使得主觀特征貢獻(xiàn)度和客觀特征貢獻(xiàn)度處于同一量綱,算法需要對相關(guān)系數(shù)進(jìn)行歸一化處理,其最終特征貢獻(xiàn)度計(jì)算公式如下:

(2)基于隨機(jī)森林的特征選擇方法

隨機(jī)森林(random forest,RF)作為新興的、高度靈活的機(jī)器學(xué)習(xí)算法,擁有廣泛的應(yīng)用場景,既可以用來做市場營銷模擬建模,統(tǒng)計(jì)客戶來源、保留和流失,也可用來預(yù)測疾病風(fēng)險(xiǎn)和患病者的易感性。而RF模型具有一個(gè)十分重要的特征,即可計(jì)算單個(gè)特征的貢獻(xiàn)度,因此常被用來進(jìn)行特征的選擇。

基于隨機(jī)森林的特征選擇計(jì)算過程如下:

①對原始數(shù)據(jù)集X進(jìn)行隨機(jī)有放回抽樣形成袋內(nèi)數(shù)據(jù),未抽中數(shù)據(jù)形成袋外數(shù)據(jù)(OOB),即測試集數(shù)據(jù)。

②利用袋內(nèi)數(shù)據(jù)構(gòu)建RF模型。

③對于RF中每一棵決策樹,使用相應(yīng)的OOB數(shù)據(jù)計(jì)算袋外數(shù)據(jù)誤差,記為errOOB1。

④隨機(jī)于OOB所有樣本特征x中加入噪聲干擾,再次計(jì)算袋外數(shù)據(jù)誤差,記為errOOB2。

⑤假設(shè)RF中共ω棵決策樹,則數(shù)據(jù)集X中各特征的貢獻(xiàn)度計(jì)算公式如下:

⑥特征貢獻(xiàn)度經(jīng)公式(3)進(jìn)行歸一化處理,可得特征貢獻(xiàn)度向量X o=(xo·j)T。

(3)基于量化認(rèn)知的特征選擇方法

認(rèn)知(cognition),或稱為心理活動(dòng),描述的是知識的獲取、存儲(chǔ)、轉(zhuǎn)換和使用。人的每一次獲取信息、存儲(chǔ)信息和使用信息的時(shí)候認(rèn)知都會(huì)起作用[25-26]。人的認(rèn)知活動(dòng)通常包含自上而下和自下而上兩個(gè)過程,是高效、準(zhǔn)確且存在諸多局限的。以管理決策為例,當(dāng)需調(diào)用某些信息來支持管理者做出正確決策時(shí),其可在極短時(shí)間內(nèi)從海量先驗(yàn)經(jīng)驗(yàn)中抽取相關(guān)知識并進(jìn)行加工,當(dāng)然,這個(gè)認(rèn)知過程或信息加工過程同樣存在局限,即人的記憶力或信息處理能力是有限的,會(huì)依據(jù)先驗(yàn)認(rèn)知或情感舍棄掉某些重要性程度較低的信息或知識,而這恰好與數(shù)據(jù)中冗余特征的篩選有著異曲同工之妙。

因此,將人類對銀行客戶細(xì)分?jǐn)?shù)據(jù)特征貢獻(xiàn)度的認(rèn)知進(jìn)行可視化,作為特征選擇過程中的一個(gè)補(bǔ)充具有十分重要的意義。鑒于問卷調(diào)查作為一種數(shù)據(jù)采集方式,具有省時(shí)、省力、省錢及便于定量處理與分析等優(yōu)點(diǎn),本文采用問卷調(diào)查的方式對銀行客戶數(shù)據(jù)特征貢獻(xiàn)度認(rèn)知進(jìn)行量化,問卷類型為“網(wǎng)絡(luò)調(diào)查問卷”與“紙質(zhì)問卷”相結(jié)合,每個(gè)特征即一個(gè)問題,問題備選項(xiàng)類型為二值封閉式選項(xiàng),形式為選擇式,問卷具體形式如圖3。

圖3 調(diào)查問卷Fig.3 Questionnaire

針對不同的數(shù)據(jù)集,問卷題目個(gè)數(shù)及問題均有所區(qū)別。記問卷數(shù)據(jù)集S i下共包含f1,f2,…,f p共p個(gè)特征和A1,A2,…,An共n個(gè)對象,其中對象A i對特征f j的認(rèn)同度記為f ij(f ij∈[0 ,n] ),構(gòu)造決策矩陣F=(f ij)n×p,然后對決策矩陣中各列進(jìn)行標(biāo)準(zhǔn)化處理,變換方法如下:

公式(5)、(6)中f s·j表示標(biāo)準(zhǔn)化處理之后的特征貢獻(xiàn)度,公式(5)能夠有效保持原有數(shù)值間的絕對差別,公式(6)將數(shù)據(jù)量綱處理后表示某個(gè)對象在整個(gè)特征向量中的相對排位和相對差別,但不能代表數(shù)據(jù)間的絕對差別。經(jīng)標(biāo)準(zhǔn)化處理后,得到各特征的主觀貢獻(xiàn)度:

(4)基于多模態(tài)后期融合的特征選擇方法

多模態(tài)數(shù)據(jù)融合是指通過利用多模態(tài)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示。目前,多模態(tài)數(shù)據(jù)融合主要有三種融合方式:前期融合、后期融合和中間融合。鑒于后期融合相較于前期融合與中間融合具有簡單、高效和易于理解等優(yōu)勢,因此本文借鑒后期融合思想對上述三種特征選擇方法結(jié)果進(jìn)行融合。

鑒于本文中客觀特征貢獻(xiàn)度計(jì)算與主觀量化特征認(rèn)知計(jì)算之間相互獨(dú)立,因此,本文采用情感預(yù)測多模態(tài)后期融合中線性加權(quán)方式計(jì)算綜合特征貢獻(xiàn)度,該方式操作簡單且應(yīng)用廣泛。主觀量化特征認(rèn)知特征貢獻(xiàn)度向量為C s,客觀特征貢獻(xiàn)度為Pearson貢獻(xiàn)度向量X o和RF貢獻(xiàn)度向量C o,其綜合特征貢獻(xiàn)度如下:

式中,C w為綜合特征貢獻(xiàn)度向量,α和β分別為主觀量化特征認(rèn)知貢獻(xiàn)度和客觀特征貢獻(xiàn)度系數(shù),滿足α+β=1且α,β∈[ ]0,1。當(dāng)α=β,表示主客觀同等重要;當(dāng)α>β,表示主觀量化特征認(rèn)知貢獻(xiàn)度重要性程度更高;當(dāng)α<β,表明客觀特征貢獻(xiàn)度重要性程度更高。并將綜合特征貢獻(xiàn)度向量中每個(gè)元素C w·j與最小特征貢獻(xiàn)度θ進(jìn)行比較,大于θ的特征構(gòu)成篩選特征向量R=(r1,r2,…,r z)T,其中z為篩選后特征個(gè)數(shù)。

2.3 特征選擇效果評價(jià)

本文分別從定性與定量兩個(gè)角度對銀行客戶數(shù)據(jù)特征選擇效果進(jìn)行評價(jià)。首先從定性角度對特征選擇方法進(jìn)行評價(jià),主要針對特征選擇方法的原理、特征選擇個(gè)數(shù)、選擇特征個(gè)數(shù)占原始數(shù)據(jù)總特征個(gè)數(shù)比重以及特征選擇重合度對各方法進(jìn)行橫向?qū)Ρ仍u價(jià)。之后從定量評價(jià)角度對特征選擇方法進(jìn)行評價(jià),通過特征選擇后的數(shù)據(jù)集構(gòu)建不同算法的銀行客戶分類模型,依據(jù)模型查準(zhǔn)率(Precision)、召回率(Recall)、F1系數(shù)(F1-score)和模型訓(xùn)練成本(Cost)定量評價(jià)指標(biāo)對不同算法模型下特征選擇方法效果進(jìn)行評價(jià)。定性與定量相結(jié)合的特征選擇效果評價(jià)方法能夠有效判斷所選特征集合是否能夠代表原始數(shù)據(jù)集特征,及是否能夠選擇出對目標(biāo)貢獻(xiàn)度較小的特征,綜合評價(jià)不同特征選擇方法對銀行客戶分類所產(chǎn)生的影響。

3 特征選擇實(shí)證研究

基于經(jīng)典數(shù)據(jù)挖掘框架、多屬性決策理論、主觀先驗(yàn)認(rèn)知理論及多模態(tài)融合理論,結(jié)合現(xiàn)有銀行客戶分類研究主要采用單一特征選擇方法現(xiàn)狀以及客戶有效分類對銀行規(guī)避金融風(fēng)險(xiǎn)及提升效益等方面的顯著作用,選取銀行客戶數(shù)據(jù)為研究對象,通過建立客戶分類模型,從定性與定量角度綜合評價(jià)特征選擇方法的性能,探索銀行客戶數(shù)據(jù)價(jià)值為銀行精準(zhǔn)營銷與風(fēng)險(xiǎn)規(guī)避提供決策支持,同時(shí)為銀行客戶提供個(gè)性化進(jìn)行產(chǎn)品與服務(wù)。

3.1 研究準(zhǔn)備

(1)數(shù)據(jù)來源

數(shù)據(jù)來源于網(wǎng)易數(shù)據(jù)分析項(xiàng)目,該項(xiàng)目承擔(dān)單位為上海數(shù)局科技有限公司,該公司為國內(nèi)合資企業(yè),經(jīng)營范圍涉及電子商務(wù)、計(jì)算機(jī)科技、計(jì)算機(jī)軟件開發(fā)、環(huán)??萍肌⑸锟萍嫉榷鄠€(gè)領(lǐng)域。項(xiàng)目涉及到的數(shù)據(jù)集以保護(hù)數(shù)據(jù)提供單位知識產(chǎn)權(quán)及個(gè)人的隱私為出發(fā)點(diǎn),為相關(guān)數(shù)據(jù)使用工作者提供高保真數(shù)據(jù)集。本研究選擇銀行客戶信用卡相關(guān)數(shù)據(jù),數(shù)據(jù)內(nèi)容共存儲(chǔ)于客戶信用記錄表、申請客戶信息表、拖欠歷史記錄表和消費(fèi)歷史記錄表,整合后銀行客戶信用卡真實(shí)數(shù)據(jù)共計(jì)5 954條數(shù)據(jù),每條數(shù)據(jù)包含28個(gè)特征,原始數(shù)據(jù)內(nèi)容如表3所示,整合后數(shù)據(jù)特征構(gòu)成如圖4所示。

圖4 銀行客戶數(shù)據(jù)屬性構(gòu)成Fig.4 Composition of bank customer data attributes

表3 原始數(shù)據(jù)內(nèi)容及特征簡介Table 3 Contents and characteristics of raw data

(2)實(shí)驗(yàn)條件

本實(shí)驗(yàn)?zāi)P陀?xùn)練單機(jī)硬件配置為Inter?Core?i3-3220 CPU@3.30 GHz 3.30 GHz核心處理器,4.00 GB RAM,500 GB常規(guī)硬盤,Inter?HD Graphics單顯卡,軟件平臺(tái)為PyCharm集成開發(fā)環(huán)境,Windows 10企業(yè)版2016企業(yè)長期服務(wù)版,anaconda6 64 bit包管理工具。

3.2 研究方法

基于高維銀行客戶數(shù)據(jù)的特征選擇方法實(shí)證流程,如圖5所示。首先,將分散在不同業(yè)務(wù)系統(tǒng)中的銀行客戶數(shù)據(jù)進(jìn)行整合并以信用等級為目標(biāo)變量篩選出審核通過客戶數(shù)據(jù),并依據(jù)與銀行客戶分類相關(guān)的現(xiàn)有研究對于客戶分類目標(biāo)無明顯貢獻(xiàn)的特征,如:客戶號、客戶姓名、審批結(jié)果、卡號等,進(jìn)行初步篩選形成較低緯度數(shù)據(jù)集。其次,由于機(jī)械因素或人為因素導(dǎo)致整合后數(shù)據(jù)集中存在較多缺失值、分類模型無法處理的非數(shù)值型數(shù)據(jù)和連續(xù)型數(shù)值數(shù)據(jù),因此需要對初步特征篩選后的數(shù)據(jù)進(jìn)行預(yù)處理,通過改進(jìn)KNN方法對缺失值進(jìn)行填充,Map映射對數(shù)值類型進(jìn)行轉(zhuǎn)換、公式(1)對連續(xù)型數(shù)據(jù)進(jìn)行等距離散化及特征數(shù)值標(biāo)準(zhǔn)化。再次,對預(yù)處理后高質(zhì)量數(shù)據(jù)集分別通過量化特征認(rèn)知、Pearson相關(guān)系數(shù)、RF特征貢獻(xiàn)度及多角度融合方法對特征進(jìn)行選擇,并分別生成篩選數(shù)據(jù)集。最后,基于篩選數(shù)據(jù)集分別構(gòu)建不同算法分類模型,并就特征篩選效果進(jìn)行定性與定量評價(jià)。

圖5 高維銀行客戶數(shù)據(jù)特征選擇方法研究流程Fig.5 Research process of customer data feature selection method in high dimension bank

3.3 特征選擇結(jié)果

(1)基于Pearson相關(guān)系數(shù)的特征選擇結(jié)果

通過公式(2)計(jì)算不同特征與目標(biāo)變量之間的線性相關(guān)關(guān)系,依據(jù)相關(guān)系數(shù)絕對值是否非負(fù)對特征進(jìn)行選擇,選擇特征包含:性別、年齡、教育程度、居住類型、工作年限、個(gè)人收入、保險(xiǎn)繳納、車輛情況、信用總評分、額度、拖欠標(biāo)識、拖欠總金額、逾期天數(shù)和單筆消費(fèi)最小金額共計(jì)14個(gè)特征,如表4所示,對應(yīng)特征及數(shù)據(jù)生成篩選數(shù)據(jù)集2。

表4 Pearson系數(shù)特征選擇結(jié)果Table 4 Pearson coefficient feature selection results

(2)基于RF特征貢獻(xiàn)度的特征選擇結(jié)果

基于預(yù)處理后高質(zhì)量數(shù)據(jù)集,借助Pycharm集成開發(fā)環(huán)境,通過python中numpy、pandas等數(shù)據(jù)處理第三方庫與sklearn機(jī)器學(xué)習(xí)庫調(diào)用RandomForestRegressor函數(shù)接口構(gòu)建RF模型,計(jì)算特征貢獻(xiàn)度,并按特征貢獻(xiàn)度大小,對特征進(jìn)行篩選,具體函數(shù)如下所示:

RandomForestRegressor(n_estimators,criterion,max_leaf_nodes,random_state,n_job)

其中,參數(shù)n_estimators設(shè)定為整數(shù)值101,表示RF中建樹的個(gè)數(shù),同時(shí)為了防止“投票”過程中出現(xiàn)特征得票相同的情況,故設(shè)置為奇數(shù);參數(shù)criterion表示RF內(nèi)部決策樹在進(jìn)行分叉時(shí)依據(jù)哪個(gè)特征進(jìn)行分裂的衡量標(biāo)準(zhǔn),本文設(shè)定為Gini系數(shù);參數(shù)max_leaf_nodes設(shè)定為整型參數(shù)16,表示種樹的最大葉子節(jié)點(diǎn)數(shù);參數(shù)random_state設(shè)置為整數(shù)1,表示隨機(jī)種子,通過隨機(jī)種子的設(shè)定能保證程序運(yùn)行結(jié)果的可復(fù)現(xiàn)性;參數(shù)n_job表示模型訓(xùn)練函數(shù)fit與模型預(yù)測函數(shù)predict并行運(yùn)行的作業(yè)數(shù),無特殊要求,默認(rèn)設(shè)定為1。最終選擇的8個(gè)特征如表5中所示。

表5 RF特征選擇結(jié)果Table 5 RF feature selection results

(3)基于量化特征認(rèn)知的特征選擇結(jié)果

基于量化特征認(rèn)知的特征篩選方法通過問卷調(diào)查方式對無法定量測量的人類先驗(yàn)認(rèn)知進(jìn)量化,問卷形式如圖3所示。問卷形式為“網(wǎng)絡(luò)調(diào)查問卷(問卷星)”和“紙質(zhì)問卷”相結(jié)合,共28個(gè)問題,問題均為二值單選題,共發(fā)放問卷160份,有效問卷98份,網(wǎng)絡(luò)問卷52份,紙質(zhì)問卷46份,其中超過50%問卷填寫人為在校研究生、博士生、講師或教授,問卷填寫質(zhì)量較高。

(4)基于多角度融合的特征選擇結(jié)果

在多模態(tài)情感預(yù)測當(dāng)中,綜合考慮多個(gè)模態(tài)以及其他信息理論上來說可提高情感識別系統(tǒng)的性能,非恰當(dāng)?shù)娜诤戏绞讲粌H無法提升模型性能,而且有極大可能降低模型的性能[27-29]?,F(xiàn)有的模型融合方式主要有前期融合、中期融合和后期融合,其中后期融合以其簡單高效的特點(diǎn)被廣泛應(yīng)用于多模態(tài)情感預(yù)測領(lǐng)域。鑒于本文不同視角下對特征貢獻(xiàn)度的計(jì)算是獨(dú)立進(jìn)行的,符合后期融合前提假設(shè),因此本文通過線性加權(quán)方式對不同視角下的特征貢獻(xiàn)度進(jìn)行計(jì)算,計(jì)算過程如公式(8),其中α=0.28且β=0.72,最終篩選特征為:年齡、教育程度、居住類型、職業(yè)類別、工作年限、個(gè)人收入、保險(xiǎn)繳納、車輛情況、信用總評分、額度、拖欠總金額共計(jì)11個(gè)特征,如表6所示。

表6 多角度融合特征選擇結(jié)果Table 6 Feature selection results of multi-angle fusion

3.4 特征選擇效果評價(jià)

(1)定性評價(jià)

四種特征篩選方法的類型并不相同,Pearson相關(guān)系數(shù)(方法1)為基于統(tǒng)計(jì)的特征選擇類型,RF(方法2)特征貢獻(xiàn)度為基于機(jī)器學(xué)習(xí)的特征選擇類型,量化特征認(rèn)知(方法3)則為依據(jù)人類先驗(yàn)知識的一種特征選擇類型,而本文提出的多視角融合的特征選擇方法(方法4)則為考慮不同方法間互補(bǔ)性的一種特征選擇類型。其中方法1是通過衡量待篩選特征與目標(biāo)變量之間相似度大小的一種特征選擇方式,該方法受數(shù)據(jù)預(yù)處理效果影響較大,共篩選出14個(gè)特征;方法2則通過公式(4)計(jì)算各特征貢獻(xiàn)度,依據(jù)貢獻(xiàn)度大小對特征進(jìn)行選擇,共篩選出8個(gè)特征,篩選效果較好,但模型針對性較低且訓(xùn)練成本較高;方法3則依據(jù)人類先驗(yàn)知識通過問卷調(diào)查方式對特征貢獻(xiàn)度進(jìn)行度量并選擇特征,篩選效果對問卷填寫人的知識背景和問卷填寫質(zhì)量要求較高,共篩選15個(gè)特征,特征篩選效果較差,本文分析該種現(xiàn)象產(chǎn)生的原因主要有兩點(diǎn):第一,直接采用屬性名稱作為問卷問題可能導(dǎo)致某些問卷填寫人對問題無法把握,此時(shí),人們更加傾向于認(rèn)為該特征對目標(biāo)屬性具有貢獻(xiàn)作用;第二,問卷填寫人本身缺乏該領(lǐng)域的相關(guān)認(rèn)知,導(dǎo)致問卷填寫質(zhì)量不高;本文提出的方法4從多角度出發(fā),綜合多種特征選擇方法,優(yōu)勢互補(bǔ),共選擇11個(gè)特征,特征選擇效果較好,預(yù)處理階段對數(shù)據(jù)的缺失值填充考慮充分,訓(xùn)練成本較低,且有效降低了數(shù)據(jù)特征冗余,提升了篩選準(zhǔn)確性。四種特征選擇方法共選擇特征包括教育程度、居住類型、工作年限、個(gè)人收入、保險(xiǎn)繳納、車輛情況、信用總評分、額度。綜上可知,上述8個(gè)特征對目標(biāo)屬性的貢獻(xiàn)程度較大。四種不同特征選擇方法的比較結(jié)果如表7所示。

表7 特征選擇結(jié)果對比Table 7 Comparison of feature selection results

(2)定量評價(jià)

分別基于未特征選擇數(shù)據(jù)集與四種特征選擇方法降維后的數(shù)據(jù)集構(gòu)建SVM(S)、Cart&T(C)、貝葉斯(B)和KNN(K)銀行客戶分類模型。首先基于先驗(yàn)認(rèn)知剔除較為明顯的對目標(biāo)屬性無貢獻(xiàn)的特征,并通過PyCharm編程對集合后數(shù)據(jù)進(jìn)行預(yù)處理,生成utf-8格式數(shù)據(jù)文件raw_data.csv,并依據(jù)不同特征選擇方法分別生成數(shù)據(jù)文件pearson.csv、rf.csv、people.csv和total.csv;其次,將數(shù)據(jù)集劃分為訓(xùn)練集(70%)和測試集(30%),并在此基礎(chǔ)之上分別構(gòu)建上述4種算法的銀行客戶分類模型,分別計(jì)算依據(jù)不同特征選擇方法所選擇數(shù)據(jù)集構(gòu)建分類模型的訓(xùn)練集精確度(ac)、測試集精確度(tc)、查全率(tl)、查準(zhǔn)率(pd)、召回率(rl)、F1-score(f1)以及模型訓(xùn)練成本(ct),最終計(jì)算結(jié)果如表8所示。

由表8中的實(shí)驗(yàn)結(jié)果數(shù)據(jù)可知,未進(jìn)行特征選擇的高維數(shù)據(jù)集的各項(xiàng)評價(jià)指標(biāo)均低于依據(jù)特征選擇后數(shù)據(jù)構(gòu)建的分類模型評價(jià)指標(biāo),表明特征選擇能有效提升模型性能;從SVM分類模型可見,基于方法4數(shù)據(jù)集構(gòu)建的客戶分類模型各項(xiàng)指標(biāo)均優(yōu)于方法1和方法3模型性能指標(biāo),同時(shí),在各項(xiàng)指標(biāo)基本不變情況下,方法4的模型訓(xùn)練成本要較方法2低0.14 s;從Cart&T、貝葉斯分類器和KNN分類模型結(jié)果可見,基于不同篩選后數(shù)據(jù)集構(gòu)建的分類模型性能基本一致但基于本文特征選擇方法篩選后數(shù)據(jù)集構(gòu)建的分類模型的訓(xùn)練成本相對更低。綜合以上分析可知:首先,經(jīng)過特征選擇后的數(shù)據(jù)各項(xiàng)指標(biāo)更為精確,可提升分類模型性能;其次,從分類模型角度考量時(shí),本文提出的多視角綜合方法所構(gòu)建出的模型指標(biāo)優(yōu)于其他單一方法,且較其他方法而言訓(xùn)練成本較低,實(shí)際操作中易于實(shí)現(xiàn)。

表8 特征選擇結(jié)果對比Table 8 Comparison of feature selection results

3.5 研究結(jié)論

本研究提出的銀行客戶細(xì)分?jǐn)?shù)據(jù)特征選擇方法共包含三大部分:數(shù)據(jù)預(yù)處理、綜合特征選擇和特征選擇效果評價(jià)。數(shù)據(jù)預(yù)處理是以相關(guān)預(yù)處理技術(shù)為基礎(chǔ),通過缺失值填補(bǔ)、異常值處理、數(shù)據(jù)類型轉(zhuǎn)換和連續(xù)型數(shù)據(jù)離散化等操作,提高數(shù)據(jù)質(zhì)量。其次分別基于統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、先驗(yàn)認(rèn)知和綜合視角對預(yù)處理后數(shù)據(jù)集特征進(jìn)行選擇,其中,統(tǒng)計(jì)類型方法選擇:Pearson相關(guān)系數(shù),通過衡量特征與目標(biāo)屬性之間的相關(guān)性大小,對特征進(jìn)行篩選;機(jī)器學(xué)習(xí)類型方法選擇:RF特征貢獻(xiàn)度,依據(jù)模型計(jì)算出的特征貢獻(xiàn)度大小從小到大對特征進(jìn)行篩選;先驗(yàn)認(rèn)知類型方法選擇:通過問卷調(diào)查方法量化不可直接測量的人類先驗(yàn)認(rèn)知,通過最終問卷結(jié)果統(tǒng)計(jì)各特征對目標(biāo)屬性的貢獻(xiàn)度,進(jìn)而篩選特征;綜合視角類型方法選擇:考慮到不同方法之間存在的互補(bǔ)性,借鑒多模態(tài)情感預(yù)測后期融合思想,通過線性加權(quán)方式對上述方法計(jì)算結(jié)果進(jìn)行線性加權(quán)計(jì)算。最后,基于不同篩選后數(shù)據(jù)集構(gòu)建不同的客戶分類模型,從定性與定量兩個(gè)角度對特征選擇效果進(jìn)行評價(jià)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),未篩選特征的原始數(shù)據(jù)集構(gòu)建模型性能較差,方法4特征篩選效果和模型個(gè)性評價(jià)指標(biāo)較優(yōu)。

4 結(jié)語

銀行客戶數(shù)據(jù)作為金融大數(shù)據(jù)的重要組成部分,包含了大量的有價(jià)值知識,對其進(jìn)行有效挖掘可助力銀行提升風(fēng)險(xiǎn)管控能力和客戶滿意度,但銀行客戶數(shù)據(jù)量之大、特征之多和價(jià)值密度之低等問題,限制了人們對銀行客戶數(shù)據(jù)蘊(yùn)藏知識的有效挖掘。同時(shí),現(xiàn)有的針對高維數(shù)據(jù)集的特征選擇方法主要采用單一方式進(jìn)行,并未考慮不同特征選擇方法之間的互補(bǔ)性,另外,對人類先驗(yàn)認(rèn)知的重視程度也遠(yuǎn)遠(yuǎn)不足。

本文提出的銀行客戶細(xì)分的數(shù)據(jù)特征選擇方法綜合考慮統(tǒng)計(jì)相關(guān)理論、機(jī)器學(xué)習(xí)相關(guān)理論、先驗(yàn)認(rèn)知相關(guān)理論和多模態(tài)融合相關(guān)理論,按數(shù)據(jù)預(yù)處理、綜合特征選擇和特征選擇效果評價(jià)策略對銀行客戶數(shù)據(jù)集特征進(jìn)行選擇。研究結(jié)果表明,本文所提特征選擇方法能夠有效對高維銀行客戶數(shù)據(jù)特征進(jìn)行篩選,且篩選后特征維度較低,所構(gòu)成的數(shù)據(jù)集能夠有效表示原始數(shù)據(jù)集全貌,同時(shí),基于本文所提特征選擇方法特征選擇后構(gòu)成的數(shù)據(jù)集構(gòu)建的分類模型性能,基本優(yōu)于單一方法下構(gòu)建的分類模型性能,不同類型下的特征選擇方法可以實(shí)現(xiàn)有效互補(bǔ),篩選出的對應(yīng)特征數(shù)據(jù)集能有效提升模型性能。

本文創(chuàng)新點(diǎn)主要有:(1)結(jié)合銀行客戶數(shù)據(jù)自身特點(diǎn),給出了一種包括類型轉(zhuǎn)換及離散化,缺失值填充和標(biāo)準(zhǔn)化三部分的針對銀行客戶分類特征篩選的數(shù)據(jù)預(yù)處理方案,經(jīng)過預(yù)處理后的數(shù)據(jù)質(zhì)量得到顯著提升;(2)結(jié)合認(rèn)知心理學(xué)相關(guān)理論,通過問卷方式量化先驗(yàn)認(rèn)知,并將其引入特征選擇;(3)借鑒多模態(tài)情感預(yù)測思想,考慮到不同特征選擇方法之間的互補(bǔ)性,綜合主觀特征選擇方法和客觀特征選擇方法,通過后期融合線性加權(quán)方式對不同類型特征選擇方法進(jìn)行融合,實(shí)現(xiàn)方法互補(bǔ);(4)提出的銀行客戶細(xì)分特征選擇方法較前人研究更加系統(tǒng)全面,實(shí)證研究模型從單一數(shù)據(jù)、單一模型和多指標(biāo)評價(jià)優(yōu)化為單一數(shù)據(jù)、多模型和多評價(jià)指標(biāo),更具多元性,能為銀行客戶數(shù)據(jù)知識挖掘與價(jià)值發(fā)現(xiàn)提供參考。不足之處在于:不同角度特征選擇方法所計(jì)算的特征貢獻(xiàn)度系數(shù)需要人為調(diào)整,且系數(shù)設(shè)置合理與否將對模型性能產(chǎn)生較大影響;同時(shí),考慮到數(shù)據(jù)采集成本等因素,未采集不同銀行客戶數(shù)據(jù),對特征選擇方法的適用性進(jìn)行驗(yàn)證。

猜你喜歡
貢獻(xiàn)度特征選擇問卷
充分把握教育對經(jīng)濟(jì)社會(huì)發(fā)展的貢獻(xiàn)度
基于貢獻(xiàn)度排序的腎透明細(xì)胞癌串?dāng)_通路分析
問卷網(wǎng)
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
需求側(cè)資源促進(jìn)可再生能源消納貢獻(xiàn)度綜合評價(jià)體系
問卷大調(diào)查
問卷你做主
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
东兴市| 正镶白旗| 尼玛县| 黔西县| 公安县| 石城县| 垣曲县| 鹤壁市| 深泽县| 江山市| 鲁山县| 贡觉县| 突泉县| 进贤县| 鄂州市| 谷城县| 河源市| 武平县| 甘孜县| 三门峡市| 荥阳市| 台前县| 阳信县| 柳林县| 江门市| 朝阳市| 马关县| 松原市| 长宁县| 镇平县| 宁蒗| 新安县| 穆棱市| 乐业县| 伊宁市| 秦皇岛市| 利津县| 天等县| 富平县| 五寨县| 汽车|