国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成對抗網(wǎng)絡(luò)的銀行不平衡客戶流失預(yù)測研究

2021-09-14 02:46謝玖祚
關(guān)鍵詞:分類樣本函數(shù)

李 波,謝玖祚

(重慶理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)

不平衡數(shù)據(jù)分類在分類任務(wù)中是一個極具挑戰(zhàn)性的領(lǐng)域[1]。在此類問題中往往最有價值的都是對少數(shù)類樣本的識別。例如在商業(yè)銀行領(lǐng)域中的客戶流失問題中,銀行與銀行之間的競爭趨于白熱化,以目前市場飽和的現(xiàn)狀而言,保留現(xiàn)有客戶需要付出的成本小于發(fā)展新的客戶成本[2]。若不能精準(zhǔn)知曉那些數(shù)量較小的已流失的客戶,會對企業(yè)造成無法挽回的損失。但由于不均衡數(shù)據(jù)的分類特性,有很多傳統(tǒng)的分類方法針對少數(shù)類別的預(yù)測效果很差,例如貝葉斯、支持向量機(jī)等,這些分類方法大都是為了使整體分類精度最大化而設(shè)計提出的,在分類的時候,預(yù)測多數(shù)類準(zhǔn)確度比少數(shù)類的準(zhǔn)確度高很多[3]。從這個角度而言,研究與探索分類策略對處理不平衡分類問題意義非常重大。

為了解決這個問題,近些年來,國內(nèi)外諸多學(xué)者提出了許多方法[3]。其中一類常見方法是對不平衡數(shù)據(jù)本身進(jìn)行數(shù)據(jù)處理。其關(guān)鍵思想是通過對訓(xùn)練集預(yù)處理,來減小不均衡類之間的差異。換言之,就是通過改變訓(xùn)練集中少數(shù)類和多數(shù)類的先驗分布,以獲得不同類之間更平衡的實(shí)例數(shù)量。數(shù)據(jù)生成就是一種通過復(fù)制合成少數(shù)類樣本來增加少數(shù)群體比例的方法。SMOTE[4]就是一種經(jīng)典的生成方法。SMOTE的主要思想是沿著線段生成少數(shù)類樣本,該方法也提出了許多變體,并證明了它們的有效性,如Majumder等[5-6]提到的ADASYN和Borderline-SMOTE。其他方法更側(cè)重于分類算法。其中集成學(xué)習(xí)方法一直是提高數(shù)據(jù)集分類器性能的常用方法[7]。在其他方法中,代價敏感學(xué)習(xí)[8]和單類別學(xué)習(xí)也已經(jīng)被證明是解決不平衡數(shù)據(jù)問題的實(shí)用而有效的方法。

生成對抗網(wǎng)絡(luò)(GAN)近年來得到了廣泛的研究[9]。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)不同,生成對抗網(wǎng)絡(luò)是一類生成模型,它通過2個網(wǎng)絡(luò)組成的競爭過程學(xué)習(xí):生成器(G)以隨機(jī)變量作為輸入學(xué)習(xí)生成可以欺騙鑒別器的虛假數(shù)據(jù),而判別器(D)則試圖將真實(shí)數(shù)據(jù)與生成的數(shù)據(jù)區(qū)分開來。如果對網(wǎng)絡(luò)進(jìn)行良好的訓(xùn)練,生成器就將生成與真實(shí)數(shù)據(jù)十分相似的假數(shù)據(jù)騙過鑒別器。自提出以來,GAN已成為一種廣泛應(yīng)用于不同機(jī)器學(xué)習(xí)領(lǐng)域的方法,尤其是在計算機(jī)視覺和圖像處理領(lǐng)域[10-12]。

本文中提出了一種基于生成對抗網(wǎng)絡(luò)的數(shù)據(jù)不平衡分類策略。將該模型應(yīng)用于少數(shù)類樣本的生成,并使用機(jī)器學(xué)習(xí)對原數(shù)據(jù)集和補(bǔ)全數(shù)據(jù)集進(jìn)行分類實(shí)驗,通過對比實(shí)驗驗證了該模型的有效性。

1 相關(guān)工作

1.1 常用不平衡數(shù)據(jù)分類方法

通常情況下,可以采用2種方法處理不平衡分類問題,一種是基于數(shù)據(jù)層面,另一種是算法層面[3]。其中數(shù)據(jù)層面有2類方法,分別是數(shù)據(jù)刪除和數(shù)據(jù)生成。常用的刪除方法有2種。隨機(jī)欠采樣(RUS)排除了來自多數(shù)類的隨機(jī)樣本,而聚焦欠采樣(FUS)排除了存在于2個類之間邊界上的多數(shù)類樣本。ROS是最傳統(tǒng)的一種過采樣方法,可以隨機(jī)生成少數(shù)類樣本,而SMOTE則是一種更為常用且有效的方法。

在SMOTE[13]方法中,通過取每個少數(shù)類樣本并沿著連接所有選定的K個少數(shù)類最近鄰的線段引入合成的例子對少數(shù)類進(jìn)行生成。根據(jù)所需的生成樣本量,從K個最近的鄰居中隨機(jī)選擇鄰居。

SMOTE算法過程描述如圖1所示。首先,對于少數(shù)類的每個觀測x,識別其K近鄰,如圖中紅色方形樣本所示。然后隨機(jī)選擇K個鄰居(這個數(shù)字取決于不平衡比率)。最后,沿著連接原始觀測樣本x與其最近鄰居的直線生成新的數(shù)據(jù)。

上述2類方法的弊端是顯而易見的。刪除數(shù)據(jù)可能會導(dǎo)致原始數(shù)據(jù)集中包含的信息丟失,而原始數(shù)據(jù)的簡單復(fù)制可能不會提高少數(shù)類的有效性。

注:方塊是少數(shù)類 圓型是多數(shù)類

1.2 生成式對抗網(wǎng)絡(luò)

生成式對抗網(wǎng)絡(luò)(GAN)是受博弈論啟發(fā)和影響的一種生成模型,該模型由生成器以及判別器組成[14]。G(z)是由D(x)產(chǎn)生的模擬真實(shí)樣本偽樣本。其中:z指的是隨機(jī)噪聲,x指的是真實(shí)樣本。GAN的優(yōu)化可以看成是如何極小化、極大化[9]。其損失函數(shù)是:

Ez~p(z)[log(1-D(G(z)))]

(1)

式中:p(x)表示真實(shí)的樣本分布;p(z)表示噪聲分布,E(*)表示期望。其中,GAN模型既包括判別器的優(yōu)化過程式(2)也包括生成器的優(yōu)化過程式(3)。

Ez~p(z)[log(1-D(G(z)))]

(2)

(3)

生成對抗網(wǎng)絡(luò)是一種通過訓(xùn)練樣本而得出新樣本的網(wǎng)絡(luò)結(jié)構(gòu)[9]。生成對抗網(wǎng)絡(luò)的核心是通過訓(xùn)練集來預(yù)估它的樣本是如何分布,然后再利用得出的樣本分布生成另一個和訓(xùn)練集相似的樣本。圖2為GAN模型結(jié)構(gòu)框圖。

圖2 GAN模型結(jié)構(gòu)框圖

目前,該模型廣泛應(yīng)用于圖像視覺[10]、異常檢測[11]、信用卡欺詐等領(lǐng)域[12]。與傳統(tǒng)的生成模型對比,GAN模型不需要基于真實(shí)數(shù)據(jù)就可以生成逼近真實(shí)數(shù)據(jù)的合成數(shù)據(jù)[9]。

2 基于GAN的少類數(shù)據(jù)生成模型構(gòu)建

2.1 特征工程

特征工程(feature engineering,F(xiàn)E)對于模型的性能提升起著非常重要的作用[15]。它的輸入是原始數(shù)據(jù),而輸出是模型訓(xùn)練所需的數(shù)據(jù)集,F(xiàn)E能夠篩選出效果更好的屬性用于訓(xùn)練,讓模型的訓(xùn)練效果得到改善與提高。特征處理、特征分析、特征選擇是特征工程的3個主要步驟,其中最關(guān)鍵的是選擇特征。本文中選擇的方案是基于RF(random forest),是一種學(xué)習(xí)算法,其基于決策樹,并且實(shí)現(xiàn)簡單,開銷較小,而且在分類問題上也有著優(yōu)異的性能[15]。用RF算法來做特征選擇,不僅能解決特征過多導(dǎo)致的過擬合問題,還能通過改善特征,加快訓(xùn)練速度,改善模型效果。

(4)

式中:K表示有K個類別,pnk指的是在節(jié)點(diǎn)n中類別k的比值。從客觀層面上而言,指的是從任意節(jié)點(diǎn)n中隨機(jī)選擇2個樣本,他們標(biāo)記不同的幾率。節(jié)點(diǎn)n分枝前后GI指數(shù)變化量是

(5)

式中:GI1指的是分枝后1節(jié)點(diǎn)的GI指數(shù),GIr同理。假如在決策樹i中,特征Xj出現(xiàn)的節(jié)點(diǎn)在M中,則在第i顆樹中,Xj重要性為:

(6)

假設(shè)RF中共有m顆樹,那么

(7)

最后,將全部所得的重要性評分集中歸一化處理。

(8)

2.2 激活函數(shù)

通常情況下,神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)元激活函數(shù)是Sigmoid。但是,Sigmoid函數(shù)存在梯度消失造成模型訓(xùn)練收斂緩慢的問題。一般以ReLU函數(shù)(修正線性單元)將其替代[10]。ReLU與Sigmoid相比,有著易于優(yōu)化的優(yōu)勢,并且由于它的定義域的一半范圍輸出為0,使得網(wǎng)絡(luò)結(jié)構(gòu)變得更加稀疏,對過擬合起著緩解作用;而定義域的另一半范圍輸出的梯度保持為1,這便意味著對于學(xué)習(xí)來說它的梯度將會有更好的效果。然而在訓(xùn)練時ReLU這個函數(shù)也有著“脆弱”的缺陷,即當(dāng)網(wǎng)絡(luò)進(jìn)行第一次訓(xùn)練時若權(quán)重為0以下,按照ReLU函數(shù)的計算公式,之后的訓(xùn)練將一直為0。為解決這種現(xiàn)象,使用LeakyReLU函數(shù)。LeakyReLU作為ReLU函數(shù)的一種特殊形式,在神經(jīng)元出現(xiàn)不激活現(xiàn)象時仍會有一個小梯度的非0值輸出,從而規(guī)避了可能的神經(jīng)元的“消逝”。式(9)(10)分別是ReLU、LeakyReLU的函數(shù)公式。ReLU的作用是把負(fù)值刷新為零,LeakyReLU的作用是把負(fù)值刷新為非零斜率。

(9)

(10)

式中:ai指的是位于(1,+∞)區(qū)間中的固定值,基于LeakyReLU的角度而言,若斜率較小,則它和ReLU區(qū)別非常小,反之,效果更佳。

2.3 批標(biāo)準(zhǔn)化(Batch Normalization)

深度學(xué)習(xí)訓(xùn)練較為復(fù)雜。如果某一層數(shù)據(jù)出現(xiàn)了較小的變化,那么層變化會逐漸增大,此時就必須調(diào)整網(wǎng)絡(luò)參數(shù)來適應(yīng)新數(shù)據(jù)的分布。批標(biāo)準(zhǔn)化則是解決這一問題的有效方法。

批標(biāo)準(zhǔn)化可以說是一個重參數(shù)化的算法,它能夠自適應(yīng)。為了有效避免由于網(wǎng)絡(luò)層數(shù)的逐步增加,梯度出現(xiàn)消失或者爆炸的問題,引入了批標(biāo)準(zhǔn)化來對各個層的輸入進(jìn)行規(guī)范,從而固定各層輸入信號的方差以及均值。通常情況下,用于在非線性映射以前規(guī)范x=Wu+b,使得它的結(jié)果全部為0,方差為1。讓每一層的輸入有一個穩(wěn)定的分布會有利于網(wǎng)絡(luò)的訓(xùn)練。

上述批標(biāo)準(zhǔn)化的單位是隨機(jī)梯度下降批量樣本,對數(shù)據(jù)做統(tǒng)一處理,使得概率分布在每一個維度都趨于穩(wěn)定,他的均值是0,標(biāo)準(zhǔn)差是1。同時,為了使經(jīng)過歸一化學(xué)習(xí)到的特征免受破壞,γ、β2個參數(shù)需要被引入,然后利用2個參數(shù)變換重構(gòu)數(shù)據(jù)。若某層的輸入是x=(x(1),…,x(a)),而且有a維,同時將batch-size置成n,那么一批的樣本集合為B={x1,…,xn},則批標(biāo)準(zhǔn)化如下:

(11)

(12)

(13)

y(k)=γ(k)x′(k)+β(k)

(14)

2.4 生成網(wǎng)絡(luò)

使用全連接層作為本文網(wǎng)絡(luò)的生成模型。該網(wǎng)絡(luò)生成器與鑒別器的結(jié)構(gòu)借鑒了Sethia等[10]提出的關(guān)于信用卡欺詐檢測的GAN模型的思想,該網(wǎng)絡(luò)相比于圖像領(lǐng)域常用的WGAN、f-GAN、DCGAN 等網(wǎng)絡(luò),在面對銀行領(lǐng)域的結(jié)構(gòu)化數(shù)據(jù)的時候更加適用,本文的網(wǎng)絡(luò)在改善了VGAN網(wǎng)絡(luò)結(jié)構(gòu)的同時,在生成器的輸入層和隱藏層中使用了上文提到的批標(biāo)準(zhǔn)化(Batch Normalization)策略,從而減少了網(wǎng)絡(luò)對各個參數(shù)的敏感程度,訓(xùn)練過擬合風(fēng)險越來越小,網(wǎng)絡(luò)收斂越來越快,而且還可以防范梯度消失或者爆炸、協(xié)變量移位等問題。

生成網(wǎng)絡(luò)由6層神經(jīng)網(wǎng)絡(luò)組成,包括輸入層,隱含層和輸出層。其中生成器的輸入為200維的隨機(jī)噪聲,激活函數(shù)采用上述LeakyReLU函數(shù)。網(wǎng)絡(luò)包含4層隱含層,節(jié)點(diǎn)數(shù)分別為64、128、256、512,激活函數(shù)仍都采用了LeakyReLU。最后生成網(wǎng)路輸出層節(jié)點(diǎn)數(shù)是25,元素區(qū)間是[0,1],故輸出層激活函數(shù)選擇tanh。

2.5 判別網(wǎng)絡(luò)

判別網(wǎng)絡(luò)同樣為6層神經(jīng)網(wǎng)絡(luò),包括輸入層、隱含層和輸出層。為了“壓平”輸入,在判別器模型全連接之前加入了另一個層,那就是Flatten層,從而實(shí)現(xiàn)了多維輸入的一維化。輸入的一部分?jǐn)?shù)據(jù)來自于真實(shí)數(shù)據(jù),而其他的來自于網(wǎng)絡(luò)生成的數(shù)據(jù)。其中判別器輸入層節(jié)點(diǎn)數(shù)是25,網(wǎng)絡(luò)包含4層隱含層,節(jié)點(diǎn)數(shù)分別為512、256、128、64,激活函數(shù)使用上文所述的LeakyRelU函數(shù)。輸出層的節(jié)點(diǎn)數(shù)為2,且激活函數(shù)選擇了Sigmoid,通過對數(shù)據(jù)源的判斷,采用Binarycrossentropy(二元交叉熵?fù)p失函數(shù))來減小損失誤差,提高分類精度。綜上,生成模型整體結(jié)構(gòu)如圖3所示。

圖3 本文的模型整體結(jié)構(gòu)示意圖

3 實(shí)驗評估與結(jié)果分析

3.1 評估指標(biāo)

分類問題常采用準(zhǔn)確率(accuracy)作為衡量分類效果的標(biāo)準(zhǔn),但是對于不均衡數(shù)據(jù)問題,僅使用accuracy作為度量指標(biāo)是不夠的。因為在不均衡數(shù)據(jù)中,正負(fù)類樣本的數(shù)量差異會很大,那么就會出現(xiàn)多數(shù)類預(yù)測精確度非常高,然而少數(shù)類預(yù)測準(zhǔn)確度非常低。對于這種情況,在使用準(zhǔn)確率的同時使用了Precision、Recall、F-mean作為評估指標(biāo),既能客觀地評價數(shù)據(jù)集的性能,也能兼顧各類別的分類精度。表1表述了二分類中的混淆矩陣種類。其中FN、FP指的是錯誤分類正負(fù)樣本數(shù)量,TP、TN則指的是正確分類正負(fù)樣本數(shù)量。

表1 二分類中的混淆矩陣種類

根據(jù)表1的矩陣種類得到以下評估指標(biāo),其中查準(zhǔn)率(precsion)和查全率(recall)的公式如式(15)(16)所示。

(15)

(16)

通常情況下,Precision、Recall的相對重要度由β值來調(diào)和,一般值是1。若少數(shù)類Precision、Recall兩者的值都比較大的時候,F(xiàn)-mean值才會更大,因此F-mean能夠更精確地反映出少類分類性能,公式如下。

(17)

3.2 實(shí)驗數(shù)據(jù)集與實(shí)驗設(shè)計

實(shí)驗數(shù)據(jù)是某商業(yè)銀行的客戶數(shù)據(jù)。該數(shù)據(jù)具有很高的不平衡比率,多類和少類的比例達(dá)到了20∶1,其中數(shù)據(jù)樣本量多達(dá)8萬,數(shù)據(jù)維數(shù)高達(dá)600。在使用GAN模型訓(xùn)練前,首先需用上文提到的RF算法進(jìn)行特征選擇,再使用PCA算法進(jìn)行特征降維,最終保留25,各特征進(jìn)行后續(xù)的訓(xùn)練。之后,為了充分展示不平衡數(shù)據(jù)的分類特性,選用了少類和多類的比值為1∶1到1∶20之間的數(shù)據(jù)(如表2所示),來進(jìn)行部分預(yù)測實(shí)驗。

表2 少類和多類的不同比值的數(shù)據(jù)

同時為了驗證GAN模型對銀行少類樣本的生成效果,實(shí)驗將使用平衡處理后的數(shù)據(jù)作為訓(xùn)練集,不平衡數(shù)據(jù)作為測試集,對少類進(jìn)行預(yù)測實(shí)驗。并與BSMOTE(BS)、ROS、ADASYN(AS)、SMOTE等不平衡處理算法進(jìn)行對比。實(shí)驗流程如圖4所示。

圖4 實(shí)驗流程框圖

3.3 實(shí)驗結(jié)果分析

圖5為GAN模型判別器的損失下降曲線,損失值在迭代次數(shù)1 000次左右時趨于穩(wěn)定。

圖5 判別器損失函數(shù)曲線

使用LightGBM(LGB)、隨機(jī)森林(RF)驗證不平衡分類的傾向問題。實(shí)驗先預(yù)測多類樣本準(zhǔn)確率,其結(jié)果如圖6所示。

從圖6結(jié)果可以看出,LGB與RF在不同比例的非均衡數(shù)據(jù)上對多數(shù)類預(yù)測穩(wěn)定性較好,具有傾向性。其次,分別使用這2種機(jī)器學(xué)習(xí)算法與GAN模型組合,并與上文中提到的SMOTE、AS等多種不平衡處理算法進(jìn)行實(shí)驗對比。實(shí)驗結(jié)果如圖7、8所示。

圖6 多類預(yù)測準(zhǔn)確率曲線

圖7、8中,分別采用RF、LGB算法測試各不平衡處理算法和GAN模型在測試集上的分類預(yù)測效果。從圖7、8中均可以看出,LGB與RF算法在本文GAN模型處理過的數(shù)據(jù)上的準(zhǔn)確率要優(yōu)于其他不平衡處理算法。

圖7 RF在數(shù)據(jù)集上的準(zhǔn)確率直方圖

圖8 LightGBM在數(shù)據(jù)集上的準(zhǔn)確率直方圖

上述實(shí)驗,盡管證明了經(jīng)本文中提出的GAN模型處理后的數(shù)據(jù)在整體預(yù)測準(zhǔn)確率上的效果,但在反映類別不均衡數(shù)據(jù)分類效果的提升上仍不夠全面。因此,還需要使用上文提到的Precision、F-mean度量指標(biāo),上文提到的各種不平衡處理算法的結(jié)果如圖9所示。

圖9 各算法在數(shù)據(jù)集上的Precison值直方圖

從圖9可以看出:RUS(隨即欠采樣)效果最差。LGB和RF算法與GAN模型的組合在指標(biāo)Precision上效果最好,其中LGB+GAN的組合相比傳統(tǒng)方法中綜合效果較好的ROS和SMOTE算法分別提高了0.338和0.405。而RF+GAN模型的組合則分別提高了0.179和0.359。圖9只是實(shí)驗對少類樣本預(yù)測性能的分析,但這還并不能綜合反映GAN模型對少數(shù)類樣本的分類能力。因此,還要利用F-mean指標(biāo)對數(shù)據(jù)生成后的樣本做分類效果評估,實(shí)驗結(jié)果如圖10所示,LGB+GAN模型的組合在F-mean指標(biāo)上,相比LGB算法與RUS、ROS、SMOTE、AS、BS的組合分別提高了0.369、0.137、0.171、0.165、和0.258。而RF+GAN在F-mean指標(biāo)則分別提高了0.307、0.136、0.097、0.154和0.062。

圖10 各算法在數(shù)據(jù)集上F-mean值對比

綜上,從數(shù)據(jù)處理著手,提出的GAN模型在準(zhǔn)確率、F-mean等指標(biāo)上好于其他不平衡處理算法。因此,其對于商業(yè)銀行客戶數(shù)據(jù)不均衡的分類問題有著較好的適用性,其中LGB+GAN的模型組合得到了最好的指標(biāo)效果。

4 結(jié)論

將圖像領(lǐng)域常用的生成對抗網(wǎng)絡(luò)應(yīng)用到商業(yè)銀行客戶流失問題中,提出了一種基于GAN網(wǎng)絡(luò)的結(jié)構(gòu)化數(shù)據(jù)生成模型,改善了銀行客戶流失問題中少數(shù)類的生成以及預(yù)測問題。

與ROS、SMOTE等多種常用不平衡處理方法進(jìn)行了比較。實(shí)驗結(jié)果表明:該方法能較好地避免SMOTE等算法合成樣本的盲目性,提高了合成樣本的質(zhì)量,讓數(shù)據(jù)生成更具針對性,進(jìn)而使分類結(jié)果有較好的準(zhǔn)確率、F-mean及Precision值,其應(yīng)用在銀行客戶流失不平衡分類問題上具有可行性和適用性。但本次實(shí)驗只是在數(shù)據(jù)層面上進(jìn)行了改進(jìn),如何在算法層面上進(jìn)行改進(jìn)與優(yōu)化,將是以后研究的重點(diǎn)和難點(diǎn)。

猜你喜歡
分類樣本函數(shù)
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
分類算一算
用樣本估計總體復(fù)習(xí)點(diǎn)撥
二次函數(shù)
函數(shù)備考精講
分類討論求坐標(biāo)
推動醫(yī)改的“直銷樣本”
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
普洱| 垦利县| 舒兰市| 三门县| 灵山县| 兴文县| 遂昌县| 正镶白旗| 福海县| 四会市| 民丰县| 威海市| 西吉县| 白城市| 罗江县| 鄂托克前旗| 南溪县| 遵义县| 湾仔区| 准格尔旗| 界首市| 姜堰市| 抚松县| 金山区| 北票市| 东山县| 读书| 改则县| 牟定县| 灌云县| 疏附县| 肥城市| 青铜峡市| 甘洛县| 蒙城县| 柏乡县| 青州市| 汕尾市| 华蓥市| 拉萨市| 潼关县|