孫 丹,施煒利,饒?zhí)m香,孟莎莎,郭曉明,李逸倫
(1.江西省科技基礎(chǔ)條件平臺(tái)中心,江西 南昌 330003; 2.中國廣電江西網(wǎng)絡(luò)有限公司,江西 南昌 330006)
信用卡欺詐是指故意使用偽造、作廢的信用卡,冒用他人的信用卡騙取財(cái)物,或用本人信用卡進(jìn)行惡意透支的行為,常見的信用卡欺詐主要包括失卡冒用、假冒申請(qǐng)、偽造信用卡[1]。隨著在線支付交易的日益增多,與借記卡、預(yù)付卡和信用卡相關(guān)的欺詐是企業(yè)、金融業(yè)和消費(fèi)者共同面臨的一個(gè)日益嚴(yán)峻的問題。常規(guī)解決信用卡欺詐檢測問題是通過傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)分析對(duì)比來對(duì)用戶消費(fèi)信譽(yù)進(jìn)行評(píng)分,信用評(píng)分低就有可能成為信用卡欺詐用戶[2]。這種傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)分析方法需要耗費(fèi)大量的人力、物力和時(shí)間成本,檢測的準(zhǔn)確度也不高。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,國內(nèi)外學(xué)者開始從數(shù)據(jù)挖掘角度去解決信用卡欺詐檢測問題。不過利用機(jī)器學(xué)習(xí)方法解決信用卡欺詐問題同樣面臨很多挑戰(zhàn)。如信用卡交易數(shù)據(jù)涉及用戶敏感隱私數(shù)據(jù),很多研究學(xué)者很難拿到準(zhǔn)確有效的信用卡交易特征數(shù)據(jù);同時(shí)信用卡交易數(shù)據(jù)通常是分布非常不平衡的數(shù)據(jù),正常交易數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于異常交易數(shù)據(jù),數(shù)據(jù)不平衡分布問題會(huì)對(duì)分類精確度產(chǎn)生很大的影響[3]。
近年來,國內(nèi)外研究學(xué)者提出了各種各樣的機(jī)器學(xué)習(xí)模型來建立信用卡欺詐檢測模型,如支持向量機(jī)、決策樹、神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)等信用卡檢測方法。Zhang等人[4]研究了基于加權(quán)支持向量機(jī)的信用卡欺詐檢測方法,引入了加權(quán)支持向量機(jī)SVM算法,極大地提高了檢測性能。李夢(mèng)濤等人[5]重點(diǎn)從數(shù)據(jù)本身出發(fā),利用數(shù)據(jù)挖掘技術(shù),挖掘數(shù)據(jù)背后相關(guān)的欺詐信息,提出了一種基于數(shù)據(jù)挖掘的隨機(jī)森林的信用卡檢測方法,其精確率和召回率得到較好的檢測結(jié)果。Prasetiyo等人[6]采用隨機(jī)森林算法模型對(duì)合成數(shù)據(jù)集進(jìn)行訓(xùn)練檢測,識(shí)別效果比簡單的機(jī)器學(xué)習(xí)算法效果更好。Asha等人[7]研究了基于多種機(jī)器學(xué)習(xí)算法進(jìn)行信用卡欺詐檢測方法,對(duì)比了多種機(jī)器學(xué)習(xí)算法,提出了一種人工神經(jīng)網(wǎng)絡(luò)(ANN)算法進(jìn)行信用卡欺詐行為檢測,其準(zhǔn)確度接近100%,比無監(jiān)督學(xué)習(xí)算法具有更高的準(zhǔn)確性。Lebichot等人[8]研究了評(píng)估增量學(xué)習(xí)策略,設(shè)計(jì)了一種基于評(píng)估增量學(xué)習(xí)策略的信用卡欺詐行為檢測系統(tǒng)。通過集成學(xué)習(xí)、多樣性遷移學(xué)習(xí)提高檢測系統(tǒng)準(zhǔn)確性。這些檢測模型提出的研究者們都只注重方法和算法的研究,往往忽略了前期特征數(shù)據(jù)的預(yù)處理工作和信用卡交易數(shù)據(jù)的極度不平衡數(shù)據(jù)的預(yù)處理工作。
為了解決數(shù)據(jù)極度不平衡分布問題,研究者們已經(jīng)研究了許多方法來消除數(shù)據(jù)不平衡所帶來的影響,張菲菲等人[9]提出了基于過采樣的不平衡數(shù)據(jù)集分類算法(SDPDBoost),該方法使用SMOTE進(jìn)行樣本合成,并且把新樣本加入到數(shù)據(jù)集中。Liu等人[10]提出了隨機(jī)欠采樣提升算法(RUSBoost),該方法采用欠采樣方法,隨機(jī)刪除一些多數(shù)類樣本,然后使用處理后的數(shù)據(jù)構(gòu)造弱分類器。研究者們開始研究過采樣和欠采樣來解決信用卡欺詐檢測中信用卡交易數(shù)據(jù)不平衡數(shù)據(jù)的處理。王一明[11]通過多次欠采樣方法,構(gòu)造多個(gè)均衡數(shù)據(jù)集,建立多個(gè)Logistic回歸模型,最后將多個(gè)Logistic回歸進(jìn)行集成,構(gòu)建最終的檢測模型,減少了真實(shí)數(shù)據(jù)信息量的喪失;張藝豪等人[1]為了解決數(shù)據(jù)不平衡分布問題,利用合成少數(shù)類過采樣技術(shù)SMOTE算法生成新的樣本使得數(shù)據(jù)平衡分布,再利用加權(quán)隨機(jī)森林算法訓(xùn)練平衡數(shù)據(jù),較好地解決了過擬合問題;琚春華等人[12]克服了SMOTE算法在生成新樣本時(shí)的盲目性和局限性,提出了基于kNN-Smote-LSTM的信用卡欺詐檢測網(wǎng)絡(luò)模型,大大改善了誤分類問題。研究者們?cè)诓黄胶鈹?shù)據(jù)處理問題的研究中只單純的采用單種采樣方法進(jìn)行數(shù)據(jù)處理,或者是對(duì)單種采樣方法進(jìn)行改進(jìn),未結(jié)合過采樣和欠采樣方法對(duì)不平衡數(shù)據(jù)處理進(jìn)行過多的研究。為了使合成的樣本更具有多樣性,本文提出一種改進(jìn)的混合采樣技術(shù)。通過多種過采樣和多種欠采樣進(jìn)行多種方式組合,選擇最優(yōu)的組合采樣方式處理不平衡數(shù)據(jù)集。
本文首先對(duì)3種不平衡數(shù)據(jù)處理方法進(jìn)行分析,提出一種基于改進(jìn)的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測方法,最后通過未進(jìn)行不平衡數(shù)據(jù)數(shù)量實(shí)驗(yàn)、6種不平衡數(shù)據(jù)處理組合采樣方法實(shí)驗(yàn)、基于改進(jìn)的SMOTE+ENN混合采樣下的5種分類算法實(shí)驗(yàn)從準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、AUC值5項(xiàng)評(píng)價(jià)指標(biāo)對(duì)3類實(shí)驗(yàn)結(jié)果進(jìn)行分析驗(yàn)證。結(jié)果表明基于改進(jìn)的SMOTE+ENN混合采樣和XGBoost算法的信用卡檢測方法在不平衡數(shù)據(jù)處理上不僅提高了信用卡欺詐行為數(shù)據(jù)的區(qū)分度,而且提高了特征提取的計(jì)算性能和準(zhǔn)確性,同時(shí)能夠準(zhǔn)確有效地檢測出信用卡欺詐行為,提高了信用卡欺詐行為檢測準(zhǔn)確性。
1.1.1 數(shù)據(jù)選擇
測試數(shù)據(jù)來自Kaggle上Credit Card Fraud Detection數(shù)據(jù)集,如圖1所示。該數(shù)據(jù)集記錄了2013年9月歐洲信用卡交易數(shù)據(jù),總共包括2天的交易數(shù)據(jù)。在284807次交易中包含了492例詐騙,數(shù)據(jù)集極其不平衡,詐騙頻率只占了交易頻次的0.172%[13]。
圖1 Credit Card Fraud Detection數(shù)據(jù)集主頁
如圖2所示,Credit Card Fraud Detection數(shù)據(jù)集為了避免泄露用戶隱私,將原始數(shù)據(jù)做了脫敏等處理,最后使用28維向量描述,分別對(duì)應(yīng)V1~V28,該筆交易發(fā)生時(shí)間定義為Time,該筆交易涉及的金額定義為Amount,該筆交易是否為欺詐定義為Class字段,其中1表示為欺詐,0表示為正常交易[14]。
圖2 Credit Card Fraud Detection數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)
1.1.2 數(shù)據(jù)處理
針對(duì)Credit Card Fraud Detection數(shù)據(jù)集最簡單的處理過程是對(duì)數(shù)據(jù)特征提取方式進(jìn)行標(biāo)準(zhǔn)化,V1~V28已經(jīng)是歸一化處理過了,剩下僅Amount字段是原始的交易數(shù)據(jù),需要進(jìn)行歸一化處理。最簡單的標(biāo)準(zhǔn)化方式是將數(shù)據(jù)集的字段控制在0~1之間或者-1~1之間[15]。首先使用pandas從文件中加載數(shù)據(jù),然后定義新的字段nomAmount,nomAmount用于記錄標(biāo)準(zhǔn)化后的Amount字段。
數(shù)據(jù)標(biāo)準(zhǔn)化處理流程為:
1)使用pandas函數(shù)加載creditcard.csv數(shù)據(jù)集數(shù)據(jù)。
2)使用StandardScaler標(biāo)準(zhǔn)化函數(shù)將Amount字段值進(jìn)行歸一化處理。
3)將class字段值賦予標(biāo)記字段y。
4)將數(shù)據(jù)集中V1~V28字段值及nomAmount值賦予數(shù)據(jù)集x。
5)將數(shù)據(jù)集x和標(biāo)記字段y隨機(jī)分配成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。
1.2.1 降采樣
之前遇到的機(jī)器學(xué)習(xí)問題,使用的數(shù)據(jù)集中黑白樣本基本都是一個(gè)數(shù)量級(jí),常見的分類算法都可以在這種情況下正常工作。但是也有一類問題,黑白樣本的比例完全失衡,反欺詐領(lǐng)域的數(shù)據(jù)就是這樣,黑樣本甚至不到白樣本的1%。這個(gè)時(shí)候常見的分類算法會(huì)偏向數(shù)據(jù)量占絕對(duì)優(yōu)勢(shì)的一方。為了避免這種情況發(fā)生,人們提出了降采樣。所謂的降采樣,就是從數(shù)據(jù)量占優(yōu)勢(shì)的數(shù)據(jù)集中隨機(jī)選取一定數(shù)量的樣本,通常選擇的數(shù)量與數(shù)據(jù)量小的樣本數(shù)量相當(dāng)。在這次選取的數(shù)據(jù)集中,欺詐數(shù)據(jù)屬于黑樣本,數(shù)量非常稀少,僅有數(shù)百個(gè);正常交易的數(shù)據(jù)屬于白樣本,數(shù)量達(dá)到了近30萬,本文隨機(jī)從白樣本選擇與黑樣本數(shù)量相同的白樣本,這樣就得到了黑白樣本均衡的數(shù)據(jù)集[16]。降采樣獲得黑白樣本均衡的數(shù)據(jù)集流程為:
1)獲取黑樣本的數(shù)量以及對(duì)應(yīng)的索引。
2)獲取白樣本對(duì)應(yīng)的索引,并隨機(jī)選取與黑樣本數(shù)量相同的白樣本索引。
3)使用ENN降采樣技術(shù)從整數(shù)或一維數(shù)組里選取內(nèi)容,作為新的白樣本。
4)將黑樣本和隨機(jī)選擇的白樣本重新組合成新的樣本集合。
5)從新的樣本隨機(jī)分配成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。
1.2.2 過采樣
解決黑白樣本不均衡的問題還有一種方式叫做過采樣。與劫富濟(jì)貧的降采樣相反,過采用保留數(shù)量占優(yōu)勢(shì)的樣本,通過一定的算法,在數(shù)量較少樣本的基礎(chǔ)上生成新樣本。在這次數(shù)據(jù)處理中,保留白樣本,通過一定的算法,在原有黑樣本的基礎(chǔ)上生成新的黑樣本,最終形成的樣本同樣可以達(dá)到黑白樣本均衡[17]。過采樣獲得黑白樣本均衡的數(shù)據(jù)集流程為:
1)隨機(jī)選定n個(gè)少類的樣本A。
2)使用SMOTE過采樣技術(shù)對(duì)少類樣本A再找出最靠近它的m個(gè)少類樣本B。
3)任選最鄰近樣本B中的m個(gè)少類樣本C,在樣本B和樣本C上任選一點(diǎn),這點(diǎn)就是新增的數(shù)據(jù)黑樣本。
4)將黑樣本和白樣本重新組合成新的樣本集合。
5)從新的樣本隨機(jī)分配成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。
1.2.3 基于改進(jìn)的SMOTE+ENN混合采樣
對(duì)于不平衡數(shù)據(jù)的處理方法主要通過降采樣和過采樣來對(duì)數(shù)據(jù)進(jìn)行平衡。過采樣方法會(huì)增加冗余數(shù)據(jù),可能存在過擬合問題,會(huì)導(dǎo)致數(shù)據(jù)分布不合理甚至?xí)撾x真實(shí)情況。降采樣方法會(huì)導(dǎo)致數(shù)據(jù)集中有用的數(shù)據(jù)信息可能丟失。本文將2種采樣方法結(jié)合起來,利用各自的優(yōu)點(diǎn)提出一種基于改進(jìn)的SMOTE+ENN的混合采樣方法。使用SMOTE過采樣方法通過增加隨機(jī)噪聲方式來改善過擬合問題,但該方法沒有考慮周邊樣本的情況,很容易造成無用的信息或者噪聲,導(dǎo)致類內(nèi)重疊增大。因此本文引入KB-mean聚類算法對(duì)SMOTE方法進(jìn)行改進(jìn),提升其對(duì)少數(shù)類樣本的采樣性能。通過將過采樣和降采樣兩者結(jié)合起來,首先使用ENN降采樣對(duì)多數(shù)類進(jìn)行降采樣,然后使用改進(jìn)后的SMOTE過采樣對(duì)少數(shù)類進(jìn)行過采樣,可以有效地在均衡數(shù)據(jù)的同時(shí)消除掉過多的類間重疊樣本[18]?;诟倪M(jìn)的SMOTE+ENN混合采樣流程如圖3所示。
圖3 基于改進(jìn)的SMOTE+ENN混合采樣算法流程圖
基于KB-mean聚類算法的SMOTE過采樣算法方法,首先使用KB-mean聚類算法對(duì)少數(shù)類樣本進(jìn)行聚類處理,然后根據(jù)聚類的區(qū)域進(jìn)行相關(guān)數(shù)據(jù)的插入來增加樣本數(shù)據(jù),這樣可以很好地解決邊界模糊問題。主要處理步驟如下:
1)采用KB-mean聚類算法對(duì)少數(shù)類樣本進(jìn)行聚類處理,獲得少數(shù)類樣本數(shù)據(jù)中各簇的分布情況。
2)計(jì)算每個(gè)簇的簇心,每一個(gè)聚類的簇心為{a1,a2,…,an}。
3)在簇心與簇內(nèi)樣本的連線上進(jìn)行人工樣本生成。新插入數(shù)據(jù)公式為:
Xnew=ai+rand(0,1)×(X-ai) ,i=1,2,…,N,X∈ai
(1)
其中,Xnew為新插入的樣本,ai為簇心,X是以ai為簇心聚類的原始樣本;rand(0,1)表示0與1之間的隨機(jī)數(shù)。
1.3.1 XGBoost分類算法
XGBoost分類算法是梯度提升決策樹(Gradient Boost Decision Treet, GBDT)算法的一種串行集成算法。其基學(xué)習(xí)器通常選擇決策樹模型,通過不斷迭代生成新樹學(xué)習(xí)真實(shí)值與當(dāng)前所有樹預(yù)測值的殘差,將所有樹的結(jié)果累加作為最終結(jié)果,以此獲取盡可能高的分類準(zhǔn)確率[19]。
XGBoost算法將模型的表現(xiàn)與運(yùn)算速度的平衡引入目標(biāo)函數(shù),在求解目標(biāo)函數(shù)時(shí)對(duì)其做二階泰勒展開,以此加快求解速度,減少模型運(yùn)行時(shí)間;同時(shí)引入正則化控制模型復(fù)雜度,避免過擬合[20]。
假設(shè)有n個(gè)樣本和m個(gè)特征的樣本集D={(xi,yi|xi∈Rm,yi∈R)},其模型預(yù)測值為:
(2)
檢測模型的目標(biāo)函數(shù)為:
(3)
其中,θ={f1,f2,…,fk};l指損失函數(shù);Ω指正則化項(xiàng)。
目標(biāo)函數(shù)包含2個(gè)部分,即損失函數(shù)和正則化項(xiàng)。第1部分的自身損失函數(shù)使用泰勒式展開,使用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)進(jìn)行優(yōu)化,以提高速度和準(zhǔn)確率[21]。在第t步迭代優(yōu)化目標(biāo)函數(shù)時(shí),在現(xiàn)有t-1棵樹的基礎(chǔ)上添加1棵最優(yōu)化的ft,損失函數(shù)變?yōu)椋?/p>
(4)
其中,gi為損失函數(shù)的一階導(dǎo)數(shù);hi為損失函數(shù)的二階導(dǎo)數(shù)。
第2部分是正則化函數(shù),通過正則化懲罰項(xiàng)來降低過擬合的風(fēng)險(xiǎn)[20]。正則化函數(shù)為:
(5)
其中,T為每棵樹葉子節(jié)點(diǎn)的個(gè)數(shù);w為葉子權(quán)重;Υ與λ為懲罰系數(shù)。
1.3.2 信用卡欺詐檢測模型構(gòu)建
基于改進(jìn)的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測模型是一種混合采樣的XGBoost信用卡欺詐檢測模型,并通過對(duì)XGBoost算法中的參數(shù)進(jìn)行優(yōu)化來提升檢測模型的性能,模型的檢測過程如圖4所示。
圖4 基于改進(jìn)的SMOTE+ENN混合采用和XGBoost分類算法的信用卡欺詐檢測流程
針對(duì)信用卡欺詐檢測效率低、準(zhǔn)確度不高情況,本文采用基于XGBoost的信用卡欺詐檢測模型進(jìn)行分類。XGBoost是一種集成學(xué)習(xí)方法,其基本思想是將多個(gè)具有較低分類準(zhǔn)確率的樹模型進(jìn)行組合得到一個(gè)準(zhǔn)確率很高的模型。XGBoost在代價(jià)函數(shù)中增加了用于控制模型復(fù)雜度的正則項(xiàng),可以防止信用卡交易欺詐檢測時(shí)過擬合問題[12]。同時(shí)為了使XGBoost預(yù)測模型能夠達(dá)到很好的檢測效果,采用網(wǎng)格調(diào)參的方式對(duì)XGBoost算法中各參數(shù)進(jìn)行優(yōu)化。針對(duì)信用卡交易數(shù)據(jù)黑白樣本極不平衡情況,本文選用改進(jìn)的SMOTE+ENN混合采樣模型對(duì)不平衡數(shù)據(jù)進(jìn)行處理,來解決由不平衡數(shù)據(jù)帶來的過擬合及噪聲問題。
假定原始Credit Card Fraud Detection數(shù)據(jù)集數(shù)據(jù)集為X,其中通過標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)處理的真實(shí)數(shù)據(jù)集為N,多數(shù)類的正常交易樣本集為Xmaj,少數(shù)類的欺詐交易樣本集為Xmin,經(jīng)過改進(jìn)的SMOTE+ENN混合采樣器為M,混合采樣處理后的平衡數(shù)據(jù)集為D,訓(xùn)練集為Y,測試集為T,優(yōu)化后的XGBoost分類器Z。基于改進(jìn)的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測模型的算法步驟為:
1)通過對(duì)原始數(shù)據(jù)集X進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理,剔除冗余不相關(guān)特征,得到特征篩選后的真實(shí)數(shù)據(jù)集N。
2)將真實(shí)數(shù)據(jù)集N按照樣本類型分成少數(shù)類樣本Xmin,多數(shù)類樣本Xmaj。
3)使用KB-mean聚類算法對(duì)少數(shù)類樣本Xmin進(jìn)行聚類處理,得到聚類樣本Xminkb。
4)使用SMOTE過采樣對(duì)聚類樣本Xminkb進(jìn)行過采樣處理,得到過采樣樣本Xminkbsmote。
5)使用ENN降采樣對(duì)多數(shù)類樣本Xmaj進(jìn)行降采樣處理,得到降采樣樣本Xmajenn;
6)將以上混合采樣的降采樣Xmajenn和過采樣Xminkbsmote數(shù)據(jù)進(jìn)行組合得到平衡數(shù)據(jù)集。
7)對(duì)平衡數(shù)據(jù)集D進(jìn)行樣本劃分,隨機(jī)劃分成訓(xùn)練集Y和測試集T。
8)采用網(wǎng)格調(diào)參的方式對(duì)XGBoost算法中各參數(shù)進(jìn)行優(yōu)化,得到分類器Z。
9)使用分類器Z在訓(xùn)練集Y上訓(xùn)練,獲得模型數(shù)據(jù)。
10)使用模型數(shù)據(jù)在測試集T上進(jìn)行預(yù)測,得到預(yù)測結(jié)果。
實(shí)驗(yàn)選取了從Credit Card Fraud Detection數(shù)據(jù)集中284807條交易數(shù)據(jù)(其中492條欺詐數(shù)據(jù))作為實(shí)驗(yàn)數(shù)據(jù)來源[23]。將樣本集按照隨機(jī)分配因子從0.1~0.9分配訓(xùn)練樣本集和測試樣本集共9份。采用九折交叉驗(yàn)證法重復(fù)實(shí)驗(yàn)驗(yàn)證9次,最后對(duì)9次實(shí)驗(yàn)結(jié)果采用計(jì)算平均值來評(píng)估檢測模型的檢測能力,具體如表1所示。
表1 訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)樣本數(shù)
在對(duì)信用卡欺詐行為進(jìn)行檢測時(shí),可能出現(xiàn)以下4種情況,如表2所示。在實(shí)驗(yàn)中,T表示信用卡正常使用行為,M表示信用卡欺詐行為[24]。
表2 信用卡欺詐檢測判別表
在表2中,TP表示預(yù)測當(dāng)前是信用卡正常使用行為,實(shí)際上也是信用卡正常使用行為;FN表示預(yù)測當(dāng)前是信用卡欺詐行為,實(shí)際上是信用卡正常使用行為;FP表示預(yù)測當(dāng)前是信用卡正常使用行為,實(shí)際上是信用卡欺詐行為;TN表示預(yù)測當(dāng)前是信用卡欺詐行為,實(shí)際上是信用卡欺詐行為。
對(duì)于傳統(tǒng)的分類算法,一般采用特定度、靈敏度作為評(píng)價(jià)指標(biāo),然而對(duì)于不平衡數(shù)據(jù)集,用特定度、靈敏度、準(zhǔn)確度來評(píng)價(jià)分類器的性能是不準(zhǔn)確的。本實(shí)驗(yàn)中對(duì)于不平衡數(shù)據(jù)分類采用準(zhǔn)確率、精準(zhǔn)率、召回率、F1和AUC作為分類器性能好壞的評(píng)價(jià)指標(biāo)[25]。
1)準(zhǔn)確率:
2)精準(zhǔn)率:
3)召回率:
4)F1:表示一種綜合考慮信用卡欺詐行為檢測的查全率和查準(zhǔn)率的指標(biāo),綜合衡量信用卡欺詐分類性能指標(biāo)[26],即:
5)AUC:表示不平衡數(shù)據(jù)分類問題中最經(jīng)常采用的度量指標(biāo),在衡量XGBoost算法在不平衡數(shù)據(jù)上的整體分類性能。本次實(shí)驗(yàn)中采用量化的AUC指標(biāo)來衡量,AUC指標(biāo)越接近于1,則反映出分類器的分類效果越好[27]。
2.3.1 未進(jìn)行不平衡數(shù)據(jù)處理實(shí)驗(yàn)分析
將不平衡數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理后未采用任何不平衡數(shù)據(jù)處理技術(shù)進(jìn)行輸出,直接使用XGBoost分類算法、樸素貝葉斯分類算法、多層感知機(jī)、隨機(jī)森林算法、極限學(xué)習(xí)機(jī)這5種分類算法對(duì)上述隨機(jī)分配的9類訓(xùn)練集進(jìn)行訓(xùn)練生成分類器,最后對(duì)隨機(jī)分配的9類測試集進(jìn)行檢測[28],整個(gè)檢測系統(tǒng)的TP、FP、TN、FN、準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、AUC值實(shí)驗(yàn)結(jié)果如表3所示。
表3 未進(jìn)行不平衡數(shù)據(jù)處理下不同分類算法實(shí)驗(yàn)結(jié)果
由表3可知,在沒有對(duì)不平衡數(shù)據(jù)進(jìn)行任何處理的情況下,5種分類算法對(duì)信用卡欺詐數(shù)據(jù)檢測出來的5個(gè)評(píng)價(jià)指標(biāo)準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、ACU值表現(xiàn)的性能也有所不同。因正向數(shù)據(jù)偏多,準(zhǔn)確識(shí)別正向數(shù)據(jù)的概率都能準(zhǔn)確識(shí)別出來,因此準(zhǔn)確率都相差不大。但從精準(zhǔn)率、召回率、F1值、AUC值4個(gè)評(píng)價(jià)指標(biāo)綜合考慮,XGBoost算法的信用卡欺詐檢測方法要明顯優(yōu)于其他4種分類算法檢測方法,精準(zhǔn)率約為0.93,召回率約為0.77,F(xiàn)1值約為0.84,AUC值約為0.88。結(jié)果表明,使用XGBoost算法相對(duì)其他2種分類算法更能夠準(zhǔn)確檢測出信用卡欺詐行為。
2.3.2 多種不平衡數(shù)據(jù)處理方法實(shí)驗(yàn)分析
表3實(shí)驗(yàn)結(jié)果為對(duì)不平衡數(shù)據(jù)未進(jìn)行任何處理得到的實(shí)驗(yàn)結(jié)果,從實(shí)驗(yàn)結(jié)果可以看出,召回率、F1值、ACU值性能不是很理想。因此對(duì)不平衡數(shù)據(jù)進(jìn)行降采樣、過采樣、SMOTE+ENN、SMOTE+Tomeklink、改進(jìn)的SMOTE+Tomeklink、改進(jìn)的SMOTE+ENN這6種不平衡數(shù)據(jù)處理方法進(jìn)行數(shù)據(jù)不平衡處理,然后使用XGBoost分類算法對(duì)上述隨機(jī)分配的9類訓(xùn)練集進(jìn)行訓(xùn)練生成分類器,最后對(duì)隨機(jī)分配的9類測試集進(jìn)行檢測,整個(gè)檢測系統(tǒng)的TP、FP、TN、FN、準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、AUC值實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同不平衡數(shù)據(jù)處理方法下XGBoost分類算法實(shí)驗(yàn)結(jié)果
從表4實(shí)驗(yàn)結(jié)果可以看出,采用改進(jìn)的SMOTE+ENN混合采樣的不平衡數(shù)據(jù)處理方法得到的數(shù)據(jù)集輸入到XGBoost分類器中得到的檢測效果要比其他單一采樣或者組合采樣的檢測效果更佳,該采樣方法的實(shí)驗(yàn)結(jié)果準(zhǔn)確率約為0.99,精準(zhǔn)率約為0.97,召回率約為0.93,F(xiàn)1值約為0.95,AUC值約為0.95。通過對(duì)不同不平衡數(shù)據(jù)處理方法的數(shù)據(jù)集進(jìn)行各項(xiàng)檢測評(píng)價(jià)指標(biāo)對(duì)比分析,基于改進(jìn)的SMOTE+ENN采樣的不平衡數(shù)據(jù)處理技術(shù)比傳統(tǒng)的單一降采樣、過采樣及單純的組合采樣下的不平衡數(shù)據(jù)處理方法在檢測信用卡欺詐行為中更能體現(xiàn)優(yōu)勢(shì)?;诟倪M(jìn)的SMOTE+ENN混合采樣不平衡數(shù)據(jù)處理技術(shù)不僅提高了信用卡欺詐行為不平衡數(shù)據(jù)的區(qū)分度,還提高了不平衡數(shù)據(jù)的計(jì)算性能和準(zhǔn)確性。
2.3.3 基于改進(jìn)的SMOTE+ENN混合采樣的不同分類算法實(shí)驗(yàn)分析
從表4中可以看出采樣改進(jìn)的SMOTE+ENN混合采樣的不平衡數(shù)據(jù)處理方法對(duì)于信用卡欺詐行為的檢測效果更佳。本文再將其處理后的平衡數(shù)據(jù)集輸入到XGBoost分類算法、樸素貝葉斯分類算法、多層感知機(jī)、隨機(jī)森林算法、極限學(xué)習(xí)機(jī)不同分類器中訓(xùn)練,驗(yàn)證本文提出的基于改進(jìn)的SMOTE+ENN混合采樣的XGoost算法的有效性和準(zhǔn)確性,實(shí)驗(yàn)結(jié)果如表5所示。
表5 改進(jìn)的SMOTE+ENN混合采樣下不同分類算法實(shí)驗(yàn)結(jié)果
從表5實(shí)驗(yàn)結(jié)果可以看出,基于改進(jìn)的SMOTE+ENN混合采樣和XGoost算法的信用卡欺詐檢測方法比其他4種分類算法在準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、AUC值5種評(píng)價(jià)指標(biāo)上表現(xiàn)的更佳。驗(yàn)證了本文提出的基于改進(jìn)的SMOTE+ENN混合采樣的XGoost算法的有效性和準(zhǔn)確性,更能準(zhǔn)確有效地檢測出信用卡欺詐行為,能為用戶提供很好的監(jiān)測預(yù)警服務(wù)。
本文主要聚焦在信用卡欺詐行為檢測這一非常具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)問題上,對(duì)不平衡數(shù)據(jù)處理技術(shù)、機(jī)器學(xué)習(xí)分類技術(shù)等方面研究。以Credit Card Fraud Detection為數(shù)據(jù)集,針對(duì)信用卡欺詐的檢測技術(shù),使用特征提取方法為標(biāo)準(zhǔn)化,以及基于標(biāo)準(zhǔn)化基礎(chǔ)上的降采樣、過采樣、SMOTE+ENN、SMOTE+Tomeklink、改進(jìn)的SMOTE+Tomeklink、改進(jìn)的SMOTE+ENN對(duì)不平衡數(shù)據(jù)進(jìn)行處理,后將數(shù)據(jù)集輸入到XGBoost算法、多層感知機(jī)、樸素貝葉斯算法、隨機(jī)森林算法、極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練。經(jīng)過對(duì)比發(fā)現(xiàn),當(dāng)使用相同的特征提取方式時(shí),基于改進(jìn)的SMOTE+ENN混合采樣的XGBoost算法的信用卡欺詐檢測模型總體表現(xiàn)優(yōu)于其他4種分類算法和5種采樣方法,檢測模型的準(zhǔn)確率約為0.99,精準(zhǔn)率約為0.97,召回率約為0.93,F(xiàn)1值約為0.95,AUC值約為0.95。此檢測方法可顯著提高金融機(jī)構(gòu)對(duì)信用卡欺詐行為的檢測效率,同時(shí)給用戶和金融機(jī)構(gòu)提供很好的預(yù)警效果。