国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

WKAG:一種針對(duì)不平衡醫(yī)保數(shù)據(jù)的欺詐檢測方法

2021-05-14 06:29吳文龍王保全
關(guān)鍵詞:數(shù)據(jù)分布集上欺詐

吳文龍,周 喜,王 軼,王保全

1.中國科學(xué)院 新疆理化技術(shù)研究所,烏魯木齊830011

2.中國科學(xué)院大學(xué),北京100049

3.新疆民族語音語言信息處理實(shí)驗(yàn)室,烏魯木齊830011

我國對(duì)人民生命健康的保障制度日益完善,醫(yī)療保險(xiǎn)參保人數(shù)已超過13 億,但是,醫(yī)療保險(xiǎn)普及的同時(shí),也引發(fā)了很多醫(yī)保詐騙行為,每年造成的經(jīng)濟(jì)損失高達(dá)數(shù)億元[1]。對(duì)醫(yī)保欺詐進(jìn)行有效檢測成為一項(xiàng)迫切且富有意義的研究工作。

2017年,中國社會(huì)保險(xiǎn)學(xué)會(huì)聯(lián)合人社部信息中心等部門,指導(dǎo)舉辦了“全國社會(huì)保險(xiǎn)大數(shù)據(jù)應(yīng)用創(chuàng)新大賽”,其中就包括對(duì)醫(yī)保欺詐違規(guī)行為的檢測識(shí)別。競賽成績較好的隊(duì)伍主要采取在構(gòu)造大量特征的基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)的方法對(duì)醫(yī)保欺詐數(shù)據(jù)進(jìn)行檢測,但是由于受限于業(yè)務(wù)背景知識(shí)的掌握,構(gòu)造的特征會(huì)出現(xiàn)重疊或者無效的情況。

醫(yī)保欺詐檢測實(shí)際上屬于二分類問題,把數(shù)據(jù)分為正常數(shù)據(jù)和欺詐數(shù)據(jù),然后選擇合適的算法模型對(duì)欺詐記錄數(shù)據(jù)進(jìn)行檢測發(fā)現(xiàn)[2]。在醫(yī)療保險(xiǎn)數(shù)據(jù)中,欺詐人數(shù)占比很小,欺詐數(shù)據(jù)量和正常數(shù)據(jù)量差別較大,數(shù)據(jù)不平衡問題極大地影響了很多已有欺詐識(shí)別方法的效果。當(dāng)前雖然有欠采樣(Under-Sampling)或者過采樣(Over-Sampling)方法用于改善這種數(shù)據(jù)不平衡問題,但是欠采樣方法容易丟失重要的數(shù)據(jù),而過采樣方法容易導(dǎo)致模型過擬合[3]。合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)在一定程度上避免了信息損失和過擬合的問題,但是會(huì)增加數(shù)據(jù)中不同類之間重疊的可能性,容易出現(xiàn)過度泛化的問題[4]。

針對(duì)上述對(duì)現(xiàn)有問題的分析,本文提出了一種針對(duì)不平衡醫(yī)保數(shù)據(jù)的欺詐檢測方法——WKAG。首先,不同于傳統(tǒng)的采樣方法,本文基于現(xiàn)有欺詐數(shù)據(jù)使用生成模型生成高置信度的仿真欺詐數(shù)據(jù),避免出現(xiàn)信息損失以及過擬合問題。其中,通過使用核密度估計(jì)(Kernel Density Estimation,KDE)[5]改變Wasserstein Generative Adversarial Network(WGAN)[6]噪聲數(shù)據(jù)的構(gòu)成,以此來進(jìn)一步提高網(wǎng)絡(luò)生成數(shù)據(jù)的質(zhì)量,對(duì)不平衡數(shù)據(jù)進(jìn)行重新構(gòu)建。在數(shù)據(jù)特征表示方面,本文針對(duì)特征構(gòu)造困難的問題,使用Auto-Encoder[7]來對(duì)數(shù)據(jù)進(jìn)行自編碼特征表示,最后使用構(gòu)建表示后的數(shù)據(jù)對(duì)Gradient Boosted Decision Tree(GBDT)[8]分類預(yù)測模型進(jìn)行訓(xùn)練,并將訓(xùn)練完成的模型應(yīng)用于原始的不平衡醫(yī)保數(shù)據(jù)集上,對(duì)欺詐數(shù)據(jù)進(jìn)行檢測發(fā)現(xiàn)。

1 相關(guān)工作

目前中西方學(xué)者主要從數(shù)據(jù)挖掘的角度來開展欺詐檢測的相關(guān)研究工作[9]。

Liou等人[10]針對(duì)臺(tái)灣的健康保險(xiǎn)系統(tǒng)數(shù)據(jù),使用了邏輯回歸、決策樹和神經(jīng)網(wǎng)絡(luò)三種數(shù)據(jù)挖掘技術(shù)來進(jìn)行數(shù)據(jù)異常的檢測發(fā)現(xiàn)。Bauder 等人[11]使用欠采樣以及過采樣方法在無監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)以及混合機(jī)器學(xué)習(xí)方法上進(jìn)行醫(yī)保欺詐檢測實(shí)驗(yàn),結(jié)果表明欠采樣方法表現(xiàn)優(yōu)于過采樣方法。Fiore 等人[12]在信用卡不平衡數(shù)據(jù)集上使用對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[13]來對(duì)少量的異常樣本進(jìn)行擴(kuò)充,實(shí)驗(yàn)證明,相比于SMOTE,GAN 對(duì)不平衡樣本的處理效果更好。GAN雖然可以通過生成新的數(shù)據(jù)來改善數(shù)據(jù)不平衡問題,但是模型在訓(xùn)練時(shí)容易出現(xiàn)模式崩潰的現(xiàn)象,無法保證生成數(shù)據(jù)的多樣性,而WGAN 則可以避免這一問題[14]。Sethia等人[15]使用WGAN結(jié)合人工神經(jīng)網(wǎng)絡(luò)模型來對(duì)信用卡欺詐數(shù)據(jù)進(jìn)行檢測發(fā)現(xiàn)。曹魯慧等人[16]針對(duì)醫(yī)保數(shù)據(jù)不平衡問題和時(shí)間分布不均問題,使用TLSTM 方法對(duì)用戶欺詐的可能性進(jìn)行判斷,這種方法要求數(shù)據(jù)要保證具有較長的時(shí)間跨度,不適用于時(shí)間周期較短或者不連續(xù)的數(shù)據(jù)。

數(shù)據(jù)特征表示對(duì)最終的欺詐檢測效果影響很大。Gao等人[17]通過對(duì)歷史數(shù)據(jù)統(tǒng)計(jì)分析并選擇相關(guān)特征對(duì)用戶進(jìn)行分組,從而避免醫(yī)療保險(xiǎn)理賠數(shù)據(jù)中個(gè)人數(shù)據(jù)稀疏的問題。Herland等人[18]通過人工選擇醫(yī)保數(shù)據(jù)集中的某些特定特征,并采用計(jì)算平均值、總和、中位數(shù)等聚合方式增加新特征。Pouramirarsalani 等人[19]提出了一種基于混合特征選擇和遺傳算法的欺詐檢測方法,在電子銀行欺詐檢測方面取得了不錯(cuò)的效果。Li 等人[20]提出了一種構(gòu)建欺詐檢測模型的方法,該方法在人工特征工程的基礎(chǔ)上,結(jié)合GBDT 和Gate Recurrent Unit(GRU)對(duì)特征進(jìn)行優(yōu)化,最后使用隨機(jī)森林分類模型進(jìn)行訓(xùn)練預(yù)測。

雖然目前關(guān)于欺詐檢測的研究已經(jīng)取得了一定進(jìn)展,但是對(duì)于欺詐檢測中數(shù)據(jù)不平衡問題并沒有很好地解決方案,而且對(duì)數(shù)據(jù)的特征構(gòu)造過于依賴人工以及和業(yè)務(wù)知識(shí)相關(guān)的先驗(yàn)經(jīng)驗(yàn)。因此本文考慮使用生成仿真數(shù)據(jù)的方式對(duì)數(shù)據(jù)不平衡問題進(jìn)行改善,結(jié)合深度學(xué)習(xí)模型基于數(shù)據(jù)本身進(jìn)行特征表示并由此提出一種針對(duì)不平衡醫(yī)保數(shù)據(jù)的檢測方法。

2 欺詐檢測方法

本文提出的醫(yī)保欺詐檢測方法WKAG主要包括以下三方面內(nèi)容:(1)WGAN-KDE數(shù)據(jù)構(gòu)建;(2)自編碼特征增強(qiáng)表示;(3)GBDT欺詐分類檢測。圖1為本文欺詐檢測方法的總體流程。

2.1 數(shù)據(jù)的構(gòu)建方法

針對(duì)醫(yī)保數(shù)據(jù)中欺詐數(shù)據(jù)和正常數(shù)據(jù)不平衡問題,本文使用WGAN-KDE 在現(xiàn)有欺詐數(shù)據(jù)的基礎(chǔ)上進(jìn)行仿真數(shù)據(jù)生成,對(duì)不平衡數(shù)據(jù)重新構(gòu)建。

2.1.1 生成式對(duì)抗網(wǎng)絡(luò)

GAN模型包括生成器(G,Generator Model)和判別器(D,Discriminative Model)。生成器最大化生成和真實(shí)數(shù)據(jù)相似的樣本,判別器則對(duì)生成樣本和真實(shí)數(shù)據(jù)加以判別,當(dāng)判別器無法正確區(qū)分生成樣本和真實(shí)數(shù)據(jù)時(shí),此時(shí)的生成樣本就和真實(shí)數(shù)據(jù)高度相似。對(duì)抗神經(jīng)網(wǎng)絡(luò)模型的計(jì)算過程如圖2所示。雖然GAN利用零和博弈理論定義了新的生成模型,但是在訓(xùn)練時(shí)會(huì)存在梯度消失和模型崩潰的問題。針對(duì)這一問題,WGAN 使用了Wasserstein Distance 作為距離度量并將其轉(zhuǎn)化為優(yōu)化問題,徹底解決了模型訓(xùn)練不穩(wěn)定的問題,同時(shí)也基本避免了崩潰模式的發(fā)生,保證生成數(shù)據(jù)的多樣性。生成式對(duì)抗網(wǎng)絡(luò)作為一種生成模型,可以用于仿真數(shù)據(jù)的生成,彌補(bǔ)數(shù)據(jù)不足的問題。

圖1 WKAG方法總體流程

圖2 GAN計(jì)算過程

2.1.2 非參數(shù)核密度估計(jì)

KDE 是一種非參數(shù)檢驗(yàn)方法,可以基于數(shù)據(jù)本身的分布特點(diǎn),在對(duì)數(shù)據(jù)分布沒有預(yù)先作出假設(shè)的情況下,進(jìn)行擬合預(yù)估。假設(shè)同分布數(shù)據(jù)x1,x2,…,xn,對(duì)于任意樣本x處的總體概率密度函數(shù)fh(x) 可以表示為:

其中,n代表樣本數(shù)據(jù)量個(gè)數(shù),h代表平滑系數(shù),K(·)是核函數(shù)。

2.1.3 WGAN-KDE

GAN 中隨機(jī)噪聲數(shù)據(jù)可以提高網(wǎng)絡(luò)的泛化性能,避免模型出現(xiàn)過擬合問題,但是沒有考慮到真實(shí)樣本的分布狀態(tài),對(duì)數(shù)據(jù)的生成效果難以控制。在此基礎(chǔ)上,本文考慮基于醫(yī)保數(shù)據(jù)的數(shù)據(jù)分布來引入噪聲數(shù)據(jù)。

獲取數(shù)據(jù)分布可以使用參數(shù)方法和非參數(shù)方法。目前常用的參數(shù)方法往往是根據(jù)先驗(yàn)知識(shí),對(duì)數(shù)據(jù)的總體分布作出一個(gè)合理的假設(shè)(例如:正態(tài)分布、高斯分布等),但是實(shí)際情況下往往不能保證數(shù)據(jù)的實(shí)際分布符合假設(shè)的情況。核密度估計(jì)作為一種非參數(shù)方法,幾乎不需要對(duì)數(shù)據(jù)的總體作出任何的假設(shè)條件,可以適用于多種類型的數(shù)據(jù)。因此可以使用KDE對(duì)數(shù)據(jù)分布進(jìn)行估計(jì)。

(1)核密度估計(jì)噪聲

對(duì)欺詐樣本S={x1,x2,…,xn} ,使用KDE構(gòu)建S的概率密度模型,考慮到本文關(guān)注的是欺詐樣本總體的分布情況,而高斯核可以使得估計(jì)的分布更加平滑,因此選用高斯核作為核函數(shù)。fh(x)可以進(jìn)一步表示為:

本文基于數(shù)據(jù)的分布引入部分噪聲數(shù)據(jù)Nk,使用WGAN-KDE 用于少數(shù)類數(shù)據(jù)生成擴(kuò)充,模型的計(jì)算過程如圖3所示。

圖3 WGAN-KDE計(jì)算過程

(2)數(shù)據(jù)生成質(zhì)量控制

WGAN中Nw可以保證算法的泛化性能,但是無法兼顧數(shù)據(jù)實(shí)際分布特點(diǎn)。Nk雖然兼顧實(shí)際數(shù)據(jù)的分布,但是過多地引入會(huì)引起模型的過擬合問題。合理結(jié)合使用Nw和Nk對(duì)最終的數(shù)據(jù)生成質(zhì)量影響很大。

一方面,為了對(duì)仿真數(shù)據(jù)的生成效果進(jìn)行評(píng)估,計(jì)算仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的相似程度,本文具體方法如下:對(duì)真實(shí)數(shù)據(jù)S添加標(biāo)簽0,對(duì)生成的仿真數(shù)據(jù)G(N)添加標(biāo)簽1。使用GBDT分類器對(duì)真實(shí)數(shù)據(jù)S和生成的仿真數(shù)據(jù)G(N)進(jìn)行分類。理想情況下,生成的仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)高度一致,這樣分類器無法正確區(qū)分,此時(shí)分類效果應(yīng)為0.5。

另一方面,對(duì)數(shù)據(jù)多樣性的保證也至關(guān)重要。使用分類器可以量化評(píng)估仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)的相似度,但可能會(huì)出現(xiàn)在較為理想的分類效果下,仿真數(shù)據(jù)只學(xué)習(xí)了少部分真實(shí)數(shù)據(jù)的問題。數(shù)據(jù)生成的多樣性可以更為全面地表現(xiàn)原有的欺詐數(shù)據(jù),對(duì)不平衡數(shù)據(jù)的重新構(gòu)建結(jié)果有極大影響。所以本文針對(duì)這一問題,對(duì)真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)進(jìn)行可視化展示,直觀地觀察仿真數(shù)據(jù)生成的效果。

本文綜合考慮分類器的量化指標(biāo)以及可視化結(jié)果,對(duì)生成的仿真數(shù)據(jù)進(jìn)行選擇??紤]到實(shí)際情況下很難達(dá)到0.5的分類效果,因此本文設(shè)置一個(gè)控制區(qū)間Δ,選擇分類效果區(qū)間在0.5±Δ之間的仿真數(shù)據(jù),結(jié)合其數(shù)據(jù)分布效果圖,選擇數(shù)據(jù)多樣性較高的仿真數(shù)據(jù)用于對(duì)欺詐數(shù)據(jù)的擴(kuò)充。

定義仿真數(shù)據(jù)和真實(shí)欺詐數(shù)據(jù)的相似距離E:

(3)WGAN-KDE算法

綜合以上對(duì)數(shù)據(jù)生成質(zhì)量控制的分析,設(shè)定一個(gè)噪聲融合比例λ,表示Nk和Nw之間的比例關(guān)系,最后融合的噪聲N可以表示為:

本文使用醫(yī)保欺詐樣本數(shù)據(jù)對(duì)WGAN-KDE 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終得到高置信度的仿真欺詐數(shù)據(jù)并且將這些仿真數(shù)據(jù)加入到原始醫(yī)保數(shù)據(jù)中,平衡數(shù)據(jù)分布,克服數(shù)據(jù)不平衡對(duì)模型訓(xùn)練的影響,提高訓(xùn)練效果。WGAN-KDE的詳細(xì)步驟如下所示:

輸入:欺詐樣本數(shù)據(jù)S={x1,x2,…,xn} ,分類控制區(qū)間ΔForλ=0 to 1

(1)使用KDE獲取S的數(shù)據(jù)分布Distrubution(S)

(2)Distrubution(S)生成噪聲數(shù)據(jù)Nk

(3)將Nk以λ的比例加入到WGAN 的原有隨機(jī)噪聲數(shù)據(jù)中,生成新的噪聲數(shù)據(jù)N

(4)G接受噪聲數(shù)據(jù)N,生成仿真數(shù)據(jù)G(N)

(5)D對(duì)G生成的仿真數(shù)據(jù)G(N)和真實(shí)數(shù)據(jù)S進(jìn)行判別

(6)若D無法正確區(qū)分仿真數(shù)據(jù)G(N)和真實(shí)數(shù)據(jù)S,算法終止,返回仿真數(shù)據(jù);否則,重復(fù)步驟(2)至(5)

(7)計(jì)算仿真數(shù)據(jù)和欺詐數(shù)據(jù)距離E

(8)λ=λ+step,其中step為更新步長

End for

(9)選擇數(shù)據(jù)分類區(qū)間pre(G(N),S)在win的數(shù)據(jù),結(jié)合數(shù)據(jù)分布可視化圖形,選擇合適λ值,記為λ*

(10)在λ*的比例噪聲下,重復(fù)步驟2至5,進(jìn)行仿真數(shù)據(jù)G(N)的生成

輸出:仿真數(shù)據(jù)G(N)

2.2 數(shù)據(jù)特征增強(qiáng)表示

在醫(yī)保欺詐數(shù)據(jù)的分類檢測任務(wù)中,數(shù)據(jù)的特征處理對(duì)最終的檢測效果影響很大。對(duì)數(shù)據(jù)進(jìn)行有效特征的構(gòu)造是一項(xiàng)十分耗時(shí)的工作,而且受限于對(duì)業(yè)務(wù)背景知識(shí)的掌握以及現(xiàn)有的分析方法,通常也無法保證所構(gòu)造特征的有效性。

自編碼器是一種無監(jiān)督的深度學(xué)習(xí)模型,模型經(jīng)過訓(xùn)練后,可以學(xué)習(xí)到數(shù)據(jù)中有效的新特征,自編碼器的結(jié)構(gòu)如圖4所示,包括編碼過程和解碼過程。在編碼階段,通過將輸入層的數(shù)據(jù)映射到隱藏層進(jìn)行維度壓縮;在解碼階段,將隱藏層的數(shù)據(jù)映射恢復(fù)到輸出層。所以可以通過對(duì)隱藏層的編碼數(shù)據(jù)進(jìn)行提取,獲取到原數(shù)據(jù)的自編碼特征,文獻(xiàn)[21]表明自編碼特征可以有效加強(qiáng)對(duì)數(shù)據(jù)特征的表示效果。

圖4 自編碼器網(wǎng)絡(luò)結(jié)構(gòu)

本文在對(duì)數(shù)據(jù)重新構(gòu)建后,使用自編碼器來獲取原數(shù)據(jù)的自編碼特征,然后將提取到的自編碼特征與原有特征結(jié)合,對(duì)數(shù)據(jù)特征增強(qiáng)表示。

對(duì)構(gòu)建后的平衡數(shù)據(jù)集D={x1,x2,…,xq} ,訓(xùn)練自編碼網(wǎng)絡(luò):

其中,z是輸入層到隱藏層的映射數(shù)據(jù),sig是sigmoid激活函數(shù),y是解碼后的數(shù)據(jù),w和w′為權(quán)重矩陣,b和b′為偏置向量。

其中,Ω為網(wǎng)絡(luò)參數(shù),Ω=w,w′,b,b′。

采用梯度下降法訓(xùn)練,迭代更新直至參數(shù)Ω收斂。

2.3 分類檢測

GBDT 是一種集成學(xué)習(xí)的方法,采用Boosting 的方式將一系列決策樹作為弱分類器進(jìn)行訓(xùn)練組合,通過梯度上升對(duì)模型不斷進(jìn)行迭代優(yōu)化,模型最終的預(yù)測結(jié)果由多個(gè)決策樹預(yù)測值加權(quán)結(jié)合得到。圖5 為GBDT 訓(xùn)練過程。

圖5 GBDT訓(xùn)練過程

當(dāng)前GBDT以其良好的性能表現(xiàn)被用于解決分類、回歸以及排序等問題,在學(xué)術(shù)界以及工業(yè)界得到了充分的認(rèn)可。本文在解決醫(yī)保數(shù)據(jù)不平衡以及特征表示問題后,將重構(gòu)表示后的數(shù)據(jù)用于GBDT 模型的訓(xùn)練,對(duì)醫(yī)保欺詐數(shù)據(jù)進(jìn)行檢測。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)與設(shè)計(jì)

本文使用的醫(yī)保數(shù)據(jù)集來自2017 年“全國社會(huì)保險(xiǎn)大數(shù)據(jù)應(yīng)用大賽”官方數(shù)據(jù),該數(shù)據(jù)樣本為部分地區(qū)以往年度的醫(yī)療保險(xiǎn)就醫(yī)結(jié)算脫敏數(shù)據(jù),包含20 000人將近兩百萬條記錄信息,其中欺詐人員有1 000 人,數(shù)據(jù)包含69個(gè)特征。另外,為了驗(yàn)證本文方法WGANKDE 在改善不平衡數(shù)據(jù)分類方面的普遍適用性,選取了Kaggle信用卡欺詐數(shù)據(jù)和KEEL[22]的2個(gè)不平衡數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證。表1 描述了實(shí)驗(yàn)所用數(shù)據(jù)集相關(guān)信息。

表1 數(shù)據(jù)集信息

本文將WGAN-KDE與隨機(jī)欠采樣(Random Under-Sampling,RUS)、SMOTE 等傳統(tǒng)方法以及WGAN 相比較,基于LR、AdaBoost 和GBDT 等不同的分類模型,在使用不同方法平衡后的數(shù)據(jù)上對(duì)模型進(jìn)行訓(xùn)練,然后基于原有的不平衡數(shù)據(jù)測試集進(jìn)行分類檢測。最后,在醫(yī)保數(shù)據(jù)集進(jìn)一步使用Auto-Encoder 對(duì)數(shù)據(jù)進(jìn)行自編碼特征增強(qiáng)表示,使用GBDT 算法進(jìn)行欺詐數(shù)據(jù)的檢測發(fā)現(xiàn)。

為了全面對(duì)不同方法做出評(píng)價(jià),本文使用召回率(Recall)、精確率(Precision)、F1、準(zhǔn)確率(Accuracy)以及AUC等多個(gè)評(píng)價(jià)指標(biāo)。

3.2 WGAN-KDE有效性的實(shí)驗(yàn)驗(yàn)證

首先,本文基于Kaggle信用卡欺詐數(shù)據(jù)集和KEEL的2 個(gè)不平衡數(shù)據(jù)對(duì)WGAN-KDE 方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。為了更為直觀地展示本文使用WGAN-KDE 生成仿真數(shù)據(jù)的效果,在每個(gè)數(shù)據(jù)集上各選取兩個(gè)特征對(duì)真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)進(jìn)行可視化展示,橫縱坐標(biāo)分別表示經(jīng)過數(shù)據(jù)處理后的特征信息,不是屬性的真實(shí)值。圖6~圖8為各數(shù)據(jù)集的仿真數(shù)據(jù)生成效果圖。

圖6 信用卡數(shù)據(jù)集數(shù)據(jù)生成效果

圖7 yeast4數(shù)據(jù)集數(shù)據(jù)生成效果

圖8 appendicitis數(shù)據(jù)集數(shù)據(jù)生成效果

根據(jù)在信用卡、yeast4 以及appendicitis 三個(gè)公開數(shù)據(jù)集上的數(shù)據(jù)生成效果圖,對(duì)各數(shù)據(jù)集的真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布進(jìn)行比較。從總體分布來看,使用WGAN-KDE生成的數(shù)據(jù)較好地還原了原本真實(shí)數(shù)據(jù)的分布特點(diǎn)和規(guī)律;從個(gè)別數(shù)據(jù)分布來看,雖然生成數(shù)據(jù)和真實(shí)數(shù)據(jù)分布基本一致,但是又不完全相同。這樣就避免了隨機(jī)欠采樣引起的關(guān)鍵信息丟失和SMOTE過采樣方法導(dǎo)致的樣本重疊問題。因此,可以考慮使用WGAN-KDE針對(duì)不平衡數(shù)據(jù)樣本中的少數(shù)類來進(jìn)行仿真數(shù)據(jù)生成,達(dá)到平衡數(shù)據(jù)分布的目的。但是,直觀的可視化表示還不足以證明WGAN-KDE方法的有效性,下面本文使用RUS、SMOTE、WGAN和WGAN-KDE等不同的方法來平衡數(shù)據(jù)分布,基于不同的分類器模型進(jìn)行訓(xùn)練比較。表2~表4 分別為基于信用卡欺詐數(shù)據(jù)、yeast4、appendicitis數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

實(shí)驗(yàn)使用五個(gè)指標(biāo)對(duì)不同的數(shù)據(jù)不平衡處理方法進(jìn)行全面評(píng)價(jià)。從信用卡欺詐數(shù)據(jù)、yeast4、appendicitis等3 個(gè)不平衡數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以看出,WGANKDE 相比于RUS、SMOTE 以及WGAN 等方法,在F1、Accuracy、AUC等綜合評(píng)價(jià)指標(biāo)上表現(xiàn)優(yōu)異。特別是在F1和Accuracy方面,WGAN-KDE在不同的分類器模型上基本都達(dá)到了最好的效果。在AUC 評(píng)價(jià)指標(biāo)上,雖然WGAN-KDE無法保證最優(yōu)值,但是差距在可接受范圍內(nèi),總體有著較好的表現(xiàn)。

Recall和Precision體現(xiàn)了對(duì)所關(guān)注數(shù)據(jù)類查找的完整性和精確性。相比于RUS 和SMOTE 方法,WGANKDE 在Recall 指標(biāo)上有所降低。這是由于抽樣方法本身特性所導(dǎo)致的。無論是隨機(jī)欠采樣還是SOMTE過采樣方法,都是最大化保留了原有數(shù)據(jù)中少數(shù)類的數(shù)據(jù)信息,通過減少多數(shù)類數(shù)據(jù)的樣本量或者重復(fù)現(xiàn)有少數(shù)類數(shù)據(jù)的樣本量來平衡數(shù)據(jù)分布,這就造成多數(shù)類部分?jǐn)?shù)據(jù)信息丟失或者過大化地表示少數(shù)類數(shù)據(jù)信息的問題,最終導(dǎo)致分類器在訓(xùn)練時(shí)對(duì)少數(shù)類數(shù)據(jù)較為敏感,從而表現(xiàn)為高召回率。

表2 信用卡欺詐數(shù)據(jù)集上使用不同方法的實(shí)驗(yàn)結(jié)果

表3 yeast4數(shù)據(jù)集上使用不同方法的實(shí)驗(yàn)結(jié)果

表4 appendicitis數(shù)據(jù)集上使用不同方法的實(shí)驗(yàn)結(jié)果

但是隨機(jī)欠采樣和SMOTE過采樣方法在保證高召回率的同時(shí),在精確率指標(biāo)上表現(xiàn)較差。在欺詐檢測工作中,算法模型對(duì)數(shù)據(jù)記錄作出檢測后,還需要進(jìn)一步地人工核實(shí),這是一項(xiàng)十分耗時(shí)且不容忽視的工作,而低精確度會(huì)導(dǎo)致大量無效工作的投入,造成資源浪費(fèi)。因此,尋找召回率和精確率之間的平衡尤為關(guān)鍵,WGAN-KDE相比于RUS、SMOTE和WGAN方法,更好地同時(shí)兼顧了召回率和精確率,在保證有效召回率的同時(shí),精確率也有著較好的表現(xiàn),因此在欺詐檢測工作中有較高的應(yīng)用價(jià)值。

表5 醫(yī)保數(shù)據(jù)集上使用不同方法的實(shí)驗(yàn)結(jié)果

表6 醫(yī)保數(shù)據(jù)使用自編碼表示后的實(shí)驗(yàn)結(jié)果

3.3 醫(yī)保數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

在對(duì)WGAN-KDE有效性進(jìn)行驗(yàn)證后,本文在醫(yī)保數(shù)據(jù)集上使用WGAN-KDE 對(duì)不平衡數(shù)據(jù)進(jìn)行重新構(gòu)建。表5 為在醫(yī)保數(shù)據(jù)集上使用不同方法平衡數(shù)據(jù)分布后的實(shí)驗(yàn)結(jié)果,表6 為使用Auto-Encoder 對(duì)數(shù)據(jù)進(jìn)行自編碼特征表示后,使用GBDT方法在醫(yī)保數(shù)據(jù)上欺詐檢測的實(shí)驗(yàn)結(jié)果。

從表5的實(shí)驗(yàn)結(jié)果可以看出,基于醫(yī)保數(shù)據(jù)集在不同的分類器模型下,使用不同的數(shù)據(jù)平衡方法,WGANKDE 在可接受范圍內(nèi)犧牲了召回率,但是和RUS、SMOTE、WGAN 方法相比,精確率、F1、準(zhǔn)確率以及AUC等評(píng)價(jià)指標(biāo)基本都達(dá)到了最優(yōu)。在不同的分類器模型比較中,GBDT方法在各評(píng)價(jià)指標(biāo)的表現(xiàn)都優(yōu)于其他分類器模型。而且,在GBDT模型下,WGAN-KDE相比于RUS,召回率降低了0.023,精確率提高了0.102;相比于SMOTE,召回率降低了0.02,精確率提高了0.113;相比于WGAN,召回率降低了0.007,精確率提高了0.095。證明了WGAN-KDE方法在醫(yī)保欺詐檢測工作中,可以很好地同時(shí)兼顧召回率和精確率。

為了驗(yàn)證自編碼特征表示在醫(yī)保欺詐檢測中的效果,表6 進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證??紤]到表5 中WGANKDE+GBDT 表現(xiàn)最好,因此在使用WGAN-KDE 對(duì)醫(yī)保不平衡數(shù)據(jù)進(jìn)行重新構(gòu)建后,基于構(gòu)建后的平衡數(shù)據(jù)集,進(jìn)一步使用Auto-Encoder對(duì)數(shù)據(jù)進(jìn)行自編碼特征表示,最后使用GBDT進(jìn)行分類檢測。從表6的實(shí)驗(yàn)結(jié)果可以看出,對(duì)數(shù)據(jù)進(jìn)行自編碼表示后,Recall、Precision、F1、Accuracy和AUC等評(píng)價(jià)指標(biāo)全面提升,提高了對(duì)欺詐數(shù)據(jù)的檢測效果,而且,通過自編碼器提取自編碼特征,可以減少傳統(tǒng)人工特征工程中對(duì)專業(yè)業(yè)務(wù)背景知識(shí)的依賴以及特征挑選和構(gòu)造所消耗的時(shí)間。

根據(jù)表1的實(shí)驗(yàn)數(shù)據(jù)集信息,通過比較不同數(shù)據(jù)集的數(shù)據(jù)規(guī)??梢钥闯觯t(yī)保數(shù)據(jù)集的數(shù)據(jù)不平衡度為9.49,遠(yuǎn)低于信用卡欺詐數(shù)據(jù)577.88 的數(shù)據(jù)不平衡度。而且,綜合比較基于不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可以看出,數(shù)據(jù)集的不平衡度越高,過采樣和欠采樣方法對(duì)召回率和精確率之間的兼顧性越差,WGAN-KDE 方法的優(yōu)異性越突出。從文獻(xiàn)[23]中可以得知,現(xiàn)實(shí)中醫(yī)保欺詐率遠(yuǎn)低于實(shí)驗(yàn)所使用的醫(yī)保數(shù)據(jù),數(shù)據(jù)不平衡度極高,一個(gè)具有高可用性的欺詐檢測方法應(yīng)當(dāng)在保證召回率的同時(shí),要同時(shí)兼顧到精確率,這樣可以提高對(duì)醫(yī)保欺詐行為檢測工作的效率。由此可以得出,本文方法WKAG可以作為解決不平衡醫(yī)保數(shù)據(jù)欺詐檢測問題的有效方法。

4 結(jié)束語

本文針對(duì)不平衡醫(yī)保數(shù)據(jù)的欺詐檢測問題,提出了一種解決方法——WKAG。首先,對(duì)于數(shù)據(jù)的不平衡問題,傳統(tǒng)的欠采樣和過采樣方法只是簡單地對(duì)原有數(shù)據(jù)進(jìn)行增減從而構(gòu)建為平衡數(shù)據(jù),但是這種方式無法同時(shí)兼顧召回率和精確率。本文提出了一種新的解決方法WGAN-KDE 來對(duì)數(shù)據(jù)進(jìn)行重新構(gòu)建,根據(jù)在醫(yī)保數(shù)據(jù)集、信用卡欺詐數(shù)據(jù)集以及KEEL 的2 個(gè)不平衡數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,驗(yàn)證了WGAN-KDE方法可以較好地同時(shí)兼顧到召回率和精確率,而且在其他綜合評(píng)價(jià)指標(biāo)上也表現(xiàn)優(yōu)異。其次,針對(duì)醫(yī)保數(shù)據(jù)中的特征表示困難的問題,本文使用Auto-Encoder方法減少對(duì)人工以及經(jīng)驗(yàn)的依賴,對(duì)數(shù)據(jù)進(jìn)行自編碼特征表示,實(shí)驗(yàn)結(jié)果說明,自編碼特征表示可以更進(jìn)一步地提高模型對(duì)欺詐數(shù)據(jù)的檢測效果。綜合基于各數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文方法WKAG在解決不平衡醫(yī)保欺詐檢測問題中具有較高的可用性。

猜你喜歡
數(shù)據(jù)分布集上欺詐
關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
獨(dú)立保函欺詐舉證問題探討
警惕國際貿(mào)易欺詐
復(fù)扇形指標(biāo)集上的分布混沌
一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
網(wǎng)購遭欺詐 維權(quán)有種法
試論大數(shù)據(jù)之“大”