馮華偉
(河南省太康縣人民醫(yī)院,河南 周口 461400)
作為醫(yī)院財(cái)務(wù)系統(tǒng)的重要組成部分,醫(yī)療賬務(wù)支付系統(tǒng)承擔(dān)著醫(yī)院財(cái)務(wù)結(jié)算的重要任務(wù),也是維持醫(yī)院正常運(yùn)轉(zhuǎn)的關(guān)鍵。同時(shí),支付系統(tǒng)也存在著較高的安全風(fēng)險(xiǎn),例如信用卡套現(xiàn)、醫(yī)療保險(xiǎn)詐騙以及賬目作假等。這些財(cái)務(wù)數(shù)據(jù)的造假行為嚴(yán)重影響了醫(yī)院財(cái)務(wù)系統(tǒng)的正常運(yùn)轉(zhuǎn),同時(shí)也影響了醫(yī)院以及社會的公共利益。而根據(jù)國外機(jī)構(gòu)的調(diào)查,近年來通過金融詐騙而構(gòu)成的財(cái)務(wù)系統(tǒng)損失可能超過機(jī)構(gòu)年收入的5%[1-2]。因此,對財(cái)務(wù)異常數(shù)據(jù)的準(zhǔn)確識別是保障財(cái)務(wù)系統(tǒng)正常運(yùn)轉(zhuǎn)的重要途徑。
近年來,隨著醫(yī)院財(cái)務(wù)數(shù)據(jù)數(shù)字化進(jìn)程的逐步加快,財(cái)務(wù)數(shù)據(jù)的整體特點(diǎn)也轉(zhuǎn)變?yōu)閿?shù)據(jù)量巨大、數(shù)據(jù)增長速度快、數(shù)據(jù)類型復(fù)雜化等。傳統(tǒng)檢測方法使用數(shù)學(xué)的統(tǒng)計(jì)方法進(jìn)行驗(yàn)證,其優(yōu)點(diǎn)是可以直觀快速地篩選出異常數(shù)據(jù),但缺點(diǎn)是無法處理海量數(shù)據(jù)[3]。同時(shí),傳統(tǒng)檢測方法也無法滿足當(dāng)前的復(fù)雜檢測需求。而深度學(xué)習(xí)的出現(xiàn)引起了學(xué)者的廣泛關(guān)注[4],文中融合了隨機(jī)森林算法與神經(jīng)網(wǎng)絡(luò)技術(shù),提出了一種改進(jìn)的異常數(shù)據(jù)檢測方法,并改善了當(dāng)前算法中存在的復(fù)雜度較高、檢測誤差大以及檢測效率低等問題。
對財(cái)務(wù)數(shù)據(jù)的兩個(gè)特征[5-6]作如下說明:
1)信息熵
信息熵是數(shù)據(jù)處理領(lǐng)域常見的衡量標(biāo)準(zhǔn),該指標(biāo)可用來判定數(shù)據(jù)樣本的不確定性。信息熵越大,代表樣本的確定性越??;信息熵越小,代表樣本的確定性越大。
信息熵計(jì)算公式如下:
式(1)中,D為樣本數(shù)據(jù)集,Ck為k屬性樣本。在這些樣本中,C0為異常類型的樣本,C1是正常類型的樣本。
2)信息增益率
信息增益率通常用來表示金融樣本數(shù)據(jù)的一種分類標(biāo)準(zhǔn),即對于數(shù)據(jù)集合的屬性特征部分,可定義為:
金融數(shù)據(jù)還有時(shí)間特征,因此在對金融數(shù)據(jù)進(jìn)行分析時(shí)還需考慮其時(shí)間特征。故此,結(jié)合時(shí)間特征的異常數(shù)據(jù)增益可定義為:
式(5)中,Ai為異常數(shù)據(jù)的特征信息,αm為時(shí)間影響因子,該參數(shù)用來表征過去數(shù)據(jù)對當(dāng)前數(shù)據(jù)的影響。αm可以表示為:
式(6)中,ωm為第m個(gè)時(shí)刻的權(quán)重因子,Hm表示異常數(shù)據(jù)類別劃分因子。該因子越小,即對數(shù)據(jù)類別的劃分越有利。
隨機(jī)森林算法[7-9]的本質(zhì)是多項(xiàng)目決策算法,該算法最初是在二值樹算法基礎(chǔ)上進(jìn)行改進(jìn)的。其特征為算法樣本集合中的異常數(shù)據(jù)集合即稀疏矩陣集合,同時(shí)也是一種無監(jiān)督的單一數(shù)據(jù)監(jiān)測方法。隨機(jī)森林算法使用二值樹算法結(jié)構(gòu),將數(shù)據(jù)子集的每一個(gè)數(shù)據(jù)均作為二值樹中的節(jié)點(diǎn)。
該算法所需的數(shù)據(jù)不需要過多異常點(diǎn),但同時(shí)異常點(diǎn)需要滿足數(shù)據(jù)特征與其他正常數(shù)據(jù)點(diǎn)以及數(shù)據(jù)特征隔離量較大的條件,算法才能建立多個(gè)森林樹。并通過隨機(jī)特征選取不同的分割點(diǎn)特征,進(jìn)而構(gòu)建完整的森林樹結(jié)構(gòu)。隨機(jī)森林算法流程如圖1所示。
圖1 隨機(jī)森林算法流程
需要指出的是,文中森林樹的構(gòu)建所需采集樣本無需過多,數(shù)據(jù)的異常構(gòu)建公式如下:
式(7)中,c(Ψ)是在數(shù)據(jù)采集量為Ψ的情況下,構(gòu)建的二值樹無法進(jìn)行搜索的總路徑長度。當(dāng)路徑長度較長時(shí),該參數(shù)值趨近于0;當(dāng)路徑長度和c(Ψ)值大體相當(dāng)時(shí),該參數(shù)值趨近于0.5;當(dāng)路徑長度為零時(shí),該參數(shù)值趨近于1。但這種傳統(tǒng)森林算法,無法解決大量異常數(shù)據(jù)同時(shí)聚類的情況。
文中對隨機(jī)森林進(jìn)行了改進(jìn),構(gòu)建了方差隨機(jī)森林算法,并向隨機(jī)森林算法中加入方差特征值。這樣隨機(jī)森林算法可進(jìn)行更優(yōu)的聚類分析,算法構(gòu)造函數(shù)如式(8)所示:
式中,樣本特征集合為Q,cj為隨機(jī)系數(shù),p為截距。截距表達(dá)方程如式(9)所示:
該改進(jìn)算法在計(jì)算樹的路徑長度時(shí),使用cj系數(shù)進(jìn)行判斷,這樣可以使得p截距取最大值。
構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型對隨機(jī)森林算法數(shù)據(jù)進(jìn)行訓(xùn)練。文中使用RNN 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練[10-12],RNN 為循環(huán)卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的模型示意圖如圖2 所示。
圖2 RNN模型示意圖
RNN 網(wǎng)絡(luò)單元的主要用途為序列數(shù)據(jù)的訓(xùn)練與處理。該神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是每個(gè)單元的輸出層均可返回至輸入層作循環(huán)卷積。這種結(jié)構(gòu)適合于時(shí)間結(jié)構(gòu),對隨機(jī)森林算法尤為適用,可有效地減少數(shù)據(jù)的訓(xùn)練次數(shù)。文中神經(jīng)網(wǎng)絡(luò)的損失函數(shù)L和梯度參數(shù)U的關(guān)系為:
文中算法的流程如圖3 所示。首先對樣本數(shù)據(jù)集合進(jìn)行隨機(jī)森林算法驗(yàn)證,這樣即可以對每一個(gè)異常值進(jìn)行聚類和分析。然后根據(jù)預(yù)處理的數(shù)據(jù)對異常數(shù)據(jù)樣本進(jìn)行篩選,將篩選完成的結(jié)果輸入至RNN 網(wǎng)絡(luò)中進(jìn)行特征訓(xùn)練。
圖3 文中算法流程
具體的實(shí)現(xiàn)過程如下:
1)通過方差隨機(jī)森林算法對樣本數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)檢測,同時(shí)對異常數(shù)據(jù)進(jìn)行標(biāo)記,得到標(biāo)記子集為:
2)將異常數(shù)據(jù)子集Ai加入到異常樣本數(shù)據(jù)集合中,剩下的數(shù)據(jù)子集加入到正常樣本數(shù)據(jù)集合中,然后進(jìn)行篩選,并將其加載至RNN 的入口。
模型實(shí)現(xiàn)過程的偽代碼如下:
Input:Forestree(D,h,emax),F(xiàn)orestree 為文中森林算法,h為森林樹的高度,hmax為森林樹的最大高度。
Output:子樹的數(shù)據(jù)集合。
1)Start;
2)設(shè)置hmax的值,大小為子采樣的對數(shù);
3)ifh≥emax&D≤1 then;
4)return 前個(gè)樹節(jié)點(diǎn);
5)else 對于任何的屬性樣本,計(jì)算當(dāng)前時(shí)間序列的時(shí)間影響因子αm,然后計(jì)算信息增益比值,該值求得的最大值即為當(dāng)前森林樹的分裂值;
6)D→filter(D),將篩選后的子集合傳遞至結(jié)果處;
7)返回節(jié)點(diǎn);
8)end if。
隨機(jī)森林檢測系統(tǒng)是分類系統(tǒng),因此文中使用分類效果參數(shù)對分類系統(tǒng)的效果進(jìn)行評估。典型的參數(shù)值有準(zhǔn)確率、召回率、F1 值[13-16]。
準(zhǔn)確率一般是針對異常數(shù)據(jù)的評價(jià)標(biāo)準(zhǔn),文中指算法可以成功識別異常數(shù)據(jù)的概率值,其計(jì)算公式為:
召回率的計(jì)算公式為:
F1 值綜合了準(zhǔn)確率以及召回率,計(jì)算公式如下所示:
與此同時(shí),為了直觀地觀測到分類特征,還運(yùn)用了ROC 曲線進(jìn)行驗(yàn)證。該曲線的X軸坐標(biāo)為假正率FPR,Y軸坐標(biāo)為假負(fù)率TPR,該曲線值通常用來判斷二分類器性能的重要指標(biāo)。與ROC 曲線關(guān)聯(lián)的還有AUC 值,該值用來表征ROC 曲線下方和坐標(biāo)軸形成的面積大小。該面積可定量對模型的性能進(jìn)行評估說明,AUC 值越大說明算法性能越優(yōu)。
文中數(shù)據(jù)使用兩個(gè)訓(xùn)練樣本集和一個(gè)測試樣本集進(jìn)行實(shí)驗(yàn)。訓(xùn)練樣本集的來源為某調(diào)查機(jī)構(gòu)提供的資金交易數(shù)據(jù),交易數(shù)據(jù)集合屬性為交易賬戶信息、交易金額以及交易方向等金融屬性。最終訓(xùn)練結(jié)果指向交易賬戶,將訓(xùn)練測得的交易賬戶異常數(shù)據(jù)和真實(shí)的交易賬戶異常數(shù)據(jù)進(jìn)行比較,進(jìn)而對模型的算法準(zhǔn)確性進(jìn)行驗(yàn)證。
訓(xùn)練數(shù)據(jù)集共有數(shù)據(jù)樣本15 000 個(gè),測試樣本集合為5 000 個(gè),實(shí)驗(yàn)數(shù)據(jù)環(huán)境配置如表1 所示。
表1 數(shù)據(jù)環(huán)境配置
由于樣本數(shù)據(jù)集存在著屬性缺失或?qū)傩栽旒俚那闆r,因此需要對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。其預(yù)處理步驟為:
1)數(shù)據(jù)篩選
首先對原始數(shù)據(jù)的屬性不完整數(shù)據(jù)進(jìn)行清除,然后對造假的數(shù)據(jù)進(jìn)行清除。例如,該數(shù)據(jù)中存在金融開戶戶主和銀行卡卡主姓名不一致的情況,刪除此類數(shù)據(jù)。
2)數(shù)據(jù)特征分類
數(shù)據(jù)的屬性有交易賬戶信息、交易金額以及交易方向等,按照數(shù)據(jù)特征進(jìn)行數(shù)據(jù)分類。
3)數(shù)據(jù)歸一化
將數(shù)據(jù)的分類值轉(zhuǎn)換成特征值,將數(shù)據(jù)均做成長度相同的歸一化數(shù)據(jù),便于算法的訓(xùn)練。
為了驗(yàn)證文中算法檢測異常數(shù)據(jù)的性能進(jìn)行對比實(shí)驗(yàn)。文中使用多個(gè)對比算法對測試數(shù)據(jù)集合進(jìn)行處理,對比算法處理后的準(zhǔn)確率、召回率以及F1值指標(biāo)。文中使用隨機(jī)特征選擇算法(Ram)、基本隨機(jī)森林(Forest)算法、ADA 同步算法(ADAsync)3種對比算法,表2 為對比實(shí)驗(yàn)指標(biāo)結(jié)果。
由表2 可看出,文中算法的綜合F1 值是最高的。雖然隨機(jī)特征選擇算法的召回率較高,但準(zhǔn)確率較低。這是因?yàn)樵撍惴ㄔ谶M(jìn)行樣本處理時(shí),會有跨文本處理的風(fēng)險(xiǎn),因此并不適用于金融數(shù)據(jù)處理。而文中算法具有更優(yōu)的特征選擇能力,可有效地提升分類器的分類性能,算法的F1 值相較其他算法均有2%以上的提升。
表2 實(shí)驗(yàn)結(jié)果
ROC 曲線可以對分類特征進(jìn)行直觀地檢測,使用統(tǒng)計(jì)軟件對文中算法處理結(jié)果進(jìn)行ROC 曲線的繪制,曲線如圖4 所示。
圖4 算法的ROC曲線
由圖4 可以定性的看出,各個(gè)算法的分類性能大體相當(dāng),文中算法相較其他算法有所提升。而為了定量的判斷算法的分類性能,對AUC 值進(jìn)行了估算,AUC 值計(jì)算結(jié)果如表3 所示。
表3 AUC值計(jì)算結(jié)果
從AUC 計(jì)算結(jié)果可知,文中算法的AUC 值最高。表明文中算法對金融異常數(shù)據(jù)的檢測有良好的效果。
傳統(tǒng)檢測方法無法用來檢測當(dāng)前海量的財(cái)務(wù)數(shù)據(jù)。文中提出了基于深度神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測方法,有效改善了當(dāng)前算法中存在的復(fù)雜度較高、檢測誤差大以及檢測效率低等問題。實(shí)驗(yàn)結(jié)果表明,文中算法F1 值以及AUC 值相較其他算法均有不同程度的提升,表明該算法對財(cái)務(wù)異常數(shù)據(jù)的檢測有較為理想的效果。