王超 韓可欣 黃登一
摘要:本文闡述了運(yùn)用自組織競爭型神經(jīng)網(wǎng)絡(luò)(SOM)與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,建立醫(yī)保欺詐主動發(fā)現(xiàn)模型的原理和過程。主要介紹醫(yī)療數(shù)據(jù)的特征,海量數(shù)據(jù)初步分類和精選樣本對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的方法,最后采用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行優(yōu)化。研究成果較好地實現(xiàn)了對醫(yī)保欺詐行為的主動識別。
關(guān)鍵詞:SOM神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò) 醫(yī)保欺詐 識別模型
中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)05-0000-00
Abstract:In order to build a model for detection of fraud in medical services, the paper proposes a new algorithm by combining self-organized map neural network(SOM) with back-propagation artificial neural network(BP).The authors firstly introduce the characteristic of medical data, and then investigate approach based on SOM to select samples for the training of BP neural network. At last, the paper applies genetic algorithm into the model, so as to optimize initial weights and biases. It turns out that the model is highly effective in intelligent recognition of fraud.
Key Word: SOM neural network; BP neural network; Fraud in medical; Model for detection
1引言
隨著我國醫(yī)療保險普及率的提高,醫(yī)?;鸬陌踩珕栴}日漸引人關(guān)注。自城鎮(zhèn)職工醫(yī)療保險和新型農(nóng)村合作醫(yī)療制度實施以來,騙取醫(yī)?;鸬陌讣粩喟l(fā)生[1]。據(jù)不完全統(tǒng)計,在許多國家醫(yī)保欺詐和濫用每年造成的損失都達(dá)數(shù)億美元甚至更多,嚴(yán)重妨礙了各國醫(yī)保政策的順利實施[2][3]。因此,構(gòu)建一個相對準(zhǔn)確的醫(yī)保欺詐主動發(fā)現(xiàn)和預(yù)警機(jī)制,對保障參保人員權(quán)益、提高醫(yī)?;鹗褂眯识季哂兄卮笠饬x。
目前,反醫(yī)保欺詐的研究是一個世界性的課題。由于醫(yī)療數(shù)據(jù)的海量信息和欺詐行為的隱蔽性,有效識別欺詐行為是反欺詐研究的重點(diǎn)和難點(diǎn)。國外學(xué)者的研究中,美國的Fen-May Lion對Logistic回歸模型、神經(jīng)網(wǎng)絡(luò)和決策數(shù)等三種方法用于醫(yī)療數(shù)據(jù)挖掘,的方法和效果情況分析比較[4];美國的Kweku-Muata和Osei-Bryson分析了目前數(shù)據(jù)挖掘中存在影響因子過多的問題,并提出VFT和GQM的解決方法[5]。國內(nèi)針對醫(yī)保欺詐的研究,目前多數(shù)停留在社會和法律層面的分析;關(guān)于醫(yī)保欺詐行為識別方法,主要有楊超等提出的統(tǒng)計回歸和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法[6],研究的深度和廣度都有待進(jìn)一步拓展。
本研究采用自組織競爭型神經(jīng)網(wǎng)絡(luò),對海量醫(yī)療數(shù)據(jù)按疑似欺詐數(shù)據(jù)和非欺詐數(shù)據(jù)兩類進(jìn)行初步篩選;在此基礎(chǔ)上,人工精選一些分類后的數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,并用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。經(jīng)驗證,優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)對醫(yī)保欺詐具有良好的識別效果。
2 醫(yī)保欺詐的概念及數(shù)據(jù)特點(diǎn)
2.1醫(yī)保欺詐定義和類型
醫(yī)療保險欺詐一般是指醫(yī)療保險制度的相關(guān)利益主體以騙取醫(yī)療保險基金或醫(yī)療保險待遇為目的,采取各種形式隱瞞自己的真實身份或?qū)嶋H診療情況,從而騙取相關(guān)利益的行為。本研究所指的醫(yī)保欺詐采用廣義的定義,即任何因不符合正常就醫(yī)規(guī)律的行為而導(dǎo)致的對醫(yī)保基金的濫用或騙取都被視為醫(yī)保欺詐。
根據(jù)嚴(yán)重程度的不同,醫(yī)保欺詐可分為兩類:一類是對醫(yī)?;鸬臑E用,如小病住院,開高價藥,過度檢查等造成的醫(yī)保資源的浪費(fèi);另一類則帶有明顯的欺詐故意,如非投保人使用投保人的證件,醫(yī)院開具虛假的住院證明、藥品清單或就診發(fā)票等。
2.2醫(yī)療數(shù)據(jù)特征
本研究所用數(shù)據(jù)來源于深圳市南口區(qū)南山、西麗、蛇口三家大型醫(yī)院2014年一月份的病人數(shù)據(jù)和就診記錄,共計約35萬條數(shù)據(jù)。每條醫(yī)療數(shù)據(jù)有100多個字段,包含病人資料、就診明細(xì)、住院信息、藥品信息等海量數(shù)據(jù),具有明顯的大數(shù)據(jù)特征。這些數(shù)據(jù)中既沒有明確標(biāo)記為騙保行為的記錄,也沒有一套用來界定異常數(shù)據(jù)的完整規(guī)則,而且其中不乏錯誤的、殘缺的和無效的數(shù)據(jù)。因此,研究前期利用SAS和SPSS等工具對數(shù)據(jù)進(jìn)行清洗和提取,構(gòu)建了有效信息數(shù)據(jù)庫。
3 相關(guān)算法簡介
3.1 自組織神經(jīng)網(wǎng)絡(luò)
自組織神經(jīng)網(wǎng)絡(luò)(SOM)屬于層次結(jié)構(gòu)網(wǎng)絡(luò),有多種類型,其共同特點(diǎn)是都具有競爭層。最基礎(chǔ)的網(wǎng)絡(luò)僅有一個輸入層和競爭層。假定輸入層由N個神經(jīng)元,競爭層有M個神經(jīng)元。網(wǎng)絡(luò)的連接權(quán)值為且滿足約束條件:所有連接權(quán)值之和為1。在競爭層中,神經(jīng)元之間互相競爭,最終只有一個神經(jīng)元獲勝,以和當(dāng)前的輸入樣本相適應(yīng)。在這種競爭機(jī)制中,競爭層中具有最大加權(quán)值的神經(jīng)元贏得競爭勝利。競爭勝利的神經(jīng)元可以代表當(dāng)前輸入樣本的分類模式。競爭后各層神經(jīng)元之間的權(quán)值還要按照一定規(guī)則進(jìn)行修正。通過不斷調(diào)整網(wǎng)絡(luò)中與各神經(jīng)元相關(guān)的權(quán)值和閾值,網(wǎng)絡(luò)得出當(dāng)前樣本下誤差最小的最佳分類模式。
自組織神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢是具有自主學(xué)習(xí)能力,可以通過分析事物的內(nèi)在規(guī)律和本質(zhì)屬性建立相應(yīng)規(guī)則,進(jìn)而對具有不同特征的事物進(jìn)行分類。其事先無需已明確分類的樣本進(jìn)行訓(xùn)練,能滿足對海量醫(yī)保數(shù)據(jù)進(jìn)行初步篩選的要求。據(jù)此,我們采用的自組織神經(jīng)網(wǎng)絡(luò)對原始數(shù)據(jù)進(jìn)行一次篩選,初步分離具有騙保行為特征的數(shù)據(jù)和沒有騙保行為的數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。
3.2 BP神經(jīng)網(wǎng)絡(luò)算法
BP網(wǎng)絡(luò)[7](Back Propagation),是一種按誤差逆?zhèn)鞑シ椒ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛、研究最充分的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)無需事前揭示描述事物之間映射關(guān)系的數(shù)學(xué)方程,它通過學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,采用最速下降法的學(xué)習(xí)規(guī)則,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。
BP網(wǎng)絡(luò)的缺陷是學(xué)習(xí)收斂速度過慢、無法保證收斂到全局最小點(diǎn),網(wǎng)絡(luò)結(jié)構(gòu)難以確定。另外,網(wǎng)絡(luò)結(jié)構(gòu)、初始神經(jīng)元之間連接的權(quán)值和閾值的選擇對網(wǎng)絡(luò)訓(xùn)練的影響很大,而且需要不斷的測試和調(diào)整才能獲取。不過一旦找到合適的參數(shù),BP網(wǎng)絡(luò)將具有很高的精確度。針對這些特點(diǎn),我們采用遺傳算法對神經(jīng)網(wǎng)絡(luò)BP算法的參數(shù),即連接權(quán)值和閾值進(jìn)行優(yōu)化,選擇出最佳的網(wǎng)絡(luò)模式,大大減小了人工選擇參數(shù)帶來的誤差。
3.2 遺傳優(yōu)化算法
遺傳算法借鑒于生物進(jìn)化論,它將要解決的問題模擬成一個生物進(jìn)化的過程:初始種群通過復(fù)制、交叉、突變等操作產(chǎn)生下一代的解,種群中適應(yīng)度較高的個體被保留下來,適應(yīng)度函數(shù)值低的個體被自然淘汰。這樣進(jìn)化多代后就很有可能會進(jìn)化出適應(yīng)度函數(shù)值很高的個體。在對醫(yī)保欺詐數(shù)據(jù)挖掘?qū)嵗校覀兝眠z傳算法對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,把預(yù)測數(shù)據(jù)與期望數(shù)據(jù)之間的誤差作為適應(yīng)度函數(shù),這樣當(dāng)進(jìn)行數(shù)代的進(jìn)化,變異,選擇之后,得到最優(yōu)的初始權(quán)值和閾值。利用得到的最優(yōu)初始權(quán)值和閾值建立BP神經(jīng)網(wǎng)絡(luò),此時建立的即是判別誤差最小的網(wǎng)絡(luò)模式。這樣,當(dāng)有新的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),便可以較準(zhǔn)確的實現(xiàn)對它的分類,即判斷是否屬于醫(yī)保欺詐數(shù)據(jù)。
4 主動發(fā)現(xiàn)模型的搭建
4.1 樣本和變量
對比所給數(shù)據(jù)和醫(yī)保欺詐種類,前述醫(yī)保欺詐的行為反映在數(shù)據(jù)上主要有以下幾種表現(xiàn):單張?zhí)幏剿庂M(fèi)極高、同一醫(yī)保號短時間內(nèi)反復(fù)多次大量拿藥、病人ID和醫(yī)保號不符、小病長時間住院等。提取數(shù)據(jù)與醫(yī)保欺詐行為識別相關(guān)的特征,包括“患者年齡”“住院情況”“就診總金額”“就診次數(shù)”,構(gòu)建就醫(yī)行為數(shù)據(jù)庫,最終得到10050個樣本。部分示例下表1所示。
通過自組織神經(jīng)網(wǎng)絡(luò)算法的計算,找出了欺詐患者在就診總金額、就診次數(shù)和住院人數(shù)比例上與非欺詐患者有明顯的區(qū)別:欺詐患者的就診平均總金額達(dá)到1254.63元、平均就診次數(shù)為3次、住院人數(shù)比為32%,而非欺詐患者就診平均總金額為289.49元、平均就診次數(shù)1.58次、住院人數(shù)比為19.5%。欺詐患者的三項指標(biāo)明顯高于非欺詐患者。
改變訓(xùn)練的步數(shù),得到不同步數(shù)下欺詐人群的人數(shù)如下表2所示。
從表中可以看出,隨著訓(xùn)練步數(shù)的增加,自組織神經(jīng)網(wǎng)絡(luò)分類出的欺詐人數(shù)呈現(xiàn)先增加后減少的趨勢。在20步的時候,欺詐人數(shù)遠(yuǎn)遠(yuǎn)小于30步的人數(shù),這是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不完全的結(jié)果。當(dāng)訓(xùn)練步數(shù)增加到300時,欺詐人數(shù)較之前有一定下降,這可能與神經(jīng)網(wǎng)絡(luò)過度學(xué)習(xí)有關(guān),使得數(shù)據(jù)的泛化能力下降。30步以后,神經(jīng)網(wǎng)絡(luò)分類結(jié)果基本穩(wěn)定,欺詐人數(shù)的波動率僅為0.35%。綜合考慮網(wǎng)絡(luò)的學(xué)習(xí)效果和分類所需時間,我們最終選定訓(xùn)練步數(shù)為200,即將欺詐人數(shù)為569人作為初步分類結(jié)果。
通過查閱參考資料,應(yīng)用經(jīng)驗判斷法對分類后的欺詐數(shù)據(jù)進(jìn)行人工核查。考慮到老年人容易患病住院和患嚴(yán)重疾病的患者醫(yī)藥費(fèi)極高的特殊情況,從569位疑似欺詐患者中排除89人,從9481個非欺詐患者中新確定出35位可能欺詐的患者。最終確定疑似欺詐人數(shù)為471,非欺詐人數(shù)9579,自組織神經(jīng)網(wǎng)絡(luò)的誤判率僅為0.98%。
由于分類結(jié)果的波動率和誤判率都很低,可以認(rèn)為該分類有效,能夠作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。
4.2 BP神經(jīng)網(wǎng)絡(luò)創(chuàng)建
對于一般的模式識別問題,三層網(wǎng)絡(luò)即可很好地解決問題。在三層網(wǎng)絡(luò)中,隱含層神經(jīng)網(wǎng)絡(luò)個數(shù)和輸入層神經(jīng)元個數(shù)之間有近似關(guān)系[9]:
在建立的模型中,由于樣本有4個輸入?yún)?shù),2個輸出參數(shù),所以這里取值為31,設(shè)置的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為4-9-2,及輸入層有4個節(jié)點(diǎn),隱含層有9個節(jié)點(diǎn),輸出層有3個節(jié)點(diǎn),共有49+92=54個權(quán)值,9+2=11個閾值。
遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的優(yōu)化如下:首先計算適應(yīng)度并對神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值編碼,從而得到初始種群;通過解碼得到權(quán)值和閾值并并利用其建立新的BP網(wǎng)絡(luò);使用訓(xùn)練樣本和測試樣本來訓(xùn)練和測試網(wǎng)絡(luò),得到相應(yīng)的測試誤差;利用遺傳算法對適應(yīng)度高的染色體進(jìn)行復(fù)制、交叉、變異,得到新群體,然后循環(huán)上述過程。最后得到測試誤差最小的那一組權(quán)值和閾值,作為用來醫(yī)保欺詐數(shù)據(jù)主動發(fā)現(xiàn)模型網(wǎng)絡(luò)結(jié)構(gòu)中的最佳參數(shù)。
為了確保模型的有效性,我們從初步分類的欺詐數(shù)據(jù)和非欺詐數(shù)據(jù)中分別選取271條和400條數(shù)據(jù),共計671條數(shù)據(jù)作為訓(xùn)練樣本來訓(xùn)練BP網(wǎng)絡(luò)。然后將確定為欺詐的剩余200人和非欺詐人群中再次選出的200人作為測試樣本,來驗證網(wǎng)絡(luò)的識別效果。將樣本的測試誤差的范數(shù)作為衡量網(wǎng)絡(luò)的一個泛化能力(網(wǎng)絡(luò)的優(yōu)劣)的指標(biāo),優(yōu)化前后仿真誤差的結(jié)果對比如下表3所示。
由上表可見,優(yōu)化初始權(quán)值和閾值后的測試樣本誤差由15.536%減小到5.545%,訓(xùn)練樣本的誤差由3.5687%減小到3.1256%,即測試樣本正確率最高可達(dá)到1-5.545%=94.094%。表明優(yōu)化后BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試效果都得到了較大改善,遺傳算法的優(yōu)化具有良好的效果。
5結(jié)語
本研究創(chuàng)新性地將單層競爭型神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)結(jié)合使用:采用單層競爭型神經(jīng)網(wǎng)絡(luò)對海量數(shù)據(jù)的初步分類,得到的結(jié)果經(jīng)檢驗具有較好的穩(wěn)定性和一定的準(zhǔn)確性;利用BP神經(jīng)網(wǎng)絡(luò)需要用部分已知分類的樣本進(jìn)行訓(xùn)練的特性,將單層競爭型神經(jīng)網(wǎng)絡(luò)的分類結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的輸入,從而使兩種神經(jīng)網(wǎng)絡(luò)相結(jié)合、優(yōu)勢互補(bǔ),對于建立一種醫(yī)保欺詐行為主動發(fā)現(xiàn)的模型具有較大的參考價值。本研究的不足之處在于:無法獲知準(zhǔn)確的欺詐數(shù)據(jù)或者判別標(biāo)準(zhǔn),當(dāng)數(shù)據(jù)量增加時會更難以判斷自組織神經(jīng)網(wǎng)絡(luò)初步分類的精準(zhǔn)度,對BP網(wǎng)絡(luò)學(xué)習(xí)的準(zhǔn)確度造成一定影響。因此,本研究成果適合開發(fā)成一款醫(yī)保欺詐預(yù)警系統(tǒng),由系統(tǒng)直接從海量數(shù)據(jù)中篩選出疑似欺詐數(shù)據(jù),并對疑似數(shù)據(jù)進(jìn)行實時監(jiān)測和報警,這樣可以大大縮小人工核查的范圍,為醫(yī)保欺詐的調(diào)查和最終判別提供極大的便利。
參考文獻(xiàn)
[1]牛曉輝.新農(nóng)合住院費(fèi)用的分析及異常值篩檢方法研究[D].華中科技大學(xué),2012.
[2]Pflaum B B,Rivers J S. Employer strategies to combat health care plan fraud.[J].Benefits quarterly,1990,71:.
[3]Leonardo, J. A. "Health care fraud: a critical challenge."Managed care quarterly?4.1 (1995): 67-79.
[4]Liou F M, Tang Y C, Chen J Y. Detecting hospital fraud and claim abuse through diabetic outpatient services[J]. Health care management science, 2008, 11(4): 353-358.
[5]Osei-Bryson K M. A context-aware data mining process model based framework for supporting evaluation of data mining results[J]. Expert Systems with Applications, 2012, 39(1): 1156-1164.
[6]楊超.基于BP神經(jīng)網(wǎng)絡(luò)的健康保險欺詐識別研究[D].青島大學(xué),2014.
[7] 朱敏,劉學(xué)廣.內(nèi)燃機(jī)排氣噪聲半主動控制技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2010.