陳亞琳++王旭明
摘要:為識(shí)別醫(yī)療保險(xiǎn)中的欺詐行為,提出了一種基于數(shù)據(jù)挖掘的醫(yī)保欺詐預(yù)警模型。首先運(yùn)用ACCESS數(shù)據(jù)庫(kù)軟件和SQL查詢語(yǔ)句,篩選出能運(yùn)用于醫(yī)保欺詐行為檢測(cè)的數(shù)據(jù);其次根據(jù)醫(yī)保數(shù)據(jù)的特點(diǎn),結(jié)合SPSS Modeler軟件,采用聚類分析方法和分類決策樹(shù)算法,建立預(yù)測(cè)判別模型,識(shí)別某位病人在一段時(shí)間內(nèi)是否存在醫(yī)保欺詐行為;最后通過(guò)數(shù)據(jù)映射關(guān)系來(lái)找到與嫌疑人有關(guān)的嫌疑科室、嫌疑醫(yī)生等。從而為醫(yī)療保險(xiǎn)機(jī)構(gòu)的決策者和醫(yī)?;疬\(yùn)營(yíng)監(jiān)管人員進(jìn)行科學(xué)決策提供客觀依據(jù),提升社會(huì)預(yù)測(cè)力和科學(xué)決策力。
關(guān)鍵詞:醫(yī)保欺詐;SQL查詢語(yǔ)句;聚類分析;C5.0決策樹(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)11-0001-04
隨著近年來(lái)參保覆蓋面和基金規(guī)模的迅速擴(kuò)大、定點(diǎn)服務(wù)機(jī)構(gòu)的大量增加、社會(huì)對(duì)醫(yī)療保險(xiǎn)的認(rèn)知度增強(qiáng)以及信息管理的薄弱,導(dǎo)致了醫(yī)療保險(xiǎn)欺詐問(wèn)題日趨嚴(yán)峻。欺詐手段也開(kāi)始呈現(xiàn)出復(fù)雜性與多樣性。這些欺詐行為嚴(yán)重?fù)p害著廣大參保人員的利益,制約醫(yī)療保險(xiǎn)公平可持續(xù)發(fā)展。面對(duì)日益膨脹的醫(yī)保基金數(shù)額,以及其廣泛的影響力,僅靠人工檢測(cè)已明顯不能滿足需求。目前,國(guó)內(nèi)醫(yī)療保險(xiǎn)信息化日漸完善,在醫(yī)療保險(xiǎn)信息化過(guò)程中操作型數(shù)據(jù)庫(kù)記錄了大量詳細(xì)的醫(yī)保相關(guān)的交易信息,為數(shù)據(jù)挖掘的研究與應(yīng)用提供了廣闊的空間。因此通過(guò)選取醫(yī)保數(shù)據(jù)中的相關(guān)屬性特征,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行欺詐行為的識(shí)別和預(yù)警,建立合理的醫(yī)保欺詐預(yù)警模型,是一項(xiàng)極其重要的研究,能為醫(yī)保管理決策者提供支持。
1 醫(yī)保數(shù)據(jù)的預(yù)處理
由于醫(yī)療保險(xiǎn)數(shù)據(jù)的來(lái)源廣泛和涉及內(nèi)容多,其主要有四大特點(diǎn):(1)數(shù)據(jù)類型多、動(dòng)態(tài)性、數(shù)據(jù)量大;(2)存放數(shù)據(jù)的表繁多且關(guān)系復(fù)雜;(3)數(shù)據(jù)相對(duì)完整,空缺值較少;(4)存在大量不一致和沒(méi)有價(jià)值的數(shù)據(jù)。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的極其重要的一部分,能剔除大量“臟數(shù)據(jù)”,提供更為干凈、準(zhǔn)確、具有針對(duì)性的數(shù)據(jù)。本研究采用的數(shù)據(jù)主要是某地區(qū)一個(gè)月的醫(yī)保數(shù)據(jù),包括病人資料、醫(yī)療費(fèi)用明細(xì)、醫(yī)囑表等6個(gè)Excel表格約30余萬(wàn)條記錄,數(shù)據(jù)量符合數(shù)據(jù)挖掘的要求。
1.1 醫(yī)保數(shù)據(jù)的清洗
基于課題的研究背景、研究意義和研究方向,并結(jié)合6個(gè)excel表格,進(jìn)行數(shù)據(jù)清洗,刪除大量對(duì)于本次數(shù)據(jù)挖掘沒(méi)有意義的數(shù)據(jù)。從這些表中選取的屬性數(shù)目如表1所示。
表1 原有數(shù)據(jù)與所用數(shù)據(jù)屬性數(shù)對(duì)比表
[表名\&病人資料表\&費(fèi)用明細(xì)表\&醫(yī)囑表\&醫(yī)囑子類\&核算分類\&患者費(fèi)別\&原有屬性數(shù)\&86\&20\&158\&33\&11\&17\&所選屬性數(shù)\&4\&14\&5\&5\&4\&3\&]
1.2 醫(yī)保數(shù)據(jù)的轉(zhuǎn)換
上面清洗得到的數(shù)據(jù)表中的數(shù)據(jù)并不能直接使用,還需要轉(zhuǎn)換為需要的形式,首先將日期一律采用“年-月-日”格式;接著通過(guò)出生日期和就診日期得到患者年齡;最后將醫(yī)囑ID號(hào)精簡(jiǎn)成數(shù)字型。
1.3 醫(yī)保數(shù)據(jù)的集成
由于數(shù)據(jù)分別儲(chǔ)存在數(shù)據(jù)庫(kù)的幾個(gè)表中,因此需要將相關(guān)的表通過(guò)SQL查詢語(yǔ)句進(jìn)行連接,生成一個(gè)初步的集成表“醫(yī)保數(shù)據(jù)表”。
但是該表格的屬性繁多,冗余較大,還需進(jìn)一步的處理。下面這些情況都有可能是醫(yī)保欺詐:?jiǎn)螐執(zhí)幏剿庂M(fèi)偏高,就醫(yī)次數(shù)偏多,多人合伙進(jìn)行欺詐等。因此,可計(jì)算病人就診時(shí)的單次賬單費(fèi)用、每一個(gè)病人所看病的總消費(fèi)額和就醫(yī)次數(shù)。生成兩個(gè)新的表格分別為“賬單費(fèi)用表”和“綜合費(fèi)用表”。
2 醫(yī)保欺詐模型的建立與求解
2.1 參保人騙保行為識(shí)別
根據(jù)相關(guān)知識(shí)和文獻(xiàn)可知,對(duì)參保人騙保行為的識(shí)別主要通過(guò)以下兩種情況:一是單次處方費(fèi)用偏高的識(shí)別;二是就醫(yī)次數(shù)偏多的識(shí)別。然后結(jié)合醫(yī)保數(shù)據(jù)的特點(diǎn),本模型將采用聚類的方法對(duì)問(wèn)題進(jìn)行研究。具體的研究流程圖如圖1。
1) 對(duì)所有病人聚類——Modeler的異常診斷方法
圖1 研究流程圖
根據(jù)病人的就醫(yī)特征,從“醫(yī)保數(shù)據(jù)表”中選取病人ID號(hào)、醫(yī)保手冊(cè)號(hào)、年齡、性別、就醫(yī)費(fèi)用、就醫(yī)次數(shù)6個(gè)相關(guān)屬性,構(gòu)建異常檢測(cè)聚類模型,對(duì)就醫(yī)人群進(jìn)行聚類,判別出各類的異常點(diǎn),從而找出就醫(yī)行為存在異常的參保人,即Modeler的異常診斷方法。
① SPSS Modeler的操作過(guò)程
先將醫(yī)保數(shù)據(jù)表導(dǎo)入到SPSS Modeler中,并將除病人ID號(hào)、醫(yī)保手冊(cè)號(hào)、年齡、性別、就醫(yī)費(fèi)用、就醫(yī)次數(shù)外的字段過(guò)濾掉;接著從表中的醫(yī)保手冊(cè)號(hào)這個(gè)字段中可看出,有一部分人在醫(yī)院的記錄中使用了醫(yī)??ǎ徊糠秩藳](méi)有使用,具體表現(xiàn)為:未使用醫(yī)??ǖ娜酸t(yī)保手冊(cè)號(hào)為1,因此將“醫(yī)保手冊(cè)號(hào)”屬性轉(zhuǎn)換成“是否參?!睂傩裕覍⒃摗搬t(yī)保手冊(cè)號(hào)”屬性過(guò)濾;然后選擇字段類型;最后利用Modeler的異常診斷方法,構(gòu)建異常檢測(cè)聚類模型,找出就醫(yī)行為存在異常值。并設(shè)定訓(xùn)練集中異常的記錄百分比為5%,SPSS Modeler的具體操作過(guò)程如下圖2。
② 運(yùn)行結(jié)果如表2
通過(guò)表5可以篩選出就醫(yī)行為存在異常的病人,并將研究的對(duì)象從58010名病人縮小到2047名異常的參保病人。為了方便之后的研究,在醫(yī)保數(shù)據(jù)庫(kù)的綜合費(fèi)用表中新增一列“異常情況”,并導(dǎo)入“異常情況”這一屬性,得到“新綜合費(fèi)用表”,通過(guò)該表,就可以很容易的查找出就醫(yī)行為存在異常的參保病人。
2) 對(duì)異常參保人聚類——Modeler的K-means聚類
通過(guò)步驟一的Modeler異常診斷方法,可以得到異常參保人有829人,但這并不代表就醫(yī)行為存在異常的參保病人都會(huì)進(jìn)行醫(yī)保欺詐,因此本文將對(duì)這些異常參保病人進(jìn)行K-means聚類分析,找出不同類群的異常就醫(yī)行為的病人行為特征,并定義醫(yī)保欺詐手段,從而識(shí)別出存在醫(yī)療保險(xiǎn)欺詐的類群,再?gòu)闹姓页隹赡艽嬖卺t(yī)保欺詐的參保人員。
① SPSS Modeler的操作過(guò)程
首先由于利用Modeler的K-means聚類方法時(shí),首先需要給出聚類的類數(shù),但是聚類的類數(shù)難以確定,因此選擇Modeler的自動(dòng)聚類方法。
Modeler的自動(dòng)聚類方法主要是Kohonen聚類、兩步聚類、K-means聚類,綜合本文實(shí)際情況、數(shù)據(jù)的特點(diǎn)以及聚類的質(zhì)量,對(duì)比情況如圖4所示。因此最終選擇K-means聚類方法,從而找出不同類群的異常就醫(yī)行為的病人行為特征。
② 運(yùn)行結(jié)果
聚類結(jié)果顯示:聚類數(shù)為5類時(shí)最為適合,且聚類質(zhì)量較好,操作結(jié)果如表3所示。
根據(jù)表3聚類結(jié)果可以初步得知:
對(duì)于聚類-1,該類參保異常人平均年齡為5.78,屬于少年群體,平均就醫(yī)次數(shù)6次,平均單次就醫(yī)費(fèi)用69.5元,此費(fèi)用較低,屬于正常范圍,這與少年本身身體素質(zhì)有關(guān),治療費(fèi)用并不需要太高,因此認(rèn)為這類人群不存在醫(yī)保欺詐的行為;
對(duì)于聚類-2,該類參保異常人的平均年齡為46.06,屬于中年群體,平均就醫(yī)次數(shù)5次左右,平均單次就醫(yī)費(fèi)用達(dá)到788.6元,與正常就醫(yī)行為特征相差十分大,因此認(rèn)為該類人群存在醫(yī)保欺詐的行為;
對(duì)于聚類-3,該類參保異常人的平均年齡為35.70,也屬于青年群體,雖然平均單次就醫(yī)費(fèi)用僅77.34元,但其平均就醫(yī)次數(shù)達(dá)到9.52,由于就醫(yī)頻次過(guò)高,因此認(rèn)為該類人群存在醫(yī)保欺詐的行為;
對(duì)于聚類-4,該類參保異常人的平均年齡為68.44,已屬于老年群體,該類人群平均就醫(yī)次數(shù)3.42,平均單次就醫(yī)費(fèi)用301.03;就醫(yī)費(fèi)用較高,這與老年人體弱多病有關(guān),一旦患病則需要較長(zhǎng)的治療周期,因此本文認(rèn)為該類人群不存在醫(yī)保欺詐的行為;
對(duì)于聚類-5,該類參保異常人的平均年齡為37.78,屬于青年群體,該類人群平均就醫(yī)次數(shù)3.31,平均單次就醫(yī)費(fèi)用256.7元;可認(rèn)為該類人群不存在醫(yī)保欺詐的行為。
根據(jù)以上的聚類結(jié)果和對(duì)各類人群的就醫(yī)行為特征進(jìn)行歸納分析,可發(fā)現(xiàn),參保人就醫(yī)行為存在異常的病人中有醫(yī)保欺詐行為的僅163人,占參保異常人總數(shù)的7.96%,符合實(shí)際情況。本文將要探討的醫(yī)保欺詐行為定義為以下三類:
a.參保人頻繁到醫(yī)院就醫(yī),超量購(gòu)藥,導(dǎo)致就醫(yī)次數(shù)偏高和就醫(yī)費(fèi)用偏高;
b.若干參保人同一時(shí)間到醫(yī)院頻繁刷卡,開(kāi)取昂貴藥,且開(kāi)取的藥物藥效相似。
c.參保人購(gòu)買(mǎi)的藥物類型與所屬的年齡段不相符;
3) 建立預(yù)測(cè)決策樹(shù)模型——Modeler的C5.0決策樹(shù)
根據(jù)步驟一、二,已識(shí)別出存在醫(yī)保欺詐行為的病人。因此,通過(guò)結(jié)合存在醫(yī)保欺詐行為病人的就醫(yī)行為和不存在醫(yī)保欺詐行為病人的就醫(yī)行為特征,運(yùn)用C5.0決策樹(shù)算法,建立了一個(gè)識(shí)別某位病人在一段時(shí)間內(nèi)是否存在醫(yī)保欺詐行為的判別分類模型。
① SPSS Modeler的操作過(guò)程
首先通過(guò)篩選建立參保病人表,確定決策樹(shù)的輸入變量為就醫(yī)次數(shù)、就醫(yī)費(fèi)用以及年齡,輸出變量為“是否騙?!保渲袑⒋嬖卺t(yī)保欺詐的病人變量賦值為1,其余病人賦值為0;然后,將所有的樣本隨機(jī)劃分為兩個(gè)數(shù)據(jù)集,其中70%的參保病人作為決策樹(shù)的訓(xùn)練集,用于進(jìn)行決策樹(shù)的訓(xùn)練,30%的參保病人作為決策樹(shù)的測(cè)試集,用于檢驗(yàn)決策樹(shù)的正確率。具體的操作步驟如圖5。
根據(jù)圖6所示,可以得到以下幾條判斷某位參保人在一個(gè)月內(nèi)存在醫(yī)保欺詐行為的5 條規(guī)則:
A. 如果 就醫(yī)次數(shù)>10,則存在醫(yī)保欺詐行為;
B. 如果 就醫(yī)次數(shù)>8 并且 年齡>55,則存在醫(yī)保欺詐行為;
C. 如果 就醫(yī)次數(shù)>7 并且 55>=年齡>15,則存在醫(yī)保欺詐行為;
D. 如果 就醫(yī)費(fèi)用>2097.38 并且 57>=年齡>32,則存在醫(yī)保欺詐行為;
E. 如果 就醫(yī)費(fèi)用>3305.02,則存在醫(yī)保欺詐行為。
為驗(yàn)證建模結(jié)果的準(zhǔn)確性,通過(guò)對(duì)模型添加矩陣節(jié)點(diǎn)和分析節(jié)點(diǎn),可以得到模型的準(zhǔn)確率和損失率。結(jié)果見(jiàn)如表3和表4。
通過(guò)表4可知:在訓(xùn)練集里該決策樹(shù)的準(zhǔn)確率高達(dá)100%,在測(cè)試集里準(zhǔn)確率也高達(dá)99.94%,準(zhǔn)確率極高。再通過(guò)表8的損失矩陣中可知:本來(lái)不存在醫(yī)保欺詐行為但是被該決策樹(shù)誤判為存在醫(yī)保欺詐行為的人數(shù)僅有1人;本來(lái)存在醫(yī)保欺詐行為但是被該決策樹(shù)誤判為不存在醫(yī)保欺詐行為的人數(shù)也只有5人。因此,該模型的準(zhǔn)確率是非常高的,存在醫(yī)保欺詐行為的人數(shù)僅有163人,則該決策樹(shù)的適用范圍還是比較小的,具有可信度。
2.2 數(shù)據(jù)映射查找相關(guān)欺詐信息
通過(guò)對(duì)參保人騙保行為進(jìn)行識(shí)別,找出了參保病人中可能進(jìn)行醫(yī)保欺詐行為的病人。由醫(yī)保欺詐的欺詐對(duì)象來(lái)看,欺詐除了參保人還有醫(yī)生。因此,將繼續(xù)根據(jù)騙保人信息表的數(shù)據(jù)映射關(guān)系來(lái)找到與嫌疑人員有關(guān)的嫌疑科室、嫌疑醫(yī)生以及高頻醫(yī)囑子類、核算分類。從而可以確定協(xié)助作案的科室醫(yī)生以及醫(yī)保詐騙事故高發(fā)的醫(yī)囑項(xiàng)、醫(yī)囑子類以及核算類,便于以后的重點(diǎn)監(jiān)督和排查。
1) 查找嫌疑科室
根據(jù)醫(yī)保欺詐的欺詐方式來(lái)看,在某些情況下,科室可以通過(guò)偽造病歷、票據(jù)醫(yī)保等方式欺詐,以騙取醫(yī)保資金。顯然,通過(guò)這種操作方式會(huì)造成某些患者費(fèi)用和頻率較高。因此,可以通過(guò)騙保人信息表篩選出與嫌疑參保人有關(guān)的科室,并且統(tǒng)計(jì)他們與嫌疑參保人進(jìn)行操作的次數(shù)。本研究將采用醫(yī)保手冊(cè)號(hào)來(lái)統(tǒng)計(jì)下醫(yī)囑科室與嫌疑參保人進(jìn)行操作的次數(shù)。
最終由條形圖可知,前5個(gè)科室的交易次數(shù)明顯高于其他科室,并且和與其相鄰的科室樣本突然發(fā)生較大變化,因此將下醫(yī)囑科室為173、124、133、203、143的認(rèn)為是嫌疑科室。
2)查找嫌疑醫(yī)生
與嫌疑科室同理,嫌疑醫(yī)生可以通過(guò)偽造病歷、票據(jù)醫(yī)保等方式通過(guò)欺詐,以騙取醫(yī)保資金。因此根據(jù)同樣的方法查詢出嫌疑醫(yī)生,條形圖顯示,前2個(gè)醫(yī)生的交易次數(shù)明顯高于其他醫(yī)生,并且和與其相鄰的科室樣本突然發(fā)生較大變化,因此將開(kāi)囑醫(yī)生ID號(hào)為1180、794的認(rèn)為是嫌疑醫(yī)生。
3)查找高頻醫(yī)療作案項(xiàng)目
醫(yī)保欺詐通常選擇效率高、收益高、周期短的醫(yī)療項(xiàng)目作為作案目標(biāo),因此可以通過(guò)查找記錄中高頻醫(yī)囑項(xiàng)、高頻醫(yī)囑子類、高頻核算分類來(lái)確認(rèn)醫(yī)保欺詐高發(fā)的作案項(xiàng)目。為更直觀地看到各高頻類在項(xiàng)目中所占的比例,將繪制成餅圖來(lái)統(tǒng)計(jì)。
由餅圖結(jié)果可以將醫(yī)囑項(xiàng)為6886、16428、5462等前十名,醫(yī)囑子類ID號(hào)為6、1、23,核算分類ID號(hào)為1的三個(gè)高頻項(xiàng)目認(rèn)為是參保人極易選擇的作案項(xiàng)目,其內(nèi)容具體意義為醫(yī)囑項(xiàng):89SrCL2注射液[4mci]、重組人紅細(xì)胞生成素[5000IU/瓶]、0.9%氯化鈉注射液(直軟)[100ml]等,醫(yī)囑子類:針劑、口服藥、成藥口服,核算分類:西藥費(fèi)。對(duì)于這幾種效率高、收益高、周期短的醫(yī)療項(xiàng)目要重點(diǎn)監(jiān)督,防止醫(yī)保欺詐。
3 研究結(jié)論
本文的研究結(jié)果表明:基于聚類分析和決策樹(shù)的數(shù)據(jù)挖掘方法對(duì)醫(yī)保欺詐行為能夠進(jìn)行較為準(zhǔn)確的預(yù)警,無(wú)論是學(xué)習(xí)還是最后實(shí)踐的識(shí)別準(zhǔn)確率都達(dá)到了99%,可信度強(qiáng)。這種預(yù)警方法可以大大減少人工檢測(cè),提高識(shí)別效率,為醫(yī)療保險(xiǎn)機(jī)構(gòu)的決策者和醫(yī)?;疬\(yùn)營(yíng)監(jiān)管人員進(jìn)行科學(xué)決策提供客觀依據(jù),提升社會(huì)預(yù)測(cè)力和科學(xué)決策力。
但在取得一些研究成果的同時(shí),還存在一些不足:1)本研究所使用的費(fèi)用相關(guān)數(shù)據(jù)都是只與藥物消費(fèi)有關(guān),因此研究的醫(yī)保欺詐行為也只局限在與藥物方面異常的有關(guān)情況,這使醫(yī)保欺詐主動(dòng)發(fā)現(xiàn)的模型缺乏普遍性;2)在建立決策樹(shù)模型時(shí),只利用到數(shù)據(jù)庫(kù)中的幾個(gè)相關(guān)屬性,具有局限性。若再進(jìn)一步研究,可以將更多的信息用于建立決策樹(shù)模型,使得模型更具有普遍性;3)由于數(shù)據(jù)中沒(méi)有給出病人是否存在醫(yī)保欺詐的屬性指標(biāo),因此對(duì)模型的檢驗(yàn)存在一定的缺陷。
參考文獻(xiàn):
[1] 甘櫪元.基于數(shù)據(jù)挖掘醫(yī)保系統(tǒng)的研究[J].信息安全與技術(shù),2013(10):67-68.
[2] 陳真,秦偉,徐緒堪,房道偉.大數(shù)據(jù)環(huán)境下醫(yī)保數(shù)據(jù)監(jiān)測(cè)和預(yù)警模型構(gòu)建[J].現(xiàn)代商業(yè),2014(20):101-102.
[3] 朱攀.基于人工神經(jīng)網(wǎng)絡(luò)的醫(yī)保定點(diǎn)醫(yī)療機(jī)構(gòu)信用等級(jí)評(píng)價(jià)模型[D].國(guó)防科學(xué)技術(shù)大學(xué),2010.
[4] 高宇彤.基于離群點(diǎn)檢測(cè)的新農(nóng)合醫(yī)保欺詐識(shí)別的研究[D].哈爾濱商業(yè)大學(xué),2015.
[5] 樓磊磊.醫(yī)療保險(xiǎn)數(shù)據(jù)異常行為檢測(cè)算法和系統(tǒng)[D].浙江大學(xué),2015.
[6] 沈培,張吉?jiǎng)P.聚類分析在醫(yī)療費(fèi)用數(shù)據(jù)挖掘中的應(yīng)用[J].華南預(yù)防醫(yī)學(xué),2012(1).
[7] 馮麗蕓.數(shù)據(jù)挖掘在我國(guó)醫(yī)保方面應(yīng)用綜述[J].電腦知識(shí)與技術(shù),2014(05):880-881.
[8] 孫晶晶,魏俊麗,萬(wàn)昊,趙冠宏.數(shù)據(jù)信息在醫(yī)院醫(yī)療保險(xiǎn)管理中的應(yīng)用[J].中國(guó)醫(yī)院,2015(12).
[9] 劉江超.數(shù)據(jù)挖掘算法在醫(yī)保數(shù)據(jù)上的應(yīng)用研究[D].國(guó)防科學(xué)技術(shù)大學(xué)碩士論文,2009(11).
[10] 薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社,2014.