周田
摘 要:對于醫(yī)保欺詐的主動(dòng)發(fā)現(xiàn),我們采用非監(jiān)督的聚類分析和監(jiān)督的模式分類相結(jié)合的方法來識別欺詐記錄。我們用訓(xùn)練的分類器對剩余的樣本進(jìn)行預(yù)測,識別出可能的詐騙樣本。用戶可根據(jù)需要選擇不同的分類器識別欺詐行為,這樣就可實(shí)現(xiàn)自動(dòng)化式識別醫(yī)保欺詐。
關(guān)鍵詞:醫(yī)保欺詐;主動(dòng)發(fā)現(xiàn);聚類分析;數(shù)據(jù)挖掘;模式識別
1 問題提出
當(dāng)今我國醫(yī)保制度上仍存在著一些漏洞,比如醫(yī)保欺詐現(xiàn)象。公民、法人或者其他組織在參加醫(yī)療保險(xiǎn)、享受醫(yī)療保險(xiǎn)待遇過程中,故意捏造事實(shí)、隱瞞真實(shí)情況等造成醫(yī)療保險(xiǎn)基金損失的行為。騙保人進(jìn)行醫(yī)保欺詐時(shí)使用了很多手段。在不同的醫(yī)院和醫(yī)生處重復(fù)配藥,開了大量數(shù)目的醫(yī)藥且單個(gè)醫(yī)藥費(fèi)用高,單張?zhí)幏剿庂M(fèi)特別高。這些情況都需要考慮的醫(yī)保欺詐現(xiàn)象。根據(jù)一定的數(shù)據(jù)需要解決問題:主動(dòng)發(fā)現(xiàn)醫(yī)療保險(xiǎn)欺詐。
2 問題分析
前提是有許多病人的數(shù)據(jù),有些數(shù)據(jù)能反映出病人在不同科室看病的,有些反映出醫(yī)療賬單號數(shù)目多,有些反映單張?zhí)幏劫M(fèi)用高等。這都與醫(yī)保欺詐有著一定的關(guān)聯(lián)。尋找這些與醫(yī)保欺詐有關(guān)的數(shù)據(jù)。這些數(shù)據(jù)中提取特征,利用特征進(jìn)行聚類分析并定義類別,利用支持向量機(jī)訓(xùn)練并構(gòu)建一個(gè)能主動(dòng)發(fā)現(xiàn)醫(yī)療保險(xiǎn)欺詐的模型。并檢測這個(gè)模型的是否具有使實(shí)用性。
3 模型的建立與求解
(一)數(shù)據(jù)的標(biāo)準(zhǔn)化處理
對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
步驟如下:
(1)求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si;
(2)進(jìn)行標(biāo)準(zhǔn)化處理:
(二)距離相似性度量
我們采用Pearson相關(guān)系數(shù)來度量兩樣本之間的相似性。
相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個(gè)變量的觀測值和均值。r描述的是兩個(gè)變量間線性相關(guān)強(qiáng)弱的程度。r的絕對值越大表明相關(guān)性越強(qiáng)。樣本資料的皮爾森積矩相關(guān)系數(shù)(一般簡稱為樣本相關(guān)系數(shù))為樣本共變異數(shù)除以的標(biāo)準(zhǔn)差與的標(biāo)準(zhǔn)差之乘積。樣本的簡單相關(guān)系數(shù)一般用r表示,其中n為樣本量,分別為兩個(gè)變量的觀測值和均值。r的取值在-1與+1之間:
利用樣本相關(guān)系數(shù)推斷總體中兩個(gè)變量是否相關(guān),用t統(tǒng)計(jì)量對總體相關(guān)系數(shù)為0的原假設(shè)進(jìn)行檢驗(yàn)。若t檢驗(yàn)顯著,則拒絕原假設(shè),即兩個(gè)變量是線性相關(guān)的;若t檢驗(yàn)不顯著,則不能拒絕原假設(shè),即兩個(gè)變量不是線性相關(guān)的
(三)層次聚類
步驟:
(1)在預(yù)處理數(shù)據(jù)中提取一個(gè)樣本為5000的訓(xùn)練集。
(3)采用Pearson相關(guān)系數(shù)來度量兩樣本之間的相似性。r的絕對值越大,就放入同一類,表明相關(guān)性越強(qiáng)。求解樣本皮爾森積矩相關(guān)系數(shù),即求解共變異數(shù)除以的標(biāo)準(zhǔn)差與的標(biāo)準(zhǔn)差之乘積。用t 統(tǒng)計(jì)量對總體相關(guān)系數(shù)為0的原假設(shè)進(jìn)行檢驗(yàn)。
得到下圖:
圖中聚類對象為一個(gè)5000×7的矩陣。每行表示1個(gè)樣本,每列表示1個(gè)特征。我們對樣本進(jìn)行聚類,即對行聚類,具有相似特征的樣本傾向于聚在同一子類。
(四)定義類別
A類:藥品總價(jià)多,不同的賬單號個(gè)數(shù),藥品數(shù)量,不同下醫(yī)囑的科室個(gè)數(shù),不同醫(yī)囑子類個(gè)數(shù),不同的醫(yī)囑項(xiàng)個(gè)數(shù),執(zhí)行科室不同的個(gè)數(shù)少,表明人們單筆賬單很貴。
B類:藥品總價(jià),執(zhí)行科室不同的個(gè)數(shù)多,這顯示自然人可能多次買藥,為了不被發(fā)現(xiàn)而在不同的地方進(jìn)行。
C類:藥品總價(jià),不同的賬單號個(gè)數(shù)很多,展現(xiàn)了自然人可能在單位時(shí)間內(nèi)反復(fù)多次拿藥。
(1)利用支持向量機(jī)構(gòu)建分類器
運(yùn)用支持向量機(jī)(SVM)的方法:
支持向量機(jī)分類預(yù)測模型。利用5倍交叉證實(shí),我們將隨機(jī)的5000個(gè)樣本隨機(jī)分成5份,取其中4份,即4000個(gè)樣本作為訓(xùn)練集,剩余的1000個(gè)樣本作為檢驗(yàn)集。使用訓(xùn)練集樣本訓(xùn)練支持向量機(jī)分類器。我們采用加大欺詐樣本權(quán)重的權(quán)重調(diào)整策略處理樣本不平衡問題,提高分類器性能。我們分別以1)A∪B∪C;2)A;3)B;4)C作為欺詐樣本建立了4個(gè)分類器,并用檢驗(yàn)集檢驗(yàn)分類器性能。我們用訓(xùn)練的分類器對剩余的5000個(gè)樣本進(jìn)行預(yù)測,識別出可能的詐騙樣本。用戶可根據(jù)需要選擇不同的分類器識別欺詐行為, 這在理論上是被完全證明了是成立的,而且在實(shí)際計(jì)算中也是可行的。
(五)不平衡數(shù)據(jù)
不平衡數(shù)據(jù)分類精確度accuracy= (TP+TN) (TP+TN+FP+FN) 是分類問題中常用的評價(jià)標(biāo)準(zhǔn),它反映分類器對數(shù)據(jù)集的整體分類性能,但不能正確反映不平衡數(shù)據(jù)集的分類性能。
Recall=TP/(TP+FN) Precision=TP/(TP+FP)
不平衡數(shù)據(jù)的解決方法:加重權(quán)數(shù),權(quán)重越大,被定義為詐騙人的錯(cuò)誤人數(shù)越少,被定義為非詐騙的人的錯(cuò)誤人越多。
(六)檢驗(yàn)分類性能
倍交叉驗(yàn)證法:
把總樣本N隨機(jī)劃分為5等分,在議論實(shí)驗(yàn)中輪流抽出其中一份樣本作為檢驗(yàn)樣本,用其余4份作為訓(xùn)練樣本,得到5 個(gè)錯(cuò)誤率后進(jìn)行平均,作為一輪交叉驗(yàn)證的錯(cuò)誤率;由于對樣本的一次劃分是隨意的,人們往往進(jìn)行多輪這樣劃分,得到多個(gè)交叉驗(yàn)證錯(cuò)誤率估計(jì),最后將多個(gè)估計(jì)再求平均。將數(shù)據(jù)聚類分析之后,我們用5倍交叉向量驗(yàn)證。將之前提取的5000個(gè)樣本隨機(jī)分為5組,并將其中4組合并為一個(gè)訓(xùn)練集,另一組分為一個(gè)檢驗(yàn)集,對訓(xùn)練集中的數(shù)據(jù)進(jìn)行驗(yàn)證。
(七)分類器分類
(1)ABC意義:滿足上述那些定義的A(藥品總價(jià)高,其它的數(shù)據(jù)數(shù)量少),B(藥品總價(jià),執(zhí)行科室不同的個(gè)數(shù)多),C(藥品總價(jià),不同的賬單號個(gè)數(shù)很多)
用5倍交叉驗(yàn)證可以例如:把5000樣本分為4000個(gè)的訓(xùn)練集和1000個(gè)的檢驗(yàn)集并設(shè)置權(quán)重比(1:10)
顯示出同時(shí)符合A類,B類,C類;通過數(shù)據(jù)分析得出藥品總價(jià)很多時(shí)的不同情況,得出可能是詐騙者。
(2)A類(藥品總價(jià)高,其它的數(shù)據(jù)數(shù)量少藥品總價(jià)高,其它的數(shù)據(jù)數(shù)量少)預(yù)測結(jié)果
表中數(shù)據(jù)可以清楚表示藥品總價(jià)很高,而其他的數(shù)據(jù)很低。上面的數(shù)據(jù)可以很容易的得出藥品總價(jià)很高,但其他的數(shù)據(jù)其值比較少,從而檢驗(yàn)數(shù)據(jù)的正確性。
參考文獻(xiàn):
[1]朱小平.自動(dòng)識別技術(shù)及其應(yīng)用[J].合作經(jīng)濟(jì)與科技,2012(03).endprint