◎龔錦道
隨著國(guó)內(nèi)醫(yī)療保險(xiǎn)行業(yè)的飛速發(fā)展,覆蓋面也正在持續(xù)擴(kuò)大,醫(yī)療保險(xiǎn)基金欺詐騙保形勢(shì)也隨之越來越嚴(yán)峻。由于違規(guī)騙保的方式非常多,而且違規(guī)操作隱秘,加上國(guó)內(nèi)針對(duì)醫(yī)?;鸱莉_防詐的有關(guān)經(jīng)驗(yàn)略微落后,因此一直以來醫(yī)?;鸱莉_防詐的任務(wù)都面臨比較嚴(yán)峻的考驗(yàn)。當(dāng)前階段對(duì)醫(yī)保欺詐行為的審核,很大一部分仍然需要依靠醫(yī)保管理機(jī)構(gòu)的相關(guān)工作人員檢查大量的醫(yī)保記錄,根據(jù)以往的工作經(jīng)驗(yàn)進(jìn)行查驗(yàn)。這種查驗(yàn)過程不但工作量非常大、效率較低下,而且不足以完全確保騙保行為被正確判斷,因此需要構(gòu)建醫(yī)保防欺詐智能審核系統(tǒng)從而強(qiáng)化信息審查,改善醫(yī)保防欺詐工作的技術(shù)水平,為醫(yī)保欺詐審核與監(jiān)管提供現(xiàn)代技術(shù)支撐。本論文主要介紹醫(yī)保防欺詐智能審核系統(tǒng)的總體設(shè)計(jì)、主要功能模塊設(shè)計(jì)及成果預(yù)測(cè)展示。
針對(duì)目前存在基本醫(yī)療保險(xiǎn)基金監(jiān)管乏力,同時(shí)全國(guó)醫(yī)院信息化系統(tǒng)中存儲(chǔ)了大量患者的醫(yī)保數(shù)據(jù),醫(yī)保數(shù)據(jù)資源并沒有得到充分利用的現(xiàn)狀,對(duì)海量醫(yī)保使用的病例數(shù)據(jù)進(jìn)行異常識(shí)別,實(shí)現(xiàn)智能化的醫(yī)保數(shù)據(jù)智能審核、醫(yī)保數(shù)據(jù)查詢、新醫(yī)保記錄預(yù)測(cè)、醫(yī)保基金趨勢(shì)預(yù)測(cè)、醫(yī)?;鸾y(tǒng)計(jì)分析,以及基本醫(yī)療保險(xiǎn)基金收支預(yù)警,構(gòu)建能夠減少基金欺詐、分辨醫(yī)保騙保的技術(shù)支撐。提供基本醫(yī)療保險(xiǎn)醫(yī)療服務(wù)管理和質(zhì)量控制服務(wù)的決策依據(jù)和技術(shù)支持,為政府多部門聯(lián)合決策提供數(shù)據(jù)支撐,通過海量復(fù)雜的已知醫(yī)保數(shù)據(jù)建立某種數(shù)據(jù)模式,從而預(yù)測(cè)騙保行為的可能趨勢(shì),進(jìn)一步保證基本醫(yī)療保險(xiǎn)基金的合理有效利用提供有力的技術(shù)支撐。
基于醫(yī)保欺詐數(shù)據(jù),醫(yī)保防欺詐智能審核系統(tǒng)選取目前Python的主流Web開發(fā)框架Django進(jìn)行醫(yī)保審核系統(tǒng)的實(shí)現(xiàn);使用MySQL作為底層的數(shù)據(jù)庫以及醫(yī)保數(shù)據(jù)的持久化管理軟件。該系統(tǒng)主要的功能模塊包括:智能分析模塊、智能服務(wù)模塊、可視化模塊,本文所設(shè)計(jì)的系統(tǒng)架構(gòu)如圖1所示:
圖1 醫(yī)保智能審核系統(tǒng)架構(gòu)
醫(yī)保智能審核系統(tǒng)框架主要包含數(shù)據(jù)處理層、數(shù)據(jù)智能分析層、應(yīng)用展示層和用戶層。數(shù)據(jù)處理層通過對(duì)從數(shù)據(jù)庫中提取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,主要包含缺失值處理、噪聲處理以及數(shù)據(jù)規(guī)約與壓縮,再對(duì)清洗過后的數(shù)據(jù)進(jìn)行特征處理,主要包含特征選擇、特征降維、特征工程三個(gè)步驟,得到最終可直接用于分類模型訓(xùn)練的醫(yī)保數(shù)據(jù)。數(shù)據(jù)智能分析層是系統(tǒng)的核心算法層,主要利用本文提出的改進(jìn)算法ALO-KM、KM-LR,以及傳統(tǒng)的機(jī)器學(xué)習(xí)算法GradientBoosting、隨機(jī)森林等算法對(duì)處理過后的醫(yī)保數(shù)據(jù)集中費(fèi)用異常和違規(guī)行為進(jìn)行檢測(cè),并給出檢測(cè)結(jié)果供相關(guān)審核人員進(jìn)行決策。應(yīng)用展示層通過構(gòu)建醫(yī)保數(shù)據(jù)管理及搜索、醫(yī)保分類模型訓(xùn)練、新記錄上傳審核、審批基金趨勢(shì)預(yù)測(cè)、醫(yī)保基金統(tǒng)計(jì)分析以及醫(yī)?;鸷Y選預(yù)警等可視化模塊,為相關(guān)用戶提供應(yīng)用服務(wù)。最后用戶層中為相關(guān)用戶如醫(yī)務(wù)人員、智能部門等提供系統(tǒng)的使用接口,幫助用戶對(duì)醫(yī)保費(fèi)用異常等行為進(jìn)行高效檢測(cè)。
在對(duì)醫(yī)保防欺詐智能審核系統(tǒng)的總體結(jié)構(gòu)和功能模塊進(jìn)行分析時(shí),應(yīng)該通過從一個(gè)用戶進(jìn)行使用的角度來將系統(tǒng)中所有相關(guān)的功能與服務(wù)來設(shè)計(jì)規(guī)劃,從而對(duì)系統(tǒng)的模塊進(jìn)行進(jìn)一步的分析設(shè)計(jì),通過對(duì)該系統(tǒng)的分析與研究,從而對(duì)醫(yī)保智能審核系統(tǒng)有更進(jìn)一步的了解。功能模塊分析就是在設(shè)計(jì)系統(tǒng)功能模塊的基礎(chǔ)上把它細(xì)化、分化,在這個(gè)過程中找到問題并解決問題,發(fā)現(xiàn)缺陷并彌補(bǔ)缺陷,在完成各個(gè)功能模塊的基礎(chǔ)上優(yōu)化每個(gè)模塊接口的處理過程。本文搭建的醫(yī)保防欺詐智能審核系統(tǒng)中各功能模塊大致可分為智能分析模塊、智能服務(wù)模塊、可視化模塊。
基于醫(yī)保大數(shù)據(jù)的分析審核,能夠提供對(duì)結(jié)算數(shù)據(jù),電子病歷數(shù)據(jù),藥品進(jìn)銷存數(shù)據(jù),參保人參保數(shù)據(jù),經(jīng)辦數(shù)據(jù)等全體量的數(shù)據(jù)綜合分析挖掘,將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到醫(yī)保欺詐檢測(cè)中,挖掘病人就診記錄中的潛在價(jià)值,對(duì)醫(yī)保使用記錄中欺詐與違規(guī)等不合理的行為進(jìn)行查驗(yàn)。
智能分析模塊主要是利用多種算法所組成的智能分析算法核心。智能分析算法核心主要分為兩部分,一部分包含對(duì)現(xiàn)有醫(yī)保欺詐數(shù)據(jù)進(jìn)行模型擬合的算法,如本文提出的KM-LR、ALO-KM算法,以及SpectralClustering、GradientBoosting、KNN、決策樹、隨機(jī)森林等算法,用經(jīng)過數(shù)據(jù)處理和特征處理后的醫(yī)保樣本進(jìn)行訓(xùn)練并進(jìn)行優(yōu)化,最終得到用于醫(yī)保防欺詐審核的分類模型;另一部分主要是針對(duì)醫(yī)保數(shù)據(jù)中醫(yī)?;鸬膶徟厔?shì)情況進(jìn)行預(yù)測(cè),該功能使用自回歸整合滑動(dòng)平均模型(AutoregressiveIntegratedMovingAverageMode,ARIMA)來實(shí)現(xiàn),它是一種用來進(jìn)行時(shí)間序列分析預(yù)測(cè)的模型,利用ARIMA算法對(duì)醫(yī)?;饠?shù)據(jù)進(jìn)行建模,對(duì)基金審批情況進(jìn)行預(yù)測(cè)。
(1)醫(yī)保審核模型在線訓(xùn)練模塊。
醫(yī)保審核模型在線訓(xùn)練模塊主要基于處理過后的醫(yī)保數(shù)據(jù),對(duì)本文提出的ALO-KM、KM-LR算法,以及SpectralClustering、GradientBoosting、KNN、決策樹、隨機(jī)森林等算法進(jìn)行在線擬合,得到可靠高效的醫(yī)保異常審核模型,為后續(xù)的醫(yī)保數(shù)據(jù)審核提供模型基礎(chǔ),醫(yī)保審核模型在線擬合模塊處理流程如圖2所示。
圖2 醫(yī)保審核模型在線擬合模塊處理流程
如圖2所示,用戶可以根據(jù)自己的需求選擇不同的算法,對(duì)當(dāng)前數(shù)據(jù)庫中經(jīng)過處理的醫(yī)保數(shù)據(jù)進(jìn)行在線模型擬合,以規(guī)避反復(fù)使用一個(gè)陳舊的模型對(duì)日益累積的新數(shù)據(jù)進(jìn)行審核時(shí)效果有所下降的弊端。新訓(xùn)練好的模型會(huì)暫存在系統(tǒng)中,以供后續(xù)的新醫(yī)保記錄進(jìn)行審核,到下一次模型訓(xùn)練時(shí)將會(huì)被自動(dòng)覆蓋。進(jìn)行模型擬合時(shí),把經(jīng)過數(shù)據(jù)預(yù)處理和特征處理之后的醫(yī)保欺詐數(shù)據(jù)樣本劃分為訓(xùn)練集和測(cè)試集兩部分,其中訓(xùn)練集用來訓(xùn)練分類模型,再用測(cè)試集對(duì)模型進(jìn)行測(cè)試可以得到當(dāng)前模型在測(cè)試集上的G-mean、BER、分?jǐn)?shù)與混淆矩陣,使用戶可以方便清晰的了解到當(dāng)前模型的分類性能,為后續(xù)對(duì)其他新的醫(yī)保樣本審核結(jié)果提供可靠的依據(jù)。之所以采用這四種分?jǐn)?shù)作為各個(gè)算法優(yōu)劣的評(píng)價(jià)指標(biāo),是因?yàn)獒t(yī)保欺詐數(shù)據(jù)屬于正負(fù)樣本不平衡的數(shù)據(jù),而這幾種分?jǐn)?shù)是評(píng)估一個(gè)不平衡類分類算法綜合性能的評(píng)價(jià)指標(biāo),可以同時(shí)考慮到多個(gè)方面。
(2)醫(yī)保報(bào)銷審批基金在線預(yù)測(cè)模塊。
醫(yī)保報(bào)銷基金審批金額的趨勢(shì)預(yù)測(cè)模塊,主要是通過對(duì)醫(yī)保數(shù)據(jù)進(jìn)行統(tǒng)計(jì)提取后,對(duì)提供的按審批日期進(jìn)行排序的醫(yī)?;饒?bào)銷審批金額,利用ARIMA算法對(duì)基金的審批金額趨勢(shì)進(jìn)行預(yù)測(cè),通過提前對(duì)基金審批趨勢(shì)的了解,可以根據(jù)最近的基金審批情況,在一定程度上模擬出接下來的審批金額變化,從而讓決策部門更早的發(fā)現(xiàn)基金運(yùn)行中潛在的問題,并及時(shí)調(diào)整政策進(jìn)行處理,其處理流程如圖3所示。
圖3 醫(yī)保審批基金在線預(yù)測(cè)處理流程
智能服務(wù)模塊主要是以底層的智能核心算法為支撐,實(shí)現(xiàn)醫(yī)保智能審核系統(tǒng)中圍繞審核醫(yī)保欺詐數(shù)據(jù)的相關(guān)核心功能及服務(wù),主要包括醫(yī)保數(shù)據(jù)展示及搜索、醫(yī)?;鸾y(tǒng)計(jì)分析、醫(yī)保記錄上傳審核以及醫(yī)?;鹳M(fèi)用預(yù)警等服務(wù)。
(1)醫(yī)保數(shù)據(jù)展示及搜索模塊。
你遇到困難了?那是一件好事!為什么?因?yàn)?通過不斷地克服困難所取得的一次又一次勝利是你成功的階梯,每一次勝利都會(huì)幫助你增長(zhǎng)智慧和積累經(jīng)歷,每次你遇到困難都用積極的心態(tài)克服困難,那么,你就會(huì)成為一個(gè)更好、更重要、更成功的人.
本模塊通過MySQL作為底層數(shù)據(jù)庫,可以為用戶分頁顯示現(xiàn)有的醫(yī)保數(shù)據(jù)記錄。并且可以通過騙保記錄單號(hào)或個(gè)人編碼來搜索查看相應(yīng)的記錄,對(duì)當(dāng)前頁面的醫(yī)保記錄進(jìn)行打印或?qū)С觥?/p>
(2)醫(yī)?;鸾y(tǒng)計(jì)分析模塊。
本模塊能提供層次豐富、維度多樣的統(tǒng)計(jì)分析圖表,從不同的維度將數(shù)據(jù)轉(zhuǎn)化為更容易理解的圖形解釋,使數(shù)據(jù)更容易被理解,對(duì)基金的使用情況進(jìn)行側(cè)面的分析展示。提供的維度包括對(duì)患者的藥品費(fèi)、檢查費(fèi)、治療費(fèi)、床位費(fèi)、手術(shù)費(fèi)等各種費(fèi)用。通過這些不同的維度對(duì)基金報(bào)銷的審批情況進(jìn)行分析,能更好地讓決策部門掌握醫(yī)?;鹗褂玫娜郑⒏玫囟ㄎ黄渲写嬖诘膯栴},為制定科學(xué)有效的決策提供強(qiáng)有力的數(shù)據(jù)報(bào)表分析支持??梢圆捎每梢暬ぞ甙虻谌娇梢暬ぞ邔?duì)中間結(jié)果和最終結(jié)果進(jìn)行數(shù)據(jù)可視化展示,本文中該模塊使用Highcharts圖表庫設(shè)計(jì)了有一定交互性的柱狀圖和餅狀圖,對(duì)比了騙?;颊吲c沒有騙保的患者在藥品費(fèi)、檢查費(fèi)、治療費(fèi)、床位費(fèi)、手術(shù)費(fèi)等費(fèi)用上的差異,以及各項(xiàng)費(fèi)用占總費(fèi)用的比例,形成了簡(jiǎn)潔明了的匯總分析,有助于更好地識(shí)別異常行為。
(3)醫(yī)保記錄上傳審核模塊。
本模塊主要是利用醫(yī)保審核模型在線擬合模塊中訓(xùn)練得到的分類模型,對(duì)新上傳的醫(yī)保樣本進(jìn)行在線的快速審核。由于上傳的醫(yī)保數(shù)據(jù)多為沒有經(jīng)過處理的原始數(shù)據(jù),因此需要先對(duì)上傳的樣本數(shù)據(jù)進(jìn)行預(yù)處理,再進(jìn)行預(yù)測(cè),最終向用戶分頁展示出審核結(jié)果,即是否涉及騙保,本系統(tǒng)中僅支持上傳。csv格式的醫(yī)保數(shù)據(jù)文件。醫(yī)保記錄上傳審核模塊的處理流程如圖4所示。
圖4 醫(yī)保記錄上傳審核處理流程
(4)醫(yī)保基金費(fèi)用預(yù)警模塊。
對(duì)各模塊進(jìn)行可視化,主要是為用戶提供清晰、簡(jiǎn)潔、明了的可視化界面,為用戶提供方便有效的醫(yī)保智能審核服務(wù)交互并展示各個(gè)服務(wù)的結(jié)果,醫(yī)保系統(tǒng)界面一致、可靠、高效,有良好的用戶體驗(yàn),以便用戶能輕易上手進(jìn)行操作并且保證用戶操作的有效性,主要包括醫(yī)保數(shù)據(jù)展示,模型訓(xùn)練結(jié)果展示,新記錄審核結(jié)果展示,醫(yī)保基金審批金額趨勢(shì)展示,統(tǒng)計(jì)圖表展示,醫(yī)?;鸷Y選預(yù)警展示等。
醫(yī)保防騙智能審核系統(tǒng)的可視化模塊使用主流Web開發(fā)框架Django及其MTV模式進(jìn)行可視化界面的實(shí)現(xiàn),前端頁面使用了JavaScript、Bootstrap、Ajax等技術(shù)。
(1)醫(yī)保數(shù)據(jù)展示界面可以通過在搜索框輸入騙保記錄的順序號(hào)或個(gè)人編碼來查詢數(shù)據(jù)庫中相應(yīng)的醫(yī)保記錄信息。
(2)醫(yī)保審核模型訓(xùn)練模塊分成兩部分,一部分集成A LO-KM、SpectralClustering、AgglomerativeClustering等算法對(duì)無監(jiān)督模型進(jìn)行訓(xùn)練;另一部分集成KM-LR、GradientBoosting、KNN、決策樹以及隨機(jī)森林等算法,對(duì)有監(jiān)督模型進(jìn)行訓(xùn)練,并進(jìn)行測(cè)試。通過選擇不同的算法來擬合醫(yī)保數(shù)據(jù)分類模型。
(3)醫(yī)保記錄上傳審核模塊利用已經(jīng)訓(xùn)練好的機(jī)器學(xué)習(xí)算法模型,對(duì)新上傳的醫(yī)保樣本數(shù)據(jù)進(jìn)行審核,預(yù)測(cè)醫(yī)保樣本是否涉及騙保。
(4)醫(yī)療保險(xiǎn)基金審批金額趨勢(shì)預(yù)測(cè)模塊通過應(yīng)用ARIMA算法,對(duì)醫(yī)保報(bào)銷審批金額時(shí)間序列進(jìn)行預(yù)測(cè)。首先利用大數(shù)據(jù)挖掘算法、統(tǒng)計(jì)分析技術(shù)對(duì)醫(yī)保數(shù)據(jù)集按時(shí)間進(jìn)行匯總分析,得到按時(shí)間排序的每天醫(yī)保審批金額的總值,然后把該基金審批金額的總值應(yīng)用在ARIMA算法中,對(duì)基金的消耗趨勢(shì)進(jìn)行了解,可以得到真實(shí)值和預(yù)測(cè)值變化的擬合過程。
(5)醫(yī)?;鸾y(tǒng)計(jì)分析模塊使用Highcharts圖表庫提供了層次豐富,維度多樣的統(tǒng)計(jì)分析報(bào)表,從不同的維度,側(cè)面對(duì)基金的使用情況進(jìn)行分析展示。為用戶展示了經(jīng)過醫(yī)保數(shù)據(jù)樣本的詳細(xì)特征信息,包括個(gè)人編碼、交易時(shí)間、檢查費(fèi)發(fā)生金額、手術(shù)費(fèi)發(fā)生金額、本次審批金額等相關(guān)信息。并提供了多樣的數(shù)據(jù)分析對(duì)比圖表,更好地讓決策部門掌握基金使用的全局情況,并更好地定位其中存在的問題,為制定科學(xué)的決策提供強(qiáng)有力的數(shù)據(jù)報(bào)表分析支持。
(6)醫(yī)保基金預(yù)警篩選模塊通過系統(tǒng)定義的記錄篩選指標(biāo),并對(duì)每個(gè)指標(biāo)設(shè)置一個(gè)閾值,當(dāng)指標(biāo)的值超過閾值則篩選出異常樣本,此處該模塊定義的篩選指標(biāo)包括藥品花銷,治療花銷,住院花銷,床位花銷,手術(shù)花銷等。
本文主要初步研究設(shè)計(jì)了人工智能在醫(yī)保防欺詐數(shù)據(jù)的智能審核應(yīng)用,對(duì)其進(jìn)行了初步的總體設(shè)計(jì)、功能模塊設(shè)計(jì)與實(shí)現(xiàn)。總體劃分為智能分析模塊、智能服務(wù)模塊、可視化模塊,并對(duì)其中的每個(gè)功能模塊進(jìn)行了介紹闡述。本文的實(shí)現(xiàn)證實(shí)基于醫(yī)保欺詐數(shù)據(jù)的醫(yī)保防騙智能審核系統(tǒng)具備可行性,為醫(yī)保欺詐審核與醫(yī)?;鸬暮戏ɡ锰峁┈F(xiàn)代化、智能化的技術(shù)支持,為醫(yī)療保險(xiǎn)管理機(jī)構(gòu)制定及修改政策、有效利用醫(yī)保數(shù)據(jù)資源、提升審核查驗(yàn)質(zhì)量提供數(shù)據(jù)支持,具有一定的現(xiàn)實(shí)意義。