易東義,鄧根強,董超雄,祝苗苗,呂周平,朱歲松
(華中科技大學協(xié)和深圳醫(yī)院,廣東深圳518060)
(?通信作者電子郵箱denggenqiang@qq.com)
近些年,隨著人民生活水平不斷提高,中國基本醫(yī)療保險參與人數已經達到13.5億人,參保率超過了95%,醫(yī)療支出費用從2008年的1.45萬億增長到2015年的4.10萬億,年均增長率達16%,遠遠超過我國國內生產總值(Gross Domestic Product,GDP)同期增長率[1],其中很重要的一個原因就是醫(yī)保欺詐、資源浪費和藥物濫用(Fraud-Waste-Abuse,F(xiàn)WA)。根據聯(lián)邦調查局估計,在美國每年欺詐占醫(yī)療保險的3%~10%(大約占190~650億美元)[2]。隨著人口老年化加劇,F(xiàn)WA情況愈演愈烈。根據醫(yī)療機構的報告,2012年美國FWA總費用為750億美元[3-4]。在國內,2017年,僅四川省公布的56件醫(yī)保欺詐案件中,“11.28”特大騙保案件就涉及5400余萬元;2018年“沈陽騙保案”轟動一時,主要涉事人員40余人,給國家?guī)砭薮蟮膿p失。與此同時,傳統(tǒng)的欺詐檢測依靠專家調查,這會產生大量的時間成本和人力成本。根據案件難易程度每次調查的費用在200~20 000美元[4]。此外,隨著醫(yī)療保險數據的爆炸性增長,領域專家人數無法滿足現(xiàn)有欺詐案例篩查的需要。因此,醫(yī)保欺詐方面有必要投入研究,盡早地發(fā)現(xiàn)、預防甚至杜絕醫(yī)療保險欺詐的發(fā)生。
現(xiàn)有的自動醫(yī)保欺詐檢測方法分為兩個研究方向[5-6]:無監(jiān)督學習和有監(jiān)督學習?;跓o監(jiān)督學習[7-9]的欺詐檢測方法非常依賴數據的分布,其特點是尋找離群點作為欺詐點,但是這種方法非常不適合偏移的數據集,比如醫(yī)療保險數據集[10]。 Zhang 等[9]提 出 了 imLOF(improved Local Outlier Factor)局部異常檢測算法,將局部異常點作為欺詐點。另一方面,監(jiān)督學習方法[11-14]需要大量的標簽數據才可以取得較好的預測模型,在實際醫(yī)保欺詐數據中,非欺詐的數據并沒有作記錄,且只有較少的欺詐數據(調查昂貴、患者隱私保護)。Bauder等[11]在不平衡的數據上使用了隨機森林作為分類器。Pandey等[14]提出了基于規(guī)則的計分系統(tǒng)、邏輯回歸模型和決策樹等模型,都依賴于大量的訓練數據樣本。
為了解決數據稀少、數據不平衡和數據標注昂貴的問題,本文從以下3個方面研究:1)增加關系信息。雖然獲取到欺詐的數據樣本稀少,但是病人和醫(yī)生之間的診療記錄都有很好的保存。直觀地講,如果模型建立得適當,用病人和醫(yī)生之間的關系應該可以提高欺詐檢測的性能。2)貝葉斯方法。小數據通常都是在貝葉斯框架下建模,它可以使用先驗分布的合理假設,將小數據中包含的信息傳播給后驗概率。3)提高數據質量。由于成本的限制,醫(yī)療欺詐調查的數量通常是有限制的,因此提高欺詐標識的質量就顯得尤為重要。
本文的主要貢獻如下:
1)提出了一種新的基于關系的變分自編碼模型,可以使用病人和醫(yī)生的關系結構來改善小數據集中的醫(yī)療欺詐自動檢測,即使數據集只包含一類欺詐標簽也可以訓練。
2)提出了一種新的主動學習策略,該策略結合了基于圖卷積和變分自編碼的單分類醫(yī)保欺詐檢測模型(One-Class medical insurance fraud detection model based on Graph convolution and Variational Auto-Encoder,OCGVAE),在保持預測性能的同時,減少了領域專家進行醫(yī)療欺詐調查的次數。
3)在一個真實的醫(yī)療欺詐數據集上對所提算法進行了測試,實驗結果表明,本文方法優(yōu)于目前最先進的方法。
查詢病人的就診訪問記錄,構建病人-醫(yī)生網絡,該網絡可以表示為一個無向圖G ?(V,?,W),其中|V|=n是醫(yī)生與病人節(jié)點數目,?是節(jié)點之間的連接關系,對于任何一個節(jié)點v∈V與其他節(jié)點的關系ei∈?,其權重值為wi∈W。所有節(jié)點的特征向量組合成一個特征矩陣X,節(jié)點之間的權重信息可以使用鄰接矩陣A存儲,為了方便閱讀,將本文中的符號收集如表1,接下來將描述如何將病人-醫(yī)生關系圖集成到一個深層神經網絡來執(zhí)行有效的推理。
圖1展示了患者的藥品購買記錄和醫(yī)療欺詐樣本的病人-醫(yī)生網絡。如圖1所示,欺詐樣本連接起來形成一個集群。事實上,現(xiàn)有的圖形分析方法[15-17]已經表明,關系信息對于檢測醫(yī)療欺詐是有用的,但是,這些方法是無監(jiān)督的,而且是為特定的醫(yī)療系統(tǒng)設計的,例如假設可以從醫(yī)生、病人和藥店獲得詳細的關系信息[16]。相比之下,本文使用一組小型的一類欺詐標簽對病人-醫(yī)生網絡進行建模,以實現(xiàn)準確的醫(yī)療欺詐檢測。
圖1 病人-醫(yī)生關系網Fig.1 Patient-doctor relational network
表1 符號表Tab.1 Label table
本文的欺詐檢測框架如圖2所示,提出了基于圖卷積和變分自編碼的單分類欺詐檢測框架(OCGVAE)。
圖2 醫(yī)保欺詐檢測框架Fig.2 Architectureof medical insurancefraud detection
OCGVAE主要由3個模塊組成,每個模塊都有重要的作用并且相互關聯(lián)??蚣艿牡?個模塊是圖卷積神經網絡(Graph Convolutional neural Network,GCN),它是連接數據特征和病人-醫(yī)生關系網絡的關鍵樞紐。它包含輸入層和兩個隱藏層,第二個隱藏層有兩個并行結構,它們共享第一層參數。第2個模塊是變分自動編碼器(Variational Auto-Encoder,VAE),其輸入是GCN的輸出,一個輸出是平均向量,另一個是標準偏差向量,它們構成了隱藏變量的分布。最后的模塊是關于框架的輸出,在本文提出的架構中,節(jié)點的標簽和節(jié)點之間的鏈接可以被預測。
在機器學習領域,卷積神經網絡(Convolutional Neural Network,CNN)模型取得了令人矚目的成績,但是,CNN不適合醫(yī)保欺詐的場景,因為傳統(tǒng)的CNN模型只適用在歐幾里得空間上,而病人-醫(yī)生關系網絡是一個圖結構的數據。為了解決這個問題,本文使用了圖卷積方案(GCN),它可以在圖譜領域處理圖結構數據[18-19]。
定義一個圖卷積操作*G,給定一個參數為θ∈Rn的過濾器Fθ?diag(θ)和一個輸入信號x∈Rn,卷積操作可以定義為:其中:U∈Rn×n是拉普拉斯矩陣L特征向量組成的矩陣,即其中I n是單位矩陣,A和D是圖G的鄰接矩陣和度矩陣,Λ是一個對角矩陣,其對角線上的值是矩陣L的特征值。
雖然GCN適合用于醫(yī)患網絡模型,但計算復雜度仍然是一個問題。式(1)需要的時間復雜度是O(n2),其中n是節(jié)點個數。二次時間復雜度說明了在人數較多時,GCN不能有效地工作。為了解決這個問題,文獻[18-19]提出了兩個近似計算,將時間復雜度降到線性關系。
1)切比雪夫多項式近似[18]。
其中:S(?)是激活函數,H(l)和W(l)是第l層的激活矩陣和參數,H(0)=X。
OCGVAE的理論模型為:
其中X和A是對應病人-醫(yī)生關系網的特征矩陣和鄰接矩陣。為了利用好病人-醫(yī)生關系網信息,將潛在變量z的變分參數定 義 為 GCN 模 型 :其 中μ?GCNμ(X,A;Wμ)和lbσ?GCNσ(X,A,Wσ)。
生成模型的定義:
以上兩個式子定義為:p(Aij=1|z i,z j)?S(z iTz j),p(yi=1|z i)?S(W l z i+b),其中W l是邏輯回歸因子,b是偏置項,只有極少數的m?n是標記為欺詐的節(jié)點。
上述的參數Wμ、Wσ、W l都可以使用變分下界函數優(yōu)化:
主動學習策略[20-22]已經成功地應用于數據標注,特別是在標記數據點非常昂貴和/或費時的情況下,這種技術允許用最少的標簽實現(xiàn)模型的預測準確性。本文提出的OCGVAE可以借助主動學習,更好地進行欺詐調查,其關鍵思想是調查最不確定的案件,以便OCGVAE進行分類:
其中:yv是節(jié)點v的標簽,?[]?是分布的熵,節(jié)點v的熵值由以下計算得到:
后驗分布p(yv|A,X,y)由以下推出:
通過式(12)計算熵值選擇出最不確定的節(jié)點給專家做案件調查。
本文所使用的醫(yī)保欺詐數據來自于深圳市某醫(yī)院2015年患者就診數據,包含了120萬的訪問記錄,40萬就診患者,1242名醫(yī)生。由于有限的計算資源,從中選擇了一個較合理的數據子集,篩選的條件如下,20<年齡<70,總支付>800,總數量>16,最高價格>35,頻次>1,自費<300,最低價格>15。
經過篩選后,用于實驗的數據集有34192名患者和1 095名醫(yī)生,包含138個欺詐患者的912次就診信息,其數據特征如表2所示。
利用患者就診記錄(表2)建立節(jié)點特征矩陣X,將性別、年齡、保險類型、就診次數、年費、年購藥量等不變量直接復制到特征矩陣中。計算2015年期間個人就診記錄的屬性平均值,包括最高單價、最低單價、天數、數量、自費和總金額。上述特性僅用于指定每個病人節(jié)點,而醫(yī)生節(jié)點中的對應節(jié)點則保留為一些虛擬值。醫(yī)保欺詐發(fā)生時,起著關鍵作用是病人的特征,而不是醫(yī)生。
為了建立病人和醫(yī)生之間的關系結構,本文使用一個簡單的啟發(fā)式算法對病人-醫(yī)生圖G中的邊進行加權。定義邊ei∈?是節(jié)點(u,v)的連接關系,定義wi∈W是邊ei的權重。如果u、v是同類型的,wi=0,否則,wi是病人訪問醫(yī)生的次數。
表2 病人就診記錄描述Tab.2 Description of patient visit records
在GCN結構中,第一層和第二層分別有32個和16個隱藏單元,為防止過擬合,設置dropout為0.5,學習率為0.01,隱藏變量z i的維度是16。實驗采取了4折交叉驗證,結果平均超過100次隨機實驗,該模型采用精確度、查全率、準確率和F1分數等多個指標進行性能評價。
表3顯示了在真實世界的醫(yī)療數據集上醫(yī)療保險欺詐檢測的結果。實驗比較了兩類算法在有無病人-醫(yī)生關系網情況下的性能。在所有性能指標中,本文提出的模型能夠獲得最優(yōu)的性能指標,這說明病人-醫(yī)生關系網在欺詐檢測當中有著很重要的作用。總的來說,在病人-醫(yī)生網絡中工作的方法比其他方法表現(xiàn)更好,這表明醫(yī)患網絡可以提供額外的有用信息,提高欺詐檢測的性能。OCGVAE的性能明顯優(yōu)于Semi-GCN(在三個指標上比Semi-GCN高15%~20%),原因是變分的AutoEncoder框架可以解決由于一個小的單類標記數據集引起的過擬合問題。
為了解釋所提出的OCGVAE所引起的改進,圖3將二維空間中的數據可視化,構建了一個由138個欺詐節(jié)點和300個隨機選擇的未標記節(jié)點組成的小數據集。圖3(a)僅使用節(jié)點特征,用無監(jiān)督的降維方法T-SNE[37]可視化節(jié)點;圖3(b)通過在OCGVAE模型中將潛變量z i的維數設置為2來可視化數據。
圖3 使用T-SNE和OCGVAE的醫(yī)療保險數據的可視化Fig.3 Visualization of medical insurance fraud dataset based on T-SNE and OCGVAE
可以看到,圖3(a)數據點是混合的,難以分離欺詐數據和未標記的點;圖3(b)表明兩種數據點在潛在空間z中可以更好地分離,因此,使用OCGVAE模型可以更容易地學習分類邊界。
表3 使用關系網與不使用關系網各算法在真實數據上檢測性能的比較Tab.3 Detection performancecomparison of different algorithmson real datawith or without relational network
為了顯示主動欺詐調查的成本效益,本文比較了以下三種策略的性能。
最大熵(MaxEnt)策略 它使用預測熵來度量未標記點的不確定性;然后,選擇MaxEnt前k個未標記數據點進行欺詐調查。
最大概率(MaxProb)策略 與MaxEnt不同,直接在欺詐預測中選擇概率最高的前k個數據點。
隨機(Random)策略 在未標記的樣本中隨機選取k個數據點做調查。
如圖4所示,在不同的學習率和分類閾值設置下(學習率和分類閾值作為超參數,可以由經驗設置),MaxEnt策略在所有4個性能指標中都優(yōu)于其他兩個策略(由于篇幅限制,只畫出了F1值和準確率)。隨機策略表現(xiàn)最差,這意味著常規(guī)的自動檢測欺詐的做法非常低效。當設置適當的學習率和分類閾值(例如,學習率a為 0.01,閾值t為 0.8)時,MaxEnt和MaxProb可以獲得相近的性能。在所有設置中,MaxEnt策略比MaxProb策略執(zhí)行得更穩(wěn)定。因此,在現(xiàn)實場景中部署主動欺詐調查時,MaxEnt策略是一個更好的選擇。
在圖5中,顯示了隨著欺詐標簽數據增多的性能變化趨勢。結果表明,使用兩個分類閾值:0.5和0.8,MaxEnt方法均可以較快地收斂(由于篇幅限制,只畫出了F1值曲線)。
圖4 OCGVAE中主動學習策略在不同學習率和分類閾值下的性能比較Fig.4 Performancecomparison of active learningstrategiesin OCGVAEwith different learningratesand classification thresholds
圖5 不同分類閾值t下OCGVAE中主動學習策略的收斂曲線Fig.5 Convergence curves of active learning strategies in OCGVAE with different classification thresholds t
本文著重于研究一個自動醫(yī)療欺詐檢測框架。該框架的主要特點是:1)能自動偵測進行醫(yī)療詐騙活動的可疑病人;2)能協(xié)助領域專家進行具有成本效益的醫(yī)療詐騙調查。這依賴于本文提出的一種新穎的基于變分自動編碼器的關系模型,它可以同時利用病人-醫(yī)生網絡和一類欺詐標簽,來改善欺詐檢測和欺詐調查任務。與一類對抗神經網絡(OCAN)、一類高斯過程(OCGP)、一類近鄰(OCNN)、一類支持向量機(OCSVM)和半監(jiān)督圖卷積神經網絡(Semi-GCN)算法相比,準確率分別高出16.1%、70.2%、31.7%、36.5%和27.6%。但是,隨著患者人群的增大,該框架對計算機的計算資源的要求也會劇增。在未來的工作中,將考慮如何解決這個問題。