吳永飛 王彥博 解立偉 楊璇 劉曦子 徐奇 宮雅菲 何姍 巨春武
摘要:醫(yī)療保障體系的健康發(fā)展一直以來都是事關(guān)國計民生的重要工作?;诖?,提出醫(yī)保宏觀決策的“4S”框架,聚焦“基本醫(yī)療保險基金的定額分配”應用場景,構(gòu)建數(shù)字孿生仿真模擬環(huán)境,并將智能圍棋機器人AlphaGo Zero底層的深度強化學習技術(shù)進行了優(yōu)化改進,將該類人工智能技術(shù)應用于醫(yī)保領(lǐng)域。運用構(gòu)建在數(shù)字孿生仿真模擬基礎(chǔ)之上的深度強化學習技術(shù),旨在解決由道德風險和逆向選擇所導致的醫(yī)?;疬\行風險問題,探索實現(xiàn)該領(lǐng)域社會資源分配達到社會效用最優(yōu)的智能化解決方案。
關(guān)鍵詞:數(shù)字孿生;仿真模擬;深度強化學習;醫(yī)保;宏觀決策
0 引言
我國現(xiàn)行社會醫(yī)療保險體系由2種制度組成:一種是城鎮(zhèn)職工基本醫(yī)療保險制度;另一種是城鄉(xiāng)居民醫(yī)療保險制度。2021年,全國基本醫(yī)療保險參保人數(shù)達13.64億人,參保率穩(wěn)定在95%以上。2021年,全國基本醫(yī)療保險基金(含生育保險)總收入達28 710.28億元。本文聚焦城鎮(zhèn)職工醫(yī)療保險制度,探索如何智能化地合理分配醫(yī)保基金,以期為醫(yī)?;鸬暮侠磉\行及風險規(guī)避提供借鑒。
1 醫(yī)保業(yè)務(wù)背景概述
1.1 我國主要醫(yī)保支付制度
當前我國主要醫(yī)保支付制度為總額預付制和DRGs預付制2種[1]??傤~預付制是指在考慮宏觀經(jīng)濟因素的前提下,根據(jù)一定區(qū)域內(nèi)參保人數(shù)、年均接診總?cè)舜螖?shù)和次均接診費用水平等信息,對區(qū)域內(nèi)年度統(tǒng)籌費用總額進行測算。DRGs預付制全稱為診斷相關(guān)組—預付費制度(Diagnosis Related Groups-Prospective Payment System),是指在國際疾病診斷分類的基礎(chǔ)上,對各個分類組別的付費標準進行科學測算,并進行預先支付。該機制由美國率先研究,已在我國北京進行試點,近年來在全國范圍內(nèi)逐漸推廣。
1.2 醫(yī)保行業(yè)中的道德風險和逆向選擇
醫(yī)保行業(yè)中的道德風險和逆向選擇問題自20世紀60年代以來就成為困擾人類社會的世界性難題。自諾貝爾經(jīng)濟學獎得主肯尼斯·約瑟夫·阿羅于1963年提出社會醫(yī)療保險存在逆向選擇和道德風險的問題以來[2],全球各國的大量實證資料不斷印證了上述難題的存在。
道德風險主要體現(xiàn)為事后風險。在醫(yī)保資金充足的情況下,對于醫(yī)療服務(wù)的需求方,即患者來說,醫(yī)?;鸬目犊Ц稌е聟⒈H藛T過度醫(yī)療,浪費醫(yī)保基金資源;對醫(yī)療服務(wù)的供給方,即醫(yī)療機構(gòu)來說,可能存在憑借信息壟斷優(yōu)勢增加患者醫(yī)療支出的情況;更進一步,還可能催生供需雙方合謀的道德風險,即醫(yī)療機構(gòu)與參保人員通過合謀騙保,以套取醫(yī)療保障資金等情況。
逆向選擇主要體現(xiàn)為事前風險。對醫(yī)療服務(wù)的需求方來說,共付制作為一種個人與社會醫(yī)療保險機構(gòu)共同負擔一定比例醫(yī)療費用的機制,參保人的醫(yī)療費用在起付線以上、封頂線以下部分主要由統(tǒng)籌基金支付,但個人仍需負擔一定比例,在醫(yī)保資金不足的情況下,可能導致部分健康人員參保意愿下降;而對醫(yī)療服務(wù)的供給方來說,在醫(yī)保資金有限的條件下,醫(yī)療機構(gòu)在醫(yī)療技術(shù)和設(shè)備方面投入不足往往使服務(wù)質(zhì)量下降,參保人員住院困難,會導致患者不愿意到水平較低的醫(yī)療機構(gòu)就醫(yī),從而導致該類機構(gòu)的投入浪費。同時,逆向選擇也會引起醫(yī)保基金的道德風險和運行風險,因此在預付制環(huán)境下構(gòu)建一套可以精確分配并可通過極端壓力測試的資源配置機制是當前降低醫(yī)?;疬\營風險的破局之道。
2 基于數(shù)字孿生的醫(yī)保宏觀決策深度強化智能解決方案
2.1 醫(yī)保宏觀決策“4S”框架
為進一步清晰定義醫(yī)保行業(yè)業(yè)務(wù)需求,本文首先從醫(yī)保行業(yè)全局視角出發(fā),提出醫(yī)保宏觀決策“4S”框架,將醫(yī)保體系劃分為4個領(lǐng)域,即業(yè)務(wù)經(jīng)辦體系(Standard operation & supply chain)、公共服務(wù)體系(Social service)、業(yè)務(wù)監(jiān)管體系(Supervision & regulatory affairs)和決策分析體系(Strategy making & decision support)。其中,業(yè)務(wù)經(jīng)辦體系側(cè)重醫(yī)保行業(yè)主要的業(yè)務(wù)流轉(zhuǎn)和管理環(huán)節(jié);公共服務(wù)體系側(cè)重醫(yī)保體系面向接受服務(wù)的社會公眾及利益相關(guān)機構(gòu)的交互路徑與信息傳導機制;業(yè)務(wù)監(jiān)管體系從防控醫(yī)保資源濫用、減少欺詐的立足點出發(fā),對醫(yī)保領(lǐng)域業(yè)務(wù)監(jiān)管事務(wù)進行梳理;決策分析體系立足服務(wù)于醫(yī)保決策機構(gòu),對醫(yī)保體系中涉及宏觀決策和分析的重要課題進行難點梳理。
當前,隨著信息科技的不斷發(fā)展,人工智能針對醫(yī)保領(lǐng)域上述四大體系的需求均可提供針對性解決方案——醫(yī)保全流程中涉及的業(yè)務(wù)經(jīng)辦、公共服務(wù)、業(yè)務(wù)監(jiān)管和決策分析四大體系分別對應了該領(lǐng)域“業(yè)務(wù)流程精細化”“用戶體驗便捷化”“欺詐識別自動化”“宏觀決策智能化”四大核心需求。當前,“業(yè)務(wù)流程精細化”和“用戶體驗便捷化”2項需求已在市場環(huán)境中得到了較充分的滿足。然而,對“欺詐識別自動化”和“宏觀決策智能化”2項需求的充分滿足一直以來都是痛點和難點。
本文聚焦“4S”框架中的決策分析(Strategy making & decision support)領(lǐng)域,針對“城鄉(xiāng)居民基本醫(yī)療保險籌資標準”“醫(yī)保支付管理”“基金監(jiān)督管理”等一系列典型醫(yī)保宏觀智能決策場景展開針對性研究,基于數(shù)字孿生和深度強化的通用智能解決框架,為上述工作提供全新的策略及解決方案。
2.2 數(shù)字孿生環(huán)境構(gòu)建
數(shù)字孿生仿真環(huán)境的構(gòu)建是開展深度強化學習的基礎(chǔ)[3],深度強化智能適于解決醫(yī)保宏觀決策中的多層次動態(tài)博弈決策問題,本文以服務(wù)醫(yī)保體系完成年度定點醫(yī)療機構(gòu)醫(yī)保基金費用配置為起點展開研究。相關(guān)方案可遷移至如下場景:醫(yī)療保障局對于總額預算管理的定點醫(yī)療機構(gòu)進行年度醫(yī)保基金資源分配;定點醫(yī)療機構(gòu)內(nèi)設(shè)的績效運營辦公室等部門通過科主任聯(lián)席會等方式在醫(yī)院內(nèi)部進行分配;定點醫(yī)療的科室內(nèi)部將醫(yī)?;鸬馁Y源配置到每位醫(yī)生身上,確??傤~控制等。
基于情況調(diào)研和現(xiàn)有數(shù)據(jù),本文分別構(gòu)建了轄區(qū)參保人員人口統(tǒng)計學數(shù)據(jù)仿真、定點醫(yī)療機構(gòu)醫(yī)療資源數(shù)據(jù)仿真、醫(yī)療保障涉及疾病及醫(yī)療資源消耗數(shù)據(jù)仿真3種數(shù)字孿生仿真環(huán)境。在轄區(qū)參保人員人口統(tǒng)計學數(shù)據(jù)仿真方面,本文根據(jù)參保人員的統(tǒng)計學特征,從性別、年齡、職業(yè)、有無過往病史、參保類型、居住區(qū)域及就醫(yī)類型7個維度構(gòu)建參保人員的數(shù)據(jù)仿真體系,見圖1。
在定點醫(yī)療機構(gòu)醫(yī)療資源數(shù)據(jù)仿真方面,根據(jù)各個定點醫(yī)療機構(gòu)的醫(yī)療資源及就診現(xiàn)狀等情況,從醫(yī)院類型、級別/資質(zhì)、規(guī)模、專科特長、所在區(qū)域、服務(wù)質(zhì)量、所在地區(qū)人口密度及人群死亡率、是否為教學醫(yī)院、診斷質(zhì)量、上年財政結(jié)余/赤字10個維度構(gòu)建了醫(yī)院機構(gòu)的數(shù)據(jù)仿真體系,見圖2。
在醫(yī)療保障涉及疾病及醫(yī)療資源消耗數(shù)據(jù)仿真方面,綜合醫(yī)療保障涉及的疾病,從疾病類型、平均住院天數(shù)、治療均次費用、醫(yī)療結(jié)果、藥品消耗、病情嚴重及復雜程度、治療方式及資源消耗8個維度構(gòu)建醫(yī)療資源數(shù)據(jù)仿真體系。其中,疾病類型細分為內(nèi)外科、急慢性、是否感染及是否功能性疾病;平均住院天數(shù)按照科室進行統(tǒng)計;治療均次費用根據(jù)歷年真實統(tǒng)計數(shù)據(jù)進行合理推算;醫(yī)療結(jié)果分為痊愈、并發(fā)癥及死亡3種;病情嚴重程度按照國家現(xiàn)有分類分為瀕危、危重、急癥和非急癥4種;治療方式分為手術(shù)治療、藥物治療和物理療法3種;藥品消耗分為藥店購買和住院消耗;資源消耗從醫(yī)療費用、醫(yī)療用品和醫(yī)療儀器3個維度進行統(tǒng)計。醫(yī)療保障涉及疾病及醫(yī)療資源消耗數(shù)據(jù)仿真邏輯見圖3。
2.3 醫(yī)?;鸱峙鋸娀瘜W習模型
強化學習(Reinforcement Learning)是一種通過與環(huán)境的一步步交互,調(diào)整相應的策略,從而追求最優(yōu)回報的自我學習方法。其關(guān)注的問題是一個算法智能代理(Agent)在特定環(huán)境下如何通過與其交互來學習
在不同狀態(tài)(State)下的行為(Action),使其獲得最多的累計回報(Reward),其原理見圖4。
強化學習在全球范圍內(nèi)已取得了令人矚目的發(fā)展。DeepMind團隊將深度強化學習應用到圍棋游戲上并擊
敗世界頂級圍棋選手;智能體AlphaStar在星際爭霸Ⅱ的游戲天梯排名中達到了前1%;卡耐基梅隆大學團隊研發(fā)德州撲克AI冷撲大師輕松擊敗頂級玩家;微軟研發(fā)的Suphx麻將人工智能系統(tǒng)被認為已達到專業(yè)十段水平。此外,深度強化學習還在數(shù)學猜想的證明、電子相互作用的理解,以及控制核聚變等多個前沿領(lǐng)域?qū)伊⑵婀?,相關(guān)成果先后在《自然》和《科學》雜志發(fā)表。然而在國內(nèi),深度強化學習目前的應用領(lǐng)域還非常有限,騰訊公司的深度強化學習智能體王者榮耀“絕悟”于2019年在職業(yè)選手賽水平測試中獲勝,此外深度強化學習也被應用于銀行風險定價領(lǐng)域并初步展現(xiàn)出良好的應用潛力[4]?;诖吮尘埃疚膭?chuàng)新探索利用深度強化學習技術(shù)實現(xiàn)醫(yī)?;鸱峙錄Q策問題,以期進一步拓展強化學習的應用范圍。
本文使用強化學習的優(yōu)點是可以通過數(shù)字孿生技術(shù)模擬出不同醫(yī)?;鸱峙淝闆r下各家醫(yī)院的經(jīng)營環(huán)境,根據(jù)當前醫(yī)院的運營狀態(tài),通過深度強化學習技術(shù)應用,智能地給出在“醫(yī)院的經(jīng)營效益”和“病人就診的滿足率”達到最佳時的基金分配策略。
在算法環(huán)境的定義上,對于醫(yī)?;饛娀瘜W習問題,首先需要準確地定義環(huán)境、狀態(tài)、動作及其獎勵。環(huán)境以某區(qū)域3家醫(yī)院為例,分別為專科醫(yī)院、普通醫(yī)院和綜合醫(yī)院,根據(jù)上文提到的仿真模擬邏輯,可以模擬出醫(yī)院端的環(huán)境;狀態(tài)為在模擬環(huán)境中,各醫(yī)院醫(yī)保資金的數(shù)量、各醫(yī)院的就診人數(shù);動作為各家醫(yī)院基金分配比例;獎勵為根據(jù)基金分配情況以及醫(yī)院的就診情況,計算得到的“醫(yī)院的經(jīng)營效益”和“病人就診的滿足率”函數(shù)。此問題屬于連續(xù)決策空間問題,可適應于深度確定性策略梯度(DDPG)算法,給出“醫(yī)院的經(jīng)營效益”和“病人就診的滿足率”達到最佳時的基金分配情況。
在深度強化學習算法的選擇上,本文采用深度確定性策略梯度算法。在DDPG的原理中,最核心的部分是如何給出兩個網(wǎng)絡(luò)的損失函數(shù),對于Actor網(wǎng)絡(luò)而言,希望Critic網(wǎng)絡(luò)對預測出來的動作評分越高越好,所以Actor網(wǎng)絡(luò)的損失函數(shù)為
loss1=-Q(s,a|θQ)(1)
a=μ(s|θμ)
對于Critic網(wǎng)絡(luò)的損失函數(shù),給出如下定義
loss2={r+γQ′(s′,a′|θQ′)-Q(s,a|θQ)}2(2)
式(1)(2)中,Q(s,a|θQ)為在狀態(tài)s下采取動作a所得的回報;r為未來收益。
式(2)可簡單理解為在使用某動作下Critic網(wǎng)絡(luò)的評價會逐漸接近在此動作下的回報和未來收益,其中在計算未來收益時需要用到Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的定期“軟更新”。
軟更新的目標網(wǎng)絡(luò)參數(shù)更新方式為
θQtarnew=ηθπ+(1-η)θQtarold
θμtarnew=ηθπ+(1-η)θμtarold
式中,η為更新參數(shù)比例系數(shù),通常為0.01或0.1。
通過不斷和環(huán)境進行交互,優(yōu)化Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù),最終能夠獲得一個可以適應環(huán)境變化的強化學習模型。此時根據(jù)醫(yī)?;鸱峙鋯栴}的環(huán)境狀態(tài),可以給出“醫(yī)院的經(jīng)營效益”和“病人就診的滿足率”達到最佳時的基金分配智能化策略。
在算法的表現(xiàn)上,以強化學習結(jié)果為例,見圖5。通過模擬3家醫(yī)院(其中醫(yī)院A為專科醫(yī)院、醫(yī)院B為普通醫(yī)院、醫(yī)院C為重點醫(yī)院),不難看出,針對仿真模擬的標的醫(yī)院在指定時間窗口內(nèi)的表現(xiàn),與真實情況相比,DDPG算法可以較為準確地給出最佳的醫(yī)保分配比例智能化策略。
本文所使用的強化學習算法有以下明顯優(yōu)勢:一是節(jié)省數(shù)據(jù)存儲和計算資源,不同于以往的大數(shù)據(jù)智能建設(shè),本文相關(guān)技術(shù)無須消耗大量存儲資源來對海量明細數(shù)據(jù)進行存儲,規(guī)避數(shù)據(jù)安全風險,并使得數(shù)據(jù)傳輸?shù)炔僮魈幚碛行Ч?jié)省計算資源;二是節(jié)約時間,按照傳統(tǒng)方法至少需要2個月的時間才能得到較優(yōu)解,而通過強化智能可以快速給出合理的結(jié)果;三是智能可遷移,數(shù)據(jù)和智能可以分離,醫(yī)療機構(gòu)可按照自己對業(yè)務(wù)的理解來建立數(shù)字化仿真醫(yī)保醫(yī)療醫(yī)藥數(shù)據(jù)體系,而后直接通過強化學習系統(tǒng)來獲得基于各種仿真環(huán)境的最優(yōu)智能化決策策略。
3 結(jié)語
本文運用構(gòu)建在數(shù)字孿生仿真模擬基礎(chǔ)上的深度強化學習技術(shù),探索解決由社會醫(yī)保存在道德風險和逆向選擇所導致的醫(yī)?;疬\行風險問題,探索實現(xiàn)該領(lǐng)域社會資源分配達到社會效用最優(yōu)的智能化解決方案。本文聚焦于醫(yī)保宏觀決策4S框架中“基本醫(yī)療保險基金的定額分配”應用場景,通過構(gòu)建數(shù)字孿生仿真模擬環(huán)境,建立醫(yī)?;鸱峙鋸娀瘜W習模型,探索合理分配醫(yī)?;鸬闹悄芑缆?,以期降低醫(yī)療保障宏觀決策中的基金運行風險,為醫(yī)?;鸬暮侠磉\行進行有益嘗試。
參考文獻
[1]徐偉偉,胡振產(chǎn).醫(yī)保支付制度改革的“浙江范式”[J].衛(wèi)生經(jīng)濟研究,2021,38(12):3-10.
[2]ARROW K J.Uncertainty and the welfare economics of medical care[M].New York :Academic Press, 1978.
[3]吳永飛,孫靜,王彥博,等.基于數(shù)字孿生視角的商業(yè)銀行風險定價決策探析[J]. 財務(wù)管理研究,2022(3):28-32.
[4]基于深度強化學習技術(shù)的商業(yè)銀行風險定價決策支持系統(tǒng)研發(fā)及示范應用課題組,石言,王彥博,等.基于深度強化學習的銀行風險定價策略探析[J].中國金融電腦,2020(10):33-37.
收稿日期:2021-10-14
作者簡介:
吳永飛,男,1965年生,博士,高級工程師,主要研究方向:金融科技。
王彥博,男,1981年生,博士,博士后,主要研究方向:大數(shù)據(jù)、人工智能、區(qū)塊鏈、量子金融科技。
解立偉,男,1982年生,本科,主要研究方向:面向產(chǎn)業(yè)數(shù)字孿生技術(shù)應用。
楊璇(通信作者),女,1990年生,碩士,注冊金融分析師、金融風險管理師,主要研究方向:金融科技。
劉曦子,男,1986年生,博士,研究方向:區(qū)塊鏈、大數(shù)據(jù)。
徐奇,男,1994年生,碩士,研究方向:數(shù)據(jù)挖掘與機器學習、量子金融科技。
宮雅菲,女,1995年生,碩士,研究方向:金融科技。
何姍,女,1990年生,本科,主要研究方向:金融信貸風險控制。
巨春武,男,1991年生,碩士,主要研究方向:數(shù)據(jù)治理、圖像處理。