□李天皓 張 倩 陸 煒
[電子科技大學(xué) 成都 611731]
電子健康記錄(Electronic Health Records,EHRs),是指以計算機可處理形式存在的關(guān)于護(hù)理主體健康狀態(tài)的信息存儲庫,通常又被稱作電子健康檔案或電子病歷[1]。EHRs由醫(yī)療服務(wù)機構(gòu)與病人一次或多次交互產(chǎn)生,主要記錄的信息包括病人的人口統(tǒng)計資料、用藥記錄、生命體征、臨床病史、實驗室檢測結(jié)果以及診斷報告等信息[2~3]。電子醫(yī)療記錄(EMR)與EHRs相似,但EMR最常指的是單一的醫(yī)療事件,而EHRs 包含了病人的整個醫(yī)療記錄情況[4]。目前,EHRs的定義在學(xué)術(shù)界仍缺乏統(tǒng)一的認(rèn)識。一方面,EHRs本身的功能形態(tài)還在不斷發(fā)展之中;另一方面,不同國家和組織根據(jù)自己的需求和理解給出定義[5],但人們對EHRs應(yīng)當(dāng)具備的一些基本特征有著相近的認(rèn)識[6]。簡而言之,學(xué)術(shù)界對EHRs認(rèn)識的共同點大于分歧。
EHRs是旨在與其他醫(yī)療衛(wèi)生組織和機構(gòu)(例如實驗室、專家、醫(yī)學(xué)影像設(shè)施,藥房,急救設(shè)施以及學(xué)校和工作場所診所)共享信息,合理利用EHRs的信息對于控制公共傳染病、干預(yù)衛(wèi)生應(yīng)急事件、預(yù)防與監(jiān)測慢性疾病、改善患者護(hù)理、增強臨床決策支持和提高全民健康水平均有重要的作用[7~8]。電子健康記錄系統(tǒng)和其他的健康數(shù)據(jù)數(shù)字化系統(tǒng)一樣,它可以讓醫(yī)療保健變得更為智能、安全、高效,在這個過程中,區(qū)塊鏈、人工智能和大數(shù)據(jù)等智能技術(shù)發(fā)揮著巨大的推動作用[9~10]。
本文將“電子健康記錄”“電子健康檔案”和“電子病歷”作為關(guān)鍵詞,結(jié)合智能算法應(yīng)用進(jìn)行綜述。主要工作包括:對比電子健康記錄的國內(nèi)外研究趨勢和分析EHRs的發(fā)展情況,并針對國內(nèi)外結(jié)合EHRs和人工智能、大數(shù)據(jù)、區(qū)塊鏈等智能算法的研究情況進(jìn)行分析,最后提出我國發(fā)展EHRs的建議。
對國內(nèi)外EHRs的應(yīng)用情況進(jìn)行分析有助于梳理國內(nèi)電子病歷發(fā)展歷程、分析國內(nèi)外文獻(xiàn)發(fā)表和主題演化情況,從而梳理EHRs主題的研究狀況。
我國EHRs的建立起步較晚,從2000年左右開始,逐漸有少量的大型醫(yī)療機構(gòu)使用計算機代替手寫病歷。在2003年非典流行時期,EHRs出現(xiàn)過一次快速興起,由于當(dāng)時醫(yī)院建立了隔離區(qū),無法與非隔離區(qū)直接進(jìn)行物質(zhì)和信息互換, 很多醫(yī)院使用傳真機在隔離區(qū)和非隔離區(qū)之間交換電子病歷文檔[11]。而國外發(fā)展EHRs的時間較早,如美國和日本,從1960年就開始將計算機技術(shù)應(yīng)用于日常的病歷系統(tǒng)中[12~13]。目前最新的研究報告表示,美國公立醫(yī)院的EHRs采用率達(dá)到了88%[14]。 2017 年,我國也有94%的醫(yī)院使用來自電子健康檔案的電子臨床EHRs數(shù)據(jù),這些數(shù)據(jù)最常用于醫(yī)院質(zhì)量改進(jìn)、監(jiān)測患者生命體征和衡量組織績效[15]。
我國政府十分重視電子病歷的發(fā)展情況,自2002年10月以來,出臺了發(fā)展電子病歷、數(shù)字化醫(yī)療的衛(wèi)生信息化發(fā)展綱要文件《全國衛(wèi)生信息化發(fā)展規(guī)劃綱要(2003~2010年)》。在2009年形成了電子病歷的基本框架和出臺相應(yīng)的標(biāo)準(zhǔn)《電子病歷基本架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)(試行)》,隨后通過試點、改革、建立分級制度等措施,逐步完善了我國電子病歷的發(fā)展機制。2018年發(fā)布《電子病歷系統(tǒng)應(yīng)用水平分級評價標(biāo)準(zhǔn)(試行)》,并要求到2022年,全國二級和三級公立醫(yī)院電子病歷應(yīng)用水平平均分級達(dá)到3級和4級。目前,隨著各地醫(yī)療機構(gòu)的電子病歷的建立,互認(rèn)共享和患者信息脫敏等問題還有待解決。2022年2月,國家衛(wèi)健委發(fā)言人表示,正在研究建立全國統(tǒng)一的電子病歷。歷經(jīng)初步試點、推廣普及、規(guī)范建設(shè),我國電子病歷逐漸向高質(zhì)量管理方向邁進(jìn)。
通過對國內(nèi)外文獻(xiàn)發(fā)表的情況進(jìn)行分析,可以知曉主題的發(fā)文情況與趨勢。本文通過伊瑪目阿卜杜拉赫曼本費薩爾大學(xué)的電子資源門戶訪問 Web of Science (WOS)核心合集(WOSCC)數(shù)據(jù)庫,以EHRs為關(guān)鍵詞索引外文文獻(xiàn),并對文獻(xiàn)出版數(shù)量進(jìn)行分析。WOS數(shù)據(jù)庫是科學(xué)和學(xué)術(shù)出版的選擇性引文索引,涵蓋期刊、會議論文集、書籍和數(shù)據(jù)匯編,被全球研究學(xué)者廣泛認(rèn)為是最可靠的科學(xué)引文索引[16]。而中文文獻(xiàn)采用了CNKI數(shù)據(jù)庫作為文獻(xiàn)來源,包含了核心期刊:CSSCI,以“電子病歷”“電子健康記錄”和“電子健康檔案”為關(guān)鍵詞進(jìn)行檢索。中英文文獻(xiàn)檢索的時間區(qū)間為2000年1月~2022年3月,一共檢索到26 361篇英文文章和1 141篇中文文章,并使用Pyechars進(jìn)行發(fā)文數(shù)據(jù)分析。
1. 發(fā)文量分析
根據(jù)2000~2021年的國內(nèi)外發(fā)文量,繪制了國內(nèi)外發(fā)文對比圖,如圖1所示。可以看出,自2000年以來,以EHRs為主題的文章數(shù)量逐年增加,特別是近十年來(2010年~2020年)發(fā)文量從581篇增長到4 436篇,增長近八倍, 說明了EHRs正不斷獲得國際學(xué)者們的關(guān)注與研究。特別是,2020年以來,文章數(shù)量增長加快,達(dá)到一年600余篇的發(fā)文量。自2019年起,由于新冠肺炎的影響[17],通過發(fā)文趨勢圖可以看出,EHRs發(fā)揮了重要的作用,如整合病歷數(shù)據(jù)、分析致死原因[18]等。
圖1 國內(nèi)外發(fā)文量對比圖
中文發(fā)文量從2000年以來呈現(xiàn)了穩(wěn)步上升的態(tài)勢,最高是2021年,發(fā)文106篇。從數(shù)量上對比,國內(nèi)發(fā)文量不足外文發(fā)文量的1/40,且在2014年后國內(nèi)發(fā)文量下降。究其原因,本文進(jìn)一步整理了國內(nèi)機構(gòu)在WOS上的發(fā)文情況,如圖2所示。從圖2可以看到,國內(nèi)學(xué)者近些年將相關(guān)主題的文章發(fā)表在了國外的期刊上,且最高是2021年的278篇,是國內(nèi)的兩倍多,且2016年后,國內(nèi)機構(gòu)外文發(fā)文量明顯增多。一方面,說明中國學(xué)者也逐漸關(guān)注EHRs并將其納入研究范圍,他們將研究成果更多地發(fā)表在國際期刊,從而擴大研究成果的影響力,側(cè)面反映出我國EHRs建設(shè)的有效性。另一方面,隨著技術(shù)的不斷發(fā)展,近年來EHRs的定義和使用也越來越規(guī)范化,但國內(nèi)缺乏公開和完備的醫(yī)療電子數(shù)據(jù)庫,許多學(xué)者更傾向于投稿到國外的期刊,以獲得更廣泛的認(rèn)可。
圖2 國內(nèi)機構(gòu)外文發(fā)文情況
2. 主題詞演化情況
主題詞演化圖能夠清晰地展現(xiàn)研究的熱點趨勢與各個關(guān)鍵詞之間的相關(guān)性。本文通過對近20年來WOS和CNKI中EHRs相關(guān)文獻(xiàn)關(guān)鍵詞的提取,選擇了出現(xiàn)頻率最高的5 000個關(guān)鍵詞,基于自然語言處理、降維聚類等技術(shù)對數(shù)據(jù)進(jìn)行處理后,利用Biblioshiny(v1.3.2)進(jìn)行可視化,將他們按照四個時間段制作成?;鞒虉D,如圖3所示。
圖3 外文文獻(xiàn)主題詞變化圖
圖3中用灰色路徑表示主題關(guān)聯(lián)程度,得到了文獻(xiàn)主題的演化圖??梢詮膱D3中看到,第一個階段(2000~2010)年,hypertension(高血壓)和diabetes(糖尿病)是學(xué)者們利用EHRs最愛研究的主題。第二個階段(2011~2015)年,這一時間段出現(xiàn)的主題是上一時期研究過的主題的演變,并且在內(nèi)容上有聯(lián)系,例如diabetes(糖尿病),與上一時期中的hypertension(高血壓)、epidemiology(流行病學(xué))和quality of care(護(hù)理質(zhì)量)等有一定聯(lián)系,是研究延續(xù)性的體現(xiàn)。除了糖尿病外,depression(抑郁癥)、quality(質(zhì)量)和privacy(隱私)居于前列,表明研究者們越來越關(guān)注與發(fā)揮EHRs的作用,提升患者的生活質(zhì)量和精神狀態(tài)。第三階段2016~2018年,患者安全成為最熱門的主題,患者安全包括病人安全、用藥安全、醫(yī)療保健安全等方面,是提高醫(yī)療質(zhì)量的關(guān)鍵。第四階段(2019~2022)年,隨著COVID-19的爆發(fā),EHRs被用于預(yù)測患者死亡率、預(yù)測患病人數(shù)等[19]。與此同時,區(qū)塊鏈與EHRs的結(jié)合也成為了新的熱點,區(qū)塊鏈能夠很好地解決EHRs中患者隱私的問題。整體而言,主題演化圖體現(xiàn)了基于EHRs的研究主題在時間和內(nèi)容上的變化情況,能夠更快地把握研究熱點與主題之間的變化,為研究提供方向。
同理,國內(nèi)文獻(xiàn)主題演化圖如圖4,由于國內(nèi)文獻(xiàn)數(shù)量相對少,本文只劃分了三個時間區(qū)間進(jìn)行分析。第一階段(2000~2010年)的相關(guān)研究主要集中在醫(yī)院信息系統(tǒng)和社區(qū)衛(wèi)生服務(wù)相關(guān)研究,此時醫(yī)療糾紛問題成為該階段的熱門主題,醫(yī)院信息系統(tǒng)的建設(shè)備受關(guān)注。第二階段(2012~2015年)我國通過試點與改革逐步實現(xiàn)電子病歷的規(guī)范化,病案管理也成為這一時期的研究熱點。第一階段至第二階段,在國家信息化建設(shè)的發(fā)展進(jìn)程中,病歷模板和居民健康檔案都逐步實現(xiàn)電子化,這一階段的研究熱點也隨之發(fā)生演變。第三階段(2016~2022年),利用EHRs進(jìn)行命名實體識別研究成為熱門趨勢,大數(shù)據(jù)與人工智能技術(shù)也逐漸成為主要研究方向,同時利用EHRs研究新型冠狀病毒肺炎成為了新的研究方向。從第二階段至第三階段可以了解到,EHRs與區(qū)塊鏈聯(lián)系緊密,區(qū)塊鏈獨特的加密技術(shù)和去中心化體系能夠有效地保護(hù)患者隱私,提高存儲效率。
圖4 中文文獻(xiàn)主題詞變化圖
總體而言,醫(yī)療檔案與病歷管理等關(guān)鍵詞始終是研究的趨勢,EHRs需要借助醫(yī)療檔案管理的相關(guān)研究進(jìn)行完善。隨著信息化的發(fā)展,大數(shù)據(jù)與病歷檔案系統(tǒng)、數(shù)據(jù)庫等主題詞關(guān)系緊密,人工智能與數(shù)據(jù)挖掘聯(lián)系緊密,智慧醫(yī)療也由醫(yī)院信息系統(tǒng)延展而來。通過主題演化圖,能夠了解當(dāng)下EHRs的主題與之前的主題演化關(guān)系,清楚地認(rèn)識到主題變化的過程。
3. 關(guān)鍵詞詞云分析
詞云圖可以直觀展示大量文本數(shù)據(jù)及其顯著性。以EHRs為主題的論文中使用的關(guān)鍵詞隨著年份在不斷變化,尤其是與已經(jīng)發(fā)表了很長時間的論文相比,最近發(fā)表的論文更能展現(xiàn)當(dāng)下的研究熱點。本文根據(jù)關(guān)鍵詞出現(xiàn)的頻率展現(xiàn)了近三年最熱門的30個關(guān)鍵詞,得到了如圖5所示的詞云圖,其中單詞的大小對應(yīng)著出現(xiàn)頻率的高低??梢詮膱D5(a)中看出,外文文獻(xiàn)研究中最熱門的關(guān)鍵詞集中在machine learning(機器學(xué)習(xí))、blockchain(區(qū)塊鏈)、COVID-19與privacy(隱私)等。而機器學(xué)習(xí)則是最熱門的話題,目前也有基于EHRs的外文綜述,分別聚焦于深度學(xué)習(xí)[2]、疾病診斷[20]等方面進(jìn)行分析,國內(nèi)尚且缺乏基于EHRs的智能算法類的綜述文章。
圖5 關(guān)鍵詞詞云圖分析
類似地,從圖5(b)中的中文詞云圖可以看出,國內(nèi)學(xué)者的熱門研究點主要在醫(yī)院信息系統(tǒng)、數(shù)據(jù)挖掘和病案管理等方面。該方面的研究多數(shù)在如何建立健全醫(yī)療電子檔案[21]、醫(yī)療電子檔案的共建與分享[22~23]和當(dāng)下國內(nèi)電子病歷管理存在的問題[24]等。相比于外文文獻(xiàn),國內(nèi)學(xué)者更看重醫(yī)療信息化方面的研究。一方面,信息化技術(shù)將改善醫(yī)學(xué)數(shù)字信息的“孤島”,從而提高患者就醫(yī)體驗和醫(yī)生工作效率,減少醫(yī)患矛盾[25~26]。另一方面,得益于國內(nèi)政策引導(dǎo),我國從2011年開始加強了醫(yī)療信息化建設(shè)的步伐。同時,基于大數(shù)據(jù)、區(qū)塊鏈、深度學(xué)習(xí)和人工智能等智能技術(shù)在EHRs領(lǐng)域的應(yīng)用也得到了研究者的關(guān)注[27~29]。
隨著人工智能相關(guān)的硬件與軟件的發(fā)展,近年來醫(yī)療信息化記錄產(chǎn)生的數(shù)據(jù)被學(xué)者們廣泛用于研究。本文梳理了近年來現(xiàn)有的基于EHRs的國內(nèi)外研究情況,如表1所示??梢詮谋?看出,現(xiàn)有的國外文獻(xiàn)聚焦于不同的具體發(fā)展方向,如自然語言處理、表征學(xué)習(xí)、疾病診斷等方面的方法綜述,而國內(nèi)文獻(xiàn)聚焦于文本挖掘與實體識別、檔案建設(shè)和疾病篩查等問題。
表1 國內(nèi)外現(xiàn)有研究綜述
數(shù)據(jù)庫是EHRs的載體,國外特別是美國具有許多健全和廣泛的醫(yī)療電子數(shù)據(jù)庫。而我國已初步建立健康醫(yī)療數(shù)據(jù)庫,但仍存在著諸多問題,如質(zhì)量差的特征、缺乏統(tǒng)一標(biāo)準(zhǔn)、醫(yī)療機構(gòu)間數(shù)據(jù)孤島等問題。這些問題部分由于國內(nèi)數(shù)字化起步較晚,多元化數(shù)據(jù)的整合較少,醫(yī)療數(shù)據(jù)呈現(xiàn)出數(shù)量大(因為人口基數(shù)大)的特點。
任務(wù)型數(shù)據(jù)庫如Kaggle和UCI中的部分?jǐn)?shù)據(jù)庫,由于缺乏病人整體的治療過程和病人基本特征等信息,按照EHRs的定義不在本文的探究范圍。表2展示了部分國內(nèi)外醫(yī)療電子數(shù)據(jù)庫的情況。
表2 國外現(xiàn)有醫(yī)療電子健康數(shù)據(jù)庫
國外醫(yī)療電子數(shù)據(jù)庫有綜合的急診科ICU數(shù)據(jù)庫如MIMIC[47]和eICU,也有專科數(shù)據(jù)庫如SEER腫瘤數(shù)據(jù)庫和MURA骨科數(shù)據(jù)庫。其中MIMIC數(shù)據(jù)庫具有數(shù)據(jù)量大、存儲格式規(guī)范、易讀取等特點,被學(xué)者廣泛用來研究。而國內(nèi)的數(shù)據(jù)庫存在數(shù)據(jù)庫種類少、數(shù)據(jù)類型不夠豐富、存儲不規(guī)范不易讀取等問題。隨著云計算和云存儲的發(fā)展,EHRs的儲存與讀取問題將會得到改善,有利于學(xué)者進(jìn)行后續(xù)的研究[48]。
目前,國內(nèi)許多醫(yī)院都因無法有效地利用EHRs進(jìn)行數(shù)據(jù)分析來為他們的臨床實踐生成高質(zhì)量的見解而苦惱[49~50]。臨床上產(chǎn)生的EHRs必須要加以利用才能發(fā)揮其作用,但EHRs儲存的數(shù)據(jù)必須經(jīng)過數(shù)據(jù)提取、分離、清洗等操作后才可為研究所用。針對不同的醫(yī)療場景和問題,采取合適的處理方式是解決問題的關(guān)鍵,本節(jié)將按照不同的智能算法方法對國內(nèi)外利用EHRs的研究進(jìn)行綜述。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)算法通常用于處理時序類數(shù)據(jù)或文本類數(shù)據(jù)。RNN算法通過循環(huán)神經(jīng)元,使得一個序列的當(dāng)前輸出與之前的神經(jīng)元有聯(lián)系,從而向著序列的演進(jìn)方向進(jìn)行鏈?zhǔn)竭f歸。由于RNN的梯度會隨著時序不斷積累從而出現(xiàn)指數(shù)級衰減,存在梯度消失問題,導(dǎo)致RNN的性能受到了制約,無法解決數(shù)據(jù)的長期依賴問題。LSTM作為RNN的一種變體,能夠很好地處理長期時間序列數(shù)據(jù),GRU是LSTM的一個簡化版,具有與LSTM相同性能下收斂更快、參數(shù)更少的特點。GRU公式如式(1)給出:
圖6展示了GRU的結(jié)構(gòu),圖6和式(1)中的xt表示輸入,ht表示隱藏狀態(tài), σ ,tanh 表示激活函數(shù),rt與zt分別表示重置門和更新門。
圖6 GRU網(wǎng)絡(luò)結(jié)構(gòu)圖
通常RNN類算法擅長處理時序數(shù)據(jù),被廣泛應(yīng)用于EHRs的研究中,如對病人的死亡風(fēng)險進(jìn)行預(yù)測[51~53]、病人再次入院間隔[54]、或者疾病預(yù)測[55~56]等方面。對于語言類數(shù)據(jù),LSTM及其變體常常被用來對醫(yī)學(xué)文本實體命名以提高醫(yī)生查看病歷的工作效率。由于在LSTM模型中,信息只能向前傳播,雙層循環(huán)神經(jīng)網(wǎng)絡(luò)BiLSTM很大程度上改善了LSTM對上下文信息的學(xué)習(xí)。由BiLSTM繼續(xù)發(fā)展成后來的Transformer和BERT[57]模型,都成為了自然語言處理(NLP)領(lǐng)域同時期的SOTA模型。生物醫(yī)學(xué)文本挖掘任務(wù)的語境化語言表示模型BioBERT[58]也有助于理解復(fù)雜的生物醫(yī)學(xué)領(lǐng)域文本。
BERT類算法存在模型龐大、參數(shù)多、收斂緩慢等問題,在實際生產(chǎn)生活應(yīng)用中還有一定的距離。因此,現(xiàn)階段BERT研究方向多聚焦于在模型性能差異不大的情況下,盡可能地壓縮模型大小[59]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在圖像分類、語音識別和句子分類方面取得了優(yōu)異的表現(xiàn)。每個卷積神經(jīng)網(wǎng)絡(luò)包含了一個卷積層和池化層,卷積層可以疊加形成深度卷積網(wǎng)絡(luò)。卷積層通過滑動核心塊,對輸入數(shù)據(jù)進(jìn)行卷積,從而抓住局部的數(shù)據(jù)特征,一維卷積計算公式由式(2)給出:
其中x為輸入信號,w為加權(quán)函數(shù)或卷積過濾器。經(jīng)過卷積后,需要經(jīng)過一個池化層以提取主要的數(shù)值特征,如最大值、平均值等。
在EHRs中,CNN常用于疾病診斷和風(fēng)險預(yù)測任務(wù)中,通過提取數(shù)據(jù)表征進(jìn)行學(xué)習(xí)。Cheng等使用RNN在EHRs中進(jìn)行表征分析,通過時間-事件的二維矩陣對患者信息進(jìn)行表征,構(gòu)建CNN模型進(jìn)行表征提取和風(fēng)險預(yù)測[60]。CNN也被用來預(yù)測EHRs患者死亡率和檢測不良事件[61~62]。在預(yù)后護(hù)理方面,CNN通過對醫(yī)學(xué)圖像數(shù)據(jù)的利用與挖掘,可以實現(xiàn)對乳腺癌患者的藥物反應(yīng)預(yù)測[63]。
CNN主要應(yīng)用于醫(yī)學(xué)圖像處理處理。病人的影像學(xué)檢查會產(chǎn)生許多圖像數(shù)據(jù),如胸透和CT[64~66]等。通過對這些圖像進(jìn)行學(xué)習(xí)可以實現(xiàn)自動化的疾病診斷,如甲狀腺癌的篩查[67]等,從而有效降低醫(yī)生負(fù)擔(dān),同時提高臨床診斷效率。EHRs的文本數(shù)據(jù)可以輔助醫(yī)學(xué)診療決策,CNN可以充分利用文本數(shù)據(jù)實現(xiàn)更好的診療效果。在醫(yī)學(xué)文本分類任務(wù)中,如TextCNN[68]利用預(yù)訓(xùn)練好的詞向量通過CNN進(jìn)行文本分類,并在兒科疾病診斷中得到了良好的應(yīng)用[69]。在智能疾病診斷任務(wù)中,CNN可與NLP技術(shù)相結(jié)合[70],充分利用半結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)療文本數(shù)據(jù),如醫(yī)囑、手術(shù)記錄、護(hù)理記錄、前臺登記數(shù)據(jù)、既往病史等,實現(xiàn)疾病特征的表征學(xué)習(xí)和診斷。
盡管CNN在各種診斷任務(wù)中都達(dá)到了醫(yī)生級別的準(zhǔn)確度,但模型可解釋性的缺失不利于算法的臨床落地。另一方面,多學(xué)科疾病的診斷和更復(fù)雜多模態(tài)信息下的診斷,也是CNN類算法的研究方向[71]。
變分自編碼器(Variational Auto-Encoder,VAE)[72]和生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)[73]都是生成模型(Generative model)的代表。所謂生成模型,即能自動生成樣本的模型??梢詫⒂?xùn)練集中的數(shù)據(jù)點看作是某個隨機分布抽樣出來的樣本,如果能夠得到這樣的一個隨機模型,便可以得到這個生成模型,但這個隨機分布需要通過對訓(xùn)練集的學(xué)習(xí)來得到或逼近。
由于GAN在實際的生成效果中比VAE更優(yōu)秀,這里我們只介紹GAN的工作原理。GAN由Goodfellow于2014年提出,是一種兩個神經(jīng)網(wǎng)絡(luò)互相競爭的特殊對抗過程[73]。第一個網(wǎng)絡(luò)為生成器G,用于生成數(shù)據(jù),第二個網(wǎng)絡(luò)為判別器D,用于區(qū)分生成器創(chuàng)造出來的假數(shù)據(jù)。GAN目標(biāo)函數(shù)V則由式(3)給出:
其中,x表示數(shù)據(jù)樣本,z表示白噪聲,pdata(x)表示生成模型分布,而pz(z)表示噪聲的先驗分布。原始的GAN存在模式崩潰以及難以收斂等問題,WGAN(Wasserstein GAN)將衡量生成器和判別器數(shù)據(jù)分布之間的距離公式改為 Wasserstein距離[74],它相對KL散度與JS 散度具有一定的平滑特性,理論上可以解決GAN梯度消失的問題。為了使GAN能夠更好地適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),DCGAN(Deep Convolutional GAN)通過替換池化層、刪除全連接層和使用批歸一化的方式實現(xiàn)更好的生成效果,進(jìn)一步提升了GAN的穩(wěn)定性和生成結(jié)果的質(zhì)量[75]。近年的Lipschitz GAN將辨別器的Lipschitz常數(shù)約束為小于等于1,避免了梯度 Uninformative 的問題,其生成樣本的穩(wěn)定性和質(zhì)量均優(yōu)于WGAN[76]。到目前為止,GAN已經(jīng)有數(shù)百種變體,如LSGAN[77]、ACGAN[78]等,以適應(yīng)不同領(lǐng)域的任務(wù)。
GAN十分擅長無監(jiān)督學(xué)習(xí)的任務(wù),特別是生成逼真的醫(yī)學(xué)圖像,如利用GAN對胸腺圖像進(jìn)行擴增,用于識別胸腺癌,輔助醫(yī)生進(jìn)行臨床診斷[79]。同時得益于GAN的生成能力,可以對醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行擴增,從而減少由樣本不平衡帶來的訓(xùn)練誤差[80~81]。由于EHRs數(shù)據(jù)記錄著患者的隱私問題,導(dǎo)致在數(shù)據(jù)共享中受到限制。GAN為EHRs數(shù)據(jù)的可替換性提供了解決方案,通過捕獲多維、異構(gòu)的數(shù)據(jù)特征,生成逼真的多模態(tài)EHRs數(shù)據(jù),降低數(shù)據(jù)采集和共享的障礙,保護(hù)患者的隱私。同時,GAN也可以作為補全缺失數(shù)據(jù)的方法之一[82],利用GAN學(xué)習(xí)已有數(shù)據(jù)的分布特征,利用生成器對缺失數(shù)據(jù)進(jìn)行填補,達(dá)到比傳統(tǒng)補全方法更好的填補效果。
目前,GAN的發(fā)展仍然面臨諸多挑戰(zhàn),如全局收斂性的證明和對抗樣本的困擾等[83],但GAN依然是生成模型中最具有潛力的模型,未來可以利用GAN模型生成更多高清的醫(yī)療圖像輔助臨床醫(yī)生診斷。
強化學(xué)習(xí)(Reinforcement Learning, RL)是一種以目標(biāo)為導(dǎo)向的智能決策技術(shù),它以馬爾可夫決策過程(Markov Decision Process, MDP)為理論基礎(chǔ),描述了如何根據(jù)與環(huán)境的重復(fù)交互所得到的經(jīng)驗在順序決策過程中學(xué)習(xí)最佳策略。MDP通常由〈s,p,a,r,γ〉五元組構(gòu)成,分別為狀態(tài)空間s、轉(zhuǎn)移概率p、動作空間a、 獎勵函數(shù)r和折現(xiàn)因子 γ 。經(jīng)典的強化學(xué)習(xí)方法,如Q-learning或其變體,利用迭代計算出狀態(tài)的動作價值函數(shù)Q,如式(4)給出:
其中, π表示由狀態(tài)s和對應(yīng)動作a構(gòu)成的策略空間,Q-learning通過最大化累計獎勵達(dá)到最終目標(biāo)。當(dāng)狀態(tài)和動作空間高維且不連續(xù)時,Q-learning則無法工作,DQN(Deep Q Network)將RL和深度學(xué)習(xí)(Deep Learning, DL)相結(jié)合[84],利用神經(jīng)網(wǎng)絡(luò)擬合Q值,成功解決了上述問題,但依然存在Q估值過高的問題,DDQN則采用了兩個神經(jīng)網(wǎng)絡(luò)分別估計動作的選擇和動作的評估來消除Q值高估的問題[85]。
在EHRs相關(guān)研究中,RL可以為患者提供最佳的個性化治療方案[86~87]。但是傳統(tǒng)的RL方法(如Q-learning)無法解決多維狀態(tài)下的決策問題。隨著DL技術(shù)的不斷發(fā)展和成熟,深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)算法與EHRs相結(jié)合的研究取得了許多進(jìn)展,如使用DQN學(xué)習(xí)最佳肝素給藥策略[88]、采用DDQN算法建議膿毒癥患者的靜脈注射液和升壓藥劑量[89]、基于DDQN為病人提供最佳的麻醉劑量建議[90]等,這些方法都取得了超越人類醫(yī)師的治療效果。DL因其可解釋性問題而存在一定缺陷,研究人員將RL與博弈論結(jié)合,在并發(fā)癥的治療決策問題中使用夏普利值解釋臨床特征的重要性,為Ⅱ型糖尿病患者建議個性化治療方案[91]。盡管單純的RL方法已經(jīng)能夠成功地應(yīng)用于臨床醫(yī)療輔助決策,但是智能體通過“探索”“試錯”和“獎勵指導(dǎo)”來學(xué)習(xí),可能導(dǎo)致學(xué)習(xí)到的策略威脅患者的健康,尤其在藥物的相互作用中,決策的安全性尤其重要。為了更安全地提供輔助決策,監(jiān)督學(xué)習(xí)可以與強化學(xué)習(xí)相結(jié)合,為患者學(xué)習(xí)一個更加“安全”的治療方案,以確保處方的低風(fēng)險性和安全性[92]。
隨著多智能體技術(shù)不斷發(fā)展,學(xué)者們開始將多智能體強化學(xué)習(xí)應(yīng)用在EHRs數(shù)據(jù)中,以支持臨床決策的研究。首先,針對多個醫(yī)生會診治療的場景,學(xué)者們采用了多個智能體模擬多醫(yī)生會診場景,實現(xiàn)對患者關(guān)鍵生理指標(biāo)的最佳控制[93]。其次,由于患者的狀態(tài)是多維的,存在治療周期長、治療藥物復(fù)雜等問題,在應(yīng)用強化學(xué)習(xí)解決醫(yī)療問題中,往往面臨著獎勵的稀疏問題。因此,有研究采用了多智能體分層強化學(xué)習(xí)輔助臨床決策,通過實施具有層級特點的多智能體對策略進(jìn)行加速學(xué)習(xí)[94]。
盡管RL在EHRs數(shù)據(jù)利用方面顯示出可靠的前景,但是在實際應(yīng)用中還需要考慮諸多問題,如狀態(tài)和動作的處理、獎勵函數(shù)的制定、智能體的探索策略設(shè)計、模型策略的評估和在多智能體強化學(xué)習(xí)中的信用分配等問題[95]。
區(qū)塊鏈技術(shù)是一種分布式數(shù)據(jù)存儲技術(shù)[96],它將需要存儲的交易信息通過hash算法編譯成區(qū)塊,并通過鏈的形式與其他區(qū)塊相連接,具有透明、匿名、不可篡改等特點。
EHRs系統(tǒng)在醫(yī)療應(yīng)用過程中面臨著互操作性差、信息不對稱和數(shù)據(jù)泄露等問題[97]。區(qū)塊鏈因其安全性、匿名性和數(shù)據(jù)完整性等優(yōu)勢,使得在其上存儲患者的醫(yī)療記錄成為合理的選擇。EHRs數(shù)據(jù)在上傳區(qū)塊鏈后,任何人無法更改和刪除,確保了病人記錄的準(zhǔn)確性和唯一性[98],但這項技術(shù)需要電子簽名、加密算法、云存儲等技術(shù)的支持。電子簽名能夠提高數(shù)據(jù)訪問的安全性,如多權(quán)限電子簽名[99]、基于角色的身份驗證[97]等方式,以增強簽名的不可偽造性。區(qū)塊鏈加密算法中的公鑰加密[100]、對稱加密[101]等加密技術(shù)增強了醫(yī)療數(shù)據(jù)的安全性,但密鑰的管理成為數(shù)據(jù)加密的關(guān)鍵,為了防止私鑰不被泄漏,采用輕量級的密鑰備份和恢復(fù)方案[102]成了不錯的選擇,或使用智能合約授權(quán)用戶的密鑰訪問權(quán)限[103]來管理密鑰。最后,區(qū)塊鏈中EHRs的存儲大都采用云數(shù)據(jù)庫與鏈下數(shù)據(jù)庫存儲方式,將原始數(shù)據(jù)存儲在云端,將數(shù)據(jù)索引存儲在聯(lián)盟區(qū)塊鏈網(wǎng)絡(luò)中,以降低區(qū)塊鏈存儲負(fù)擔(dān)和隱私泄露風(fēng)險[104]。
利用區(qū)塊鏈技術(shù)對EHRs進(jìn)行數(shù)據(jù)共享是推廣EHRs研究的關(guān)鍵,目前的技術(shù)普遍采用智能合約[104]和問責(zé)機制[105]等方式,以提高數(shù)據(jù)共享的私密性,如通過群簽名智能合約實現(xiàn)匿名信息交換[99],從而增強EHRs數(shù)據(jù)在不同醫(yī)療機構(gòu)之間的流動性,實現(xiàn)醫(yī)療數(shù)據(jù)的便捷共享,以防止數(shù)據(jù)共享過程中的隱私泄露。
基于區(qū)塊鏈技術(shù)的EHRs系統(tǒng)可以方便地對患者醫(yī)療記錄進(jìn)行增、刪、改、查和授權(quán)訪問,但是區(qū)塊鏈技術(shù)在應(yīng)用中還面臨著一定的挑戰(zhàn),如可擴展性和存儲容量、缺乏社交技巧、缺乏普遍定義的標(biāo)準(zhǔn)。
縱觀我國基于電子病歷的研究現(xiàn)狀,不難發(fā)現(xiàn),在推動醫(yī)療智能化的過程中,數(shù)據(jù)的整合、數(shù)據(jù)的利用和數(shù)據(jù)隱私問題仍是急需解決的關(guān)鍵問題,為此,本文提出如下建議:
1. 規(guī)范數(shù)據(jù)整合,加大醫(yī)療信息數(shù)據(jù)庫的建設(shè)力度。雖然我國的醫(yī)療信息化建設(shè)已在逐步普及,但是由于城鄉(xiāng)醫(yī)療資源的差異,醫(yī)療數(shù)據(jù)庫的普及受到限制[23],數(shù)據(jù)質(zhì)量不高,數(shù)據(jù)利用不足[49]。醫(yī)療數(shù)據(jù)庫的標(biāo)準(zhǔn)化建設(shè)將為醫(yī)療信息管理與利用提供助力,醫(yī)療機構(gòu)應(yīng)通過數(shù)據(jù)采集、樣本處理及規(guī)范化存儲,實現(xiàn)臨床信息的數(shù)據(jù)整合、質(zhì)量控制和數(shù)據(jù)服務(wù)的信息平臺,通過醫(yī)療數(shù)據(jù)實現(xiàn)創(chuàng)新增值。
2. 打破“信息孤島”,建立有效的EHRs數(shù)據(jù)共享與互認(rèn)機制。醫(yī)療信息的共享將有助于慢性病患者[106]和老年患者[107]的長期治療。目前,我國除少數(shù)大城市的大型醫(yī)療機構(gòu),大部分醫(yī)療機構(gòu)之間的數(shù)據(jù)都是相互獨立的[108],各級各類醫(yī)療機構(gòu)的醫(yī)療信息平臺沒有實現(xiàn)對接,數(shù)據(jù)難以共享,存在不同的醫(yī)療機構(gòu)之間的化驗結(jié)果互不相認(rèn)等情況。為此,醫(yī)療機構(gòu)應(yīng)該整合醫(yī)療信息資源,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),消除數(shù)據(jù)壁壘,落實數(shù)據(jù)的共享互認(rèn)機制,改善資源之間的互通互聯(lián)問題,提高數(shù)據(jù)的互操作性,杜絕“信息孤島”困境,推進(jìn)數(shù)據(jù)的整合利用[109]。
3. 開放資源,建立標(biāo)準(zhǔn)的集成公開醫(yī)療數(shù)據(jù)集。對比發(fā)達(dá)國家的醫(yī)療信息管理現(xiàn)狀,諸如美國、英國、丹麥等都有自己的集成的、公開的醫(yī)療數(shù)據(jù)庫,供相關(guān)研究人員使用[110]。目前我國的標(biāo)準(zhǔn)集成公開醫(yī)療數(shù)據(jù)庫屈指可數(shù),政府應(yīng)該組織專業(yè)人員整合與建立針對特定疾病或人群的醫(yī)療數(shù)據(jù)集,支持行業(yè)領(lǐng)先企業(yè)或研究機構(gòu)在醫(yī)療大數(shù)據(jù)領(lǐng)域的創(chuàng)新與應(yīng)用研究,利用數(shù)據(jù)幫助研發(fā)人員解密醫(yī)學(xué)規(guī)律、整合醫(yī)學(xué)知識,實現(xiàn)跨學(xué)科的數(shù)據(jù)交互,為相關(guān)疾病研究提供資源,促進(jìn)智慧醫(yī)療技術(shù)的進(jìn)步。
4. 完善醫(yī)療信息安全防護(hù)體系,做好電子病歷資源數(shù)據(jù)的隱私保護(hù)工作。電子病歷包含患者的隱私信息,相關(guān)部門應(yīng)強化數(shù)據(jù)安全意識,制定醫(yī)療數(shù)據(jù)采集、存儲、傳輸、共享各個環(huán)節(jié)的流程規(guī)范[111],明確行為邊界和“禁區(qū)”。強化醫(yī)療信息系統(tǒng)的安全管理,完善數(shù)據(jù)監(jiān)測和預(yù)警機制,制定醫(yī)療信息安全事件的應(yīng)急措施,盡量避免可能出現(xiàn)的數(shù)據(jù)隱私風(fēng)險[112]。在數(shù)據(jù)存儲中,需充分利用區(qū)塊鏈在隱私保護(hù)方面的優(yōu)勢,與現(xiàn)有存儲技術(shù)相配合,實現(xiàn)EHRs數(shù)據(jù)管理與使用過程的可溯源、可追蹤、可把控。在數(shù)據(jù)共享中,可采用數(shù)據(jù)生成模型實現(xiàn)EHRs的可替換性,全方位保護(hù)患者的隱私。
5. 積極推動智慧醫(yī)療研究成果的轉(zhuǎn)化與落地實施,實現(xiàn)產(chǎn)學(xué)研一體化。中科院健康電子研發(fā)中心與深圳諾嘉公司共建健康大數(shù)據(jù)聯(lián)合實驗室[50],將基于醫(yī)療大數(shù)據(jù)研究的新技術(shù)與新成果轉(zhuǎn)化為大眾醫(yī)療服務(wù)的新應(yīng)用與新產(chǎn)品,實現(xiàn)了個性化與社會化的健康管理。盡管智能算法在理論與仿真實驗中被證明在提升診療水平方面效果顯著,但是新技術(shù)、新方法的產(chǎn)業(yè)化尚未形成規(guī)模,尤其是在利用深度學(xué)習(xí)技術(shù)輔助臨床決策中,神經(jīng)網(wǎng)絡(luò)的可解釋性問題是目前急需攻克的難點,嚴(yán)重影響著智能策略的可信度和有效性。
智慧醫(yī)療是我國《新一代人工智能發(fā)展規(guī)劃》發(fā)展方向之一,基于智能技術(shù)的醫(yī)療,如深度學(xué)習(xí)、區(qū)塊鏈等,已經(jīng)成為當(dāng)前智慧醫(yī)療的核心技術(shù)。電子病歷的建設(shè)與發(fā)展為智能技術(shù)在臨床醫(yī)療中的應(yīng)用提供了可靠的支撐。盡管我國正在大力推動醫(yī)療信息化建設(shè),但對于電子病歷的規(guī)范化和標(biāo)準(zhǔn)化方面與其他發(fā)達(dá)國家還有一定的差距,在醫(yī)療數(shù)據(jù)的開放獲取和數(shù)據(jù)共享方面存在挑戰(zhàn)。尤其是在我國的醫(yī)療發(fā)展不平衡情況下,如農(nóng)村落后于城市、貧困地區(qū)落后于發(fā)達(dá)地區(qū),內(nèi)地落后于沿海等現(xiàn)狀,限制了醫(yī)療信息化水平的穩(wěn)步提高,合理高效的推廣與研究電子病歷將提升現(xiàn)有的醫(yī)療信息水平。