萬振,崔菲菲(通信作者)
天津市海河醫(yī)院信息科 (天津 300350)
結(jié)核病是全球由單一病原體感染導(dǎo)致患者死亡的第十大原因[1]。據(jù)世界衛(wèi)生組織估算,目前全球有17億人感染結(jié)核菌,活動性結(jié)核患者數(shù)量達1 300萬[2]。我國的估算結(jié)核病新發(fā)患者數(shù)量為88.9萬,估算結(jié)核病發(fā)病率為63/10萬,在30個結(jié)核病高負擔(dān)國家中估算結(jié)核病發(fā)病率排第28位[3]。全球因結(jié)核病死亡人數(shù)約157萬,病死率為17/10萬,我國因結(jié)核病死亡人數(shù)為3.7萬,病死率為2.6/10萬(在30個結(jié)核病高負擔(dān)國家中排第29位)[4-5]。同時,結(jié)核病患者的耐藥情況不容樂觀,據(jù)世界衛(wèi)生組織估算,2017年全球利福平耐藥結(jié)核病患者數(shù)量約56萬,其中耐多藥結(jié)核病約占82%。高發(fā)病率、高耐藥率以及結(jié)核/艾滋病雙重感染是我國結(jié)核病的重要特征,因此,提高結(jié)核病的預(yù)防、準(zhǔn)確診斷及精準(zhǔn)治療水平,對結(jié)核病管理及人類健康非常必要。
結(jié)核病發(fā)病率高,患病群體范圍廣,已嚴重影響人類的健康[6]。相較于其他傳染性疾病,結(jié)核病的特點在影像學(xué)上表現(xiàn)為多分布、多形態(tài);在基因組學(xué)上表現(xiàn)為多耐藥性突變;在臨床上表現(xiàn)為療程長、多復(fù)發(fā)等。結(jié)核病多維大數(shù)據(jù)平臺建設(shè)集成多家醫(yī)療機構(gòu)、數(shù)據(jù)聯(lián)盟及互聯(lián)網(wǎng)公共資源的結(jié)核病影像、全基因組及診療文本數(shù)據(jù),綜合利用專業(yè)的人工標(biāo)注、機器學(xué)習(xí)技術(shù)和統(tǒng)計分析技術(shù),對數(shù)據(jù)資源進行結(jié)構(gòu)化處理和功能標(biāo)注,建立多維度結(jié)核病樣本庫;運用大數(shù)據(jù)及人工智能技術(shù),構(gòu)建結(jié)核病診斷與治療預(yù)測模型庫,可為結(jié)核病的診斷、治療及病理機制研究提供輔助決策支持。
結(jié)核病數(shù)據(jù)資源庫根據(jù)訪問與使用人員的不同劃分為不同的層級,不同層級的結(jié)核病數(shù)據(jù)資源可供不同的單位和人員進行查詢、檢索、統(tǒng)計及大數(shù)據(jù)分析。在基因數(shù)據(jù)資源庫建設(shè)方面,系統(tǒng)將建立結(jié)核分枝桿菌的基因數(shù)據(jù)庫,并根據(jù)臨床知識及臨床診療規(guī)范,建立結(jié)構(gòu)化數(shù)據(jù)采集轉(zhuǎn)換標(biāo)準(zhǔn)方案,保證后續(xù)遞增入庫數(shù)據(jù)的全面。
在完整全面的結(jié)核病數(shù)據(jù)資源庫的基礎(chǔ)上,圍繞結(jié)核病輔助診斷、結(jié)核病治療方案精準(zhǔn)推薦等核心內(nèi)容定位,采用大數(shù)據(jù)分析技術(shù)、人工智能應(yīng)用技術(shù),建設(shè)結(jié)核病數(shù)據(jù)資源庫深度分析與挖掘業(yè)務(wù)應(yīng)用方案(包括對患者的特征分析、結(jié)核病與其他因素的關(guān)聯(lián)分析、結(jié)核病診療流程節(jié)點及診療標(biāo)準(zhǔn)研究、診療知識庫建設(shè)、現(xiàn)有基礎(chǔ)數(shù)據(jù)及后續(xù)遞增入庫數(shù)據(jù)的結(jié)構(gòu)化方案、影像標(biāo)注方法、基因測序范疇及應(yīng)用等),充分結(jié)合結(jié)核病臨床實際需要,考慮結(jié)核病數(shù)據(jù)的可用分析點,發(fā)現(xiàn)結(jié)核病內(nèi)存數(shù)據(jù)的規(guī)律,保證數(shù)據(jù)質(zhì)量。
建立結(jié)核病數(shù)據(jù)資源庫的最終目的是基于結(jié)核病數(shù)據(jù)資源庫的數(shù)據(jù)為醫(yī)院醫(yī)師、政府機構(gòu)等提供服務(wù);在結(jié)核病數(shù)據(jù)資源庫的基礎(chǔ)上,針對結(jié)核病預(yù)防、診斷、治療的社會化需求,為醫(yī)院及其他衛(wèi)生行業(yè)設(shè)計架構(gòu);針對不同層級的人員需求及數(shù)據(jù)的安全保密要求,提供不同層級的服務(wù),充分發(fā)揮大數(shù)據(jù)自身的價值。
系統(tǒng)基于結(jié)核病基礎(chǔ)數(shù)據(jù)(包含患者的基礎(chǔ)信息、病史、臨床表現(xiàn))、手術(shù)信息、醫(yī)囑信息、影像學(xué)檢查信息、診斷結(jié)論信息、用藥信息、實驗室化驗信息、細菌學(xué)檢查信息、隨訪信息、用藥信息等,構(gòu)成全面的結(jié)核病數(shù)據(jù)資源基礎(chǔ)數(shù)據(jù)源,通過對接、導(dǎo)入、抓取及相應(yīng)的數(shù)據(jù)清洗、加工等處理,形成結(jié)核病數(shù)據(jù)資源庫;基于結(jié)核病數(shù)據(jù)資源庫,為臨床提供統(tǒng)計分析挖掘和數(shù)據(jù)分析挖掘服務(wù),輔助進行結(jié)核病的診斷及治療方案推薦。結(jié)核病數(shù)據(jù)資源庫及在其上實現(xiàn)的數(shù)據(jù)統(tǒng)計分析和挖掘功能可以通過一定的手段對外提供數(shù)據(jù)服務(wù),且與相應(yīng)的數(shù)據(jù)抽取技術(shù)機制均采用統(tǒng)一的數(shù)據(jù)管理,見圖1。
圖1 系統(tǒng)流程的分析
數(shù)據(jù)匯集的主要功能是通過技術(shù)手段,從各類基礎(chǔ)數(shù)據(jù)源中獲取相應(yīng)的結(jié)核病數(shù)據(jù)資源庫的基礎(chǔ)數(shù)據(jù),通過移動數(shù)據(jù)進行清洗、加工、處理等,形成平臺的結(jié)核病數(shù)據(jù)資源庫。
結(jié)核病數(shù)據(jù)資源庫的主要組成部分是以個體病例為索引,包含診斷、化驗、治療以及隨訪的全部數(shù)據(jù),其中既有結(jié)構(gòu)化的數(shù)據(jù),也有患者的影像、基因測序等非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)資源庫將根據(jù)業(yè)務(wù)的具體要求,建立完整、全息、多維的結(jié)核病數(shù)據(jù)信息庫。
數(shù)據(jù)資源完整性不僅指時間上的完整(包含診斷、化驗、治療、隨訪等各個業(yè)務(wù)環(huán)節(jié)),還指內(nèi)容上的完整(包括結(jié)構(gòu)化患者的基本信息、診斷信息及影像、基因測序等信息)。
結(jié)核病數(shù)據(jù)資源庫是多維的,不僅包含了時間維度(可以保證患者數(shù)據(jù)時間鏈的完整,同時可以保證其他數(shù)據(jù)的時間序列化),還包含了針對結(jié)核病防治業(yè)務(wù)特點及結(jié)核病數(shù)據(jù)資源庫的結(jié)核病病種維度、治療效果維度、患者特征維度(如患者職業(yè)、性別、年齡等)。
目前,結(jié)核病數(shù)據(jù)資源庫的基礎(chǔ)數(shù)據(jù)源主要包括以下幾個方面。(1)海河醫(yī)院數(shù)據(jù):天津市海河醫(yī)院是全國結(jié)核病防治重點醫(yī)院,屬于天津市戰(zhàn)備醫(yī)院,結(jié)核病防治工作及相應(yīng)的結(jié)核病數(shù)據(jù)占全市的70%以上,因此,海河醫(yī)院現(xiàn)有的數(shù)據(jù)是本平臺結(jié)核病數(shù)據(jù)資源庫非常重要的數(shù)據(jù)來源;海河醫(yī)院有多個信息化應(yīng)用系統(tǒng),包括醫(yī)院信息系統(tǒng)(hospital information system,HIS)、實驗室(檢驗科)信息系統(tǒng)(laboratory information system,LIS)、影像歸檔和通信系統(tǒng)(picture archiving and communication systems,PACS)、電子病歷(electronic medical record,EMR)、手麻、體檢等多個存有科研相關(guān)電子醫(yī)療信息的子系統(tǒng),雖然患者電子數(shù)據(jù)完整,但數(shù)據(jù)存在多個數(shù)據(jù)庫,數(shù)據(jù)庫間結(jié)構(gòu)存在差異,數(shù)據(jù)整合難度較大;為了解決這個問題,基礎(chǔ)數(shù)據(jù)的獲取過程見圖2。(2)其他醫(yī)院數(shù)據(jù):由于結(jié)核病的診斷、治療有自身的一些共性,雖然不同醫(yī)院的信息化應(yīng)用以及數(shù)據(jù)結(jié)構(gòu)有所不同,但就結(jié)核病而言,整體上基本是相同的,因此,其他醫(yī)院的基礎(chǔ)數(shù)據(jù)獲取可通過具體的分析后,指定相應(yīng)的數(shù)據(jù)獲取方案。(3)聯(lián)盟數(shù)據(jù):全國結(jié)核病醫(yī)院聯(lián)盟主要由結(jié)核病醫(yī)院、結(jié)防機構(gòu)、科研院所、高校、企業(yè)及相關(guān)領(lǐng)域?qū)<医M成,現(xiàn)有83家會員單位,包括53家事業(yè)單位及30家企業(yè)單位;聯(lián)盟數(shù)據(jù)包含了全國各地的結(jié)核病患者診斷及治療的有關(guān)數(shù)據(jù);該數(shù)據(jù)通過互聯(lián)網(wǎng)抓取的方式來獲取;截至目前,聯(lián)盟數(shù)據(jù)中心已有200萬條結(jié)核病患者的診療信息,各類用藥、治療等記錄達到上億條(注意,參與聯(lián)盟的各醫(yī)院具有聯(lián)盟數(shù)據(jù)的使用權(quán)限)。
圖2 基礎(chǔ)數(shù)據(jù)的獲取過程
數(shù)據(jù)處理,首先是采用一定的技術(shù)方法從各類數(shù)據(jù)源獲取有關(guān)的基礎(chǔ)數(shù)據(jù),其次是根據(jù)結(jié)核病數(shù)據(jù)資源庫的特點,形成各有關(guān)部分的數(shù)據(jù)[7]。處理方式如下:(1)標(biāo)識化處理,由于基礎(chǔ)數(shù)據(jù)質(zhì)量不一,需要對有些數(shù)據(jù)字段進行補充等處理,形成以患者標(biāo)識信息為索引的數(shù)據(jù)局信息鏈[8-9];(2)序列化,形成按時間序列的數(shù)據(jù)鏈;(3)匯總,由顆粒度小的數(shù)據(jù)匯總成顆粒度大的數(shù)據(jù),供統(tǒng)計分析及挖掘使用;(4)代碼轉(zhuǎn)換,基于結(jié)核病數(shù)據(jù)資源庫的標(biāo)準(zhǔn)定義,對同樣的數(shù)據(jù)采用相應(yīng)的編碼。
基礎(chǔ)數(shù)據(jù)需經(jīng)過一定的數(shù)據(jù)處理,根據(jù)不同的功能形成各個數(shù)據(jù)組成部分,供不同的人員使用。結(jié)核病數(shù)據(jù)資源庫主要有以下功能:(1)提供原始的基礎(chǔ)數(shù)據(jù),即對各種數(shù)據(jù)來源的基礎(chǔ)數(shù)據(jù)進行處理后,使其具備數(shù)據(jù)完備性并符合相關(guān)技術(shù)要求;(2)數(shù)據(jù)統(tǒng)計,本系統(tǒng)的數(shù)據(jù)統(tǒng)計分析通常無需明細數(shù)據(jù),只需要在基礎(chǔ)數(shù)據(jù)的基礎(chǔ)上進行一定的匯總等處理;(3)數(shù)據(jù)分析挖掘及人工智能應(yīng)用部分,針對大數(shù)據(jù)統(tǒng)計分析人工智能應(yīng)用,由于處理的數(shù)據(jù)規(guī)模大,會采用與傳統(tǒng)數(shù)據(jù)統(tǒng)計分析不同的技術(shù)手段,即采用大數(shù)據(jù)技術(shù)架構(gòu);(4)數(shù)據(jù)交換,結(jié)核病數(shù)據(jù)資源庫的實現(xiàn)需要繼承外部的有關(guān)數(shù)據(jù),且需要為外部的系統(tǒng)提供數(shù)據(jù)服務(wù)。
該數(shù)據(jù)平臺可為各醫(yī)療機構(gòu)、政府機關(guān)等單位提供數(shù)據(jù)分析報告(主要包含定期的結(jié)核病發(fā)病情況),該報告是通過對數(shù)據(jù)的加工處理,為相關(guān)機構(gòu)和人員提供宏觀及微觀層面的結(jié)核病數(shù)據(jù)信息;相關(guān)機構(gòu)和人員可以詳細掌控結(jié)核病發(fā)病、蔓延、防控等有關(guān)情況;醫(yī)師可通過經(jīng)過處理的數(shù)據(jù)獲取相關(guān)的數(shù)據(jù)及針對具體病例的輔助診斷和治療方案的推薦,且醫(yī)師可以查詢具體患者的結(jié)核病診斷、治療、隨訪等有關(guān)信息及平臺發(fā)布的各類分析報告等信息。本系統(tǒng)的用戶既可能是互聯(lián)網(wǎng)用戶,也可能是衛(wèi)生行業(yè)用戶,因此,為了保證系統(tǒng)訪問的高效性、安全性,需要在互聯(lián)網(wǎng)及專網(wǎng)上均放置數(shù)據(jù),且針對不同的數(shù)據(jù)服務(wù)群體,部分數(shù)據(jù)需要一定的加密處理。
綜上所述,結(jié)核病多維大數(shù)據(jù)平臺根據(jù)臨床的需要,結(jié)合結(jié)核病的臨床診療規(guī)范及醫(yī)師經(jīng)驗,構(gòu)建包含全面文本病歷信息、隨訪信息、醫(yī)學(xué)影像數(shù)據(jù)在內(nèi)的全息、多維結(jié)核病數(shù)據(jù)庫,可確保數(shù)據(jù)全面、準(zhǔn)確、標(biāo)準(zhǔn)、可用,為臨床提供基礎(chǔ)數(shù)據(jù)支持;采用數(shù)據(jù)集成、導(dǎo)入、人工采集等多種方式,從不同的來源和渠道獲取相應(yīng)的結(jié)核病基礎(chǔ)數(shù)據(jù),按照結(jié)核病診斷、治療、預(yù)防等特點,通過數(shù)據(jù)處理,建設(shè)結(jié)核病完整、全面、層級化的數(shù)據(jù)資源庫,可為結(jié)核病的輔助診斷、精準(zhǔn)治療及預(yù)防等提供有質(zhì)量保證的基礎(chǔ)數(shù)據(jù)[10];并以此為基礎(chǔ)進行大數(shù)據(jù)分析,可輔助結(jié)核病的診斷及治療方案推薦。