俞鵬飛,羅顥文,劉建模,易應(yīng)萍
(南昌大學(xué)第二附屬醫(yī)院信息處醫(yī)療大數(shù)據(jù)研究中心,江西 南昌 330000)
2016年6月,國(guó)務(wù)院辦公廳發(fā)布《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見(jiàn)》[1]。同年底,國(guó)家衛(wèi)生計(jì)生委啟動(dòng)健康醫(yī)療大數(shù)據(jù)中心與產(chǎn)業(yè)園建設(shè)國(guó)家試點(diǎn)工程,全面推動(dòng)大數(shù)據(jù)應(yīng)用與健康醫(yī)療行業(yè)的深度融合。目前健康醫(yī)療大數(shù)據(jù)已成為國(guó)家大數(shù)據(jù)戰(zhàn)略重要組成部分。同時(shí),醫(yī)院是數(shù)據(jù)密集產(chǎn)生的源頭,且醫(yī)療數(shù)據(jù)、健康數(shù)據(jù)具有非常高的應(yīng)用價(jià)值,通過(guò)大數(shù)據(jù)技術(shù)能夠挖掘出重大價(jià)值,為臨床診療、管理運(yùn)營(yíng)、醫(yī)療科研賦能。但由于數(shù)據(jù)質(zhì)量低、標(biāo)準(zhǔn)化難等問(wèn)題,導(dǎo)致醫(yī)院數(shù)據(jù)使用效率低、難以產(chǎn)生價(jià)值。因此,建立醫(yī)院大數(shù)據(jù)平臺(tái)以及設(shè)計(jì)數(shù)據(jù)治理模型,利用數(shù)據(jù)倉(cāng)庫(kù)建模理論與醫(yī)院數(shù)據(jù)平臺(tái)建設(shè)經(jīng)驗(yàn)[2],起到提升數(shù)據(jù)質(zhì)量、提高開(kāi)發(fā)使用效率的作用,將使得醫(yī)院數(shù)據(jù)資產(chǎn)化、促進(jìn)智慧醫(yī)院建設(shè)發(fā)展[3]。為此,本文提出了一種基于大數(shù)據(jù)架構(gòu)的醫(yī)院數(shù)據(jù)平臺(tái)建設(shè)方法及治理模型,分析如下。
1.1 數(shù)據(jù)種類(lèi)多 不同于傳統(tǒng)臨床數(shù)據(jù)中心僅存儲(chǔ)臨床系統(tǒng)產(chǎn)生的原始數(shù)據(jù),大數(shù)據(jù)平臺(tái)采集的數(shù)據(jù)類(lèi)型、種類(lèi)更多,需要將不同系統(tǒng)數(shù)據(jù)進(jìn)行集成匯聚[4]。主要包含醫(yī)囑、藥品、檢驗(yàn)、手術(shù)治療等結(jié)構(gòu)化數(shù)據(jù),以及病歷、護(hù)理文書(shū)、檢查病理報(bào)告等非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)、基因測(cè)序數(shù)據(jù)、醫(yī)學(xué)影像文件數(shù)據(jù)等,且需要通過(guò)自然語(yǔ)言處理對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行信息提取、結(jié)構(gòu)化處理。
1.2 數(shù)據(jù)質(zhì)量不高 醫(yī)療數(shù)據(jù)質(zhì)量普遍不高,主要體現(xiàn)在完整性、規(guī)范性、整合性。一方面,醫(yī)院數(shù)據(jù)采集自各個(gè)業(yè)務(wù)系統(tǒng),為了保障業(yè)務(wù)運(yùn)行效率,采用前端驗(yàn)證后錄入方式較難,無(wú)法保證數(shù)據(jù)完整性。另一方面,醫(yī)院診斷、用藥等醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)多、更新快,不同醫(yī)護(hù)人員錄入習(xí)慣也不一致,導(dǎo)致數(shù)據(jù)未按統(tǒng)一標(biāo)準(zhǔn)錄入。同時(shí),醫(yī)院數(shù)據(jù)質(zhì)控體系不完善,除科研需求外,醫(yī)生很難有動(dòng)力完善病歷記錄,也缺乏相關(guān)意識(shí)。建立質(zhì)控點(diǎn)必然需要改造業(yè)務(wù)流程,使得系統(tǒng)操作更繁瑣,很難在臨床系統(tǒng)實(shí)施。
1.3 數(shù)據(jù)開(kāi)發(fā)難 大部分醫(yī)院沒(méi)有統(tǒng)一的數(shù)據(jù)開(kāi)發(fā)平臺(tái),數(shù)據(jù)均以原始狀態(tài)存儲(chǔ)在各個(gè)系統(tǒng)數(shù)據(jù)庫(kù)中。開(kāi)發(fā)一項(xiàng)數(shù)據(jù)應(yīng)用時(shí),需要提取多個(gè)接口數(shù)據(jù),即使醫(yī)院已經(jīng)有服務(wù)總線,數(shù)據(jù)提取、處理也要花費(fèi)大量時(shí)間[5]。各應(yīng)用數(shù)據(jù)開(kāi)發(fā)過(guò)程相互獨(dú)立,抽取、清洗、處理過(guò)程需要重復(fù)開(kāi)發(fā),結(jié)果無(wú)法重用,導(dǎo)致數(shù)據(jù)應(yīng)用效率低,成本高。尤其是基于臨床診療數(shù)據(jù)的應(yīng)用,難以形成從數(shù)據(jù)采集、存儲(chǔ)、整合、分析到應(yīng)用的完整閉環(huán)。應(yīng)用過(guò)程中,難免會(huì)出現(xiàn)數(shù)據(jù)采集不完整、數(shù)量質(zhì)量不高、信息提取準(zhǔn)確等問(wèn)題,極大降低了開(kāi)發(fā)效率。
目前醫(yī)療數(shù)據(jù)存在的問(wèn)題嚴(yán)重制約了醫(yī)院在智慧化建設(shè)過(guò)程中必須的數(shù)據(jù)開(kāi)發(fā)能力,為了解決數(shù)據(jù)匯聚難、治理不足、開(kāi)發(fā)效率低等問(wèn)題,本文提出基于大數(shù)據(jù)平臺(tái)的醫(yī)療數(shù)據(jù)分層分域治理模型。首先,在匯聚層搭建數(shù)據(jù)集成框架、建立嚴(yán)格的數(shù)據(jù)質(zhì)量控制系統(tǒng),及時(shí)發(fā)現(xiàn)、解決數(shù)據(jù)質(zhì)量問(wèn)題。然后建立數(shù)據(jù)分層分域模型,對(duì)醫(yī)療數(shù)據(jù)進(jìn)行歸納整理,形成科研域、管理域、臨床域數(shù)據(jù),并建立了包括匯聚層、主題層、匯總層、應(yīng)用層的數(shù)據(jù)模型,解決大數(shù)據(jù)平臺(tái)數(shù)據(jù)量大、數(shù)據(jù)間關(guān)系復(fù)雜、數(shù)據(jù)不一致等問(wèn)題。
2.1 數(shù)據(jù)集成框架 大數(shù)據(jù)平臺(tái)數(shù)據(jù)匯聚包括對(duì)不同類(lèi)型、不同來(lái)源、不同時(shí)間的數(shù)據(jù)接入。對(duì)于結(jié)構(gòu)化數(shù)據(jù),按照數(shù)據(jù)匯聚的傳輸方式,可以分為文件傳輸、數(shù)據(jù)抽取、消息推送等方式。其中文件傳輸方式需要業(yè)務(wù)系統(tǒng)定時(shí)進(jìn)行數(shù)據(jù)抽取,需進(jìn)行業(yè)務(wù)系統(tǒng)改造;數(shù)據(jù)抽取不需要業(yè)務(wù)系統(tǒng)改造,適用場(chǎng)景多,需要解決的關(guān)鍵問(wèn)題有多數(shù)據(jù)源適配、增量數(shù)據(jù)抽取、數(shù)據(jù)一致性審查等。我院數(shù)據(jù)匯聚采用開(kāi)源ETL工具Kettle實(shí)現(xiàn)多數(shù)據(jù)源適配,通過(guò)配置不同數(shù)據(jù)庫(kù)連接,實(shí)現(xiàn)對(duì)不同數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)抽取任務(wù)的創(chuàng)建、運(yùn)行、運(yùn)維,有效提高了數(shù)據(jù)匯聚效率,減少運(yùn)維成本[6]。通過(guò)ETL平臺(tái)抽取的數(shù)據(jù)需要在抽取過(guò)程中完成數(shù)據(jù)脫敏、加密存儲(chǔ)以及一致性效驗(yàn)。按照HIPAA中定義的關(guān)鍵隱私數(shù)據(jù)(姓名、身份證、聯(lián)系方式、家庭住址、生物信息等)通過(guò)加密算法計(jì)算后導(dǎo)入大數(shù)據(jù)平臺(tái)。數(shù)據(jù)抽取流程框架見(jiàn)圖1。
圖1 數(shù)據(jù)抽取流程框架
為了確保數(shù)據(jù)抽取的一致性,需要建立數(shù)據(jù)審查機(jī)制。我院分別對(duì)于歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)設(shè)計(jì)不同抽取流程,并且通過(guò)記錄日志、實(shí)時(shí)警告等方式保證數(shù)據(jù)完整、正確地將接入平臺(tái)。對(duì)于實(shí)時(shí)數(shù)據(jù)采用運(yùn)行較快的方法,在保障數(shù)據(jù)不缺少的基礎(chǔ)上,驗(yàn)證數(shù)據(jù)一致性。對(duì)于歷史數(shù)據(jù)按照不同數(shù)據(jù)類(lèi)型,選取邏輯檢查方法定期生成數(shù)據(jù)審查報(bào)告,確保數(shù)據(jù)一致。數(shù)據(jù)審查機(jī)制內(nèi)容見(jiàn)表1。
表1 大數(shù)據(jù)平臺(tái)數(shù)據(jù)匯聚審查方法
2.2 數(shù)據(jù)治理框架 除了院內(nèi)產(chǎn)生的業(yè)務(wù)數(shù)據(jù),醫(yī)療數(shù)據(jù)還包括患者的體檢數(shù)據(jù)、醫(yī)保數(shù)據(jù)、隨訪數(shù)據(jù)、家庭健康監(jiān)測(cè)數(shù)據(jù)等。為了對(duì)這些數(shù)據(jù)進(jìn)行梳理,使不同模塊間耦合度降低,提高利用效率,我院建立了分層分域數(shù)據(jù)治理模型,見(jiàn)圖2。該模型將數(shù)據(jù)分為臨床域、科研域、管理域,由下而上建立數(shù)據(jù)源接口層、數(shù)據(jù)主題層、數(shù)據(jù)匯總層和數(shù)據(jù)應(yīng)用層。
圖2 數(shù)據(jù)治理模型
數(shù)據(jù)源接口層負(fù)責(zé)組織管理多源數(shù)據(jù)匯聚,即數(shù)據(jù)的采集、轉(zhuǎn)換、存儲(chǔ),采用分布式文件系統(tǒng)存儲(chǔ)保存加密、脫敏后的基礎(chǔ)數(shù)據(jù)。通過(guò)數(shù)據(jù)審查方法保證數(shù)據(jù)一致性、唯一性、正確性等要求,以盡量少的代價(jià)檢測(cè)與源數(shù)據(jù)的一致性。
數(shù)據(jù)主題層將接口層存儲(chǔ)的數(shù)據(jù)經(jīng)過(guò)統(tǒng)一清洗、編碼轉(zhuǎn)換、整合后形成主題域。其主要的功能是設(shè)計(jì)好主題域下模型劃分。該層次的數(shù)據(jù)模型的目標(biāo)是靈活地表達(dá)業(yè)務(wù)過(guò)程,將源系統(tǒng)關(guān)系型的數(shù)據(jù)結(jié)構(gòu),按照主題劃分整合,將大概率一起使用的數(shù)據(jù)整合到統(tǒng)一主題域中。如源系統(tǒng)中醫(yī)囑信息通常包括醫(yī)囑項(xiàng)、醫(yī)囑記錄、醫(yī)囑執(zhí)行記錄等數(shù)據(jù)表用于記錄醫(yī)囑的不同數(shù)據(jù)信息,而在主題層則將醫(yī)囑相關(guān)數(shù)據(jù)進(jìn)行主題化處理,提取事實(shí)表與維度表,建立醫(yī)囑主題等。
數(shù)據(jù)匯總層及數(shù)據(jù)應(yīng)用層則面向應(yīng)用進(jìn)行數(shù)據(jù)處理,對(duì)相關(guān)業(yè)務(wù)來(lái)說(shuō),每次處理明細(xì)數(shù)據(jù)速度慢、代價(jià)高,在匯總層將明細(xì)數(shù)據(jù)進(jìn)行有效匯總,提供臨時(shí)數(shù)據(jù)挖掘使用,同時(shí)加快應(yīng)用層調(diào)用時(shí)的速度。
在應(yīng)用層則形成標(biāo)簽集、指標(biāo)集、應(yīng)用寬表提供外部數(shù)據(jù)共享。
醫(yī)療標(biāo)簽集由患者畫(huà)像特征化標(biāo)簽、統(tǒng)計(jì)類(lèi)標(biāo)簽、預(yù)測(cè)分析標(biāo)簽組成,如患者基本信息、平均費(fèi)用、就診頻次、疾病診斷路徑等標(biāo)簽,是能夠描述患者健康信息的集合[7]。通過(guò)對(duì)患者進(jìn)行標(biāo)簽化特征描述,能夠方便臨床科研分析以及建立人工智能預(yù)測(cè)模型。
指標(biāo)集則是面向醫(yī)院管理運(yùn)營(yíng)的數(shù)據(jù)服務(wù),通過(guò)將醫(yī)院運(yùn)營(yíng)過(guò)程中各類(lèi)統(tǒng)計(jì)數(shù)據(jù)實(shí)時(shí)產(chǎn)生相關(guān)指標(biāo),匯聚之后能夠全面反應(yīng)醫(yī)院運(yùn)營(yíng)情況,如門(mén)診人次、住院人數(shù)、平均住院天數(shù)、傳染病診斷等。應(yīng)用寬表是面向外部應(yīng)用而建立多字段數(shù)據(jù)表,主要用于進(jìn)行數(shù)據(jù)訪問(wèn)控制、降低數(shù)據(jù)復(fù)雜度、減少數(shù)據(jù)交互及加速數(shù)據(jù)應(yīng)用的作用。
通過(guò)建立醫(yī)院大數(shù)據(jù)平臺(tái)以及數(shù)據(jù)治理模型,江西省某三甲醫(yī)院已經(jīng)從院內(nèi)歷史使用及正在使用的74個(gè)醫(yī)療業(yè)務(wù)系統(tǒng)中匯聚了2006年~2020年的所有數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)總數(shù)據(jù)量達(dá)到11.4億條,非結(jié)構(gòu)數(shù)據(jù)完成部分病例、檢驗(yàn)檢查報(bào)告文本結(jié)構(gòu)化處理。經(jīng)過(guò)數(shù)據(jù)清洗、結(jié)構(gòu)化、標(biāo)準(zhǔn)化處理后,形成9.1億條標(biāo)準(zhǔn)化數(shù)據(jù)。通過(guò)建立數(shù)據(jù)分層分域治理模型,建立了15個(gè)主題域、數(shù)百患者標(biāo)簽以及運(yùn)營(yíng)指標(biāo),支撐了醫(yī)院臨床科研大數(shù)據(jù)平臺(tái)、運(yùn)營(yíng)管理BI系統(tǒng)、臨床輔助決策系統(tǒng)等大數(shù)據(jù)應(yīng)用。支撐醫(yī)院科研人員快速檢索歷史數(shù)據(jù),醫(yī)院管理者實(shí)時(shí)直觀了解醫(yī)院運(yùn)營(yíng)狀況,為臨床工作者提供智能化輔助診療。
醫(yī)療大數(shù)據(jù)已經(jīng)成為國(guó)家重要發(fā)展戰(zhàn)略,充分挖掘利用醫(yī)院數(shù)據(jù)對(duì)醫(yī)學(xué)科研發(fā)展、提高醫(yī)院運(yùn)營(yíng)管理效率、提高醫(yī)療質(zhì)量都有重大意義。搭建醫(yī)院大數(shù)據(jù)平臺(tái),利用數(shù)據(jù)治理模型對(duì)數(shù)據(jù)進(jìn)行匯聚、處理,能夠提升醫(yī)院的數(shù)據(jù)應(yīng)用能力,發(fā)揮數(shù)據(jù)價(jià)值。但目前醫(yī)院大數(shù)據(jù)平臺(tái)發(fā)展時(shí)間較短,相關(guān)研究與應(yīng)用仍不成熟,應(yīng)在建設(shè)過(guò)程中不斷探索、升級(jí),實(shí)現(xiàn)醫(yī)院數(shù)據(jù)資產(chǎn)化、智能化。