——周莉莉 徐 進(jìn) 孫潤(rùn)康 汪火明
2020年6月28日,國(guó)家衛(wèi)生健康委員會(huì)辦公廳發(fā)布《關(guān)于做好信息化支撐常態(tài)化疫情防控工作的通知》(國(guó)衛(wèi)辦規(guī)劃函〔2020〕506號(hào)),要求強(qiáng)化新冠肺炎疫情信息監(jiān)測(cè)預(yù)警、應(yīng)急指揮與大數(shù)據(jù)綜合分析。在新冠肺炎疫情防控期間,所有省(自治區(qū)、直轄市)均要進(jìn)行衛(wèi)生事件數(shù)據(jù)上報(bào),省級(jí)數(shù)據(jù)上報(bào)至國(guó)家平臺(tái),國(guó)家平臺(tái)對(duì)數(shù)據(jù)進(jìn)行處理,為管理決策提供數(shù)據(jù)支持。但由于缺乏統(tǒng)一的數(shù)據(jù)采集標(biāo)準(zhǔn),上報(bào)的數(shù)據(jù)格式混亂,且結(jié)構(gòu)不清晰。鑒于此,由湖北省衛(wèi)生健康委員會(huì)牽頭,建立了湖北省醫(yī)療健康大數(shù)據(jù)平臺(tái)[1],其中華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬同濟(jì)醫(yī)院承擔(dān)了子課題項(xiàng)目,主要研究?jī)?nèi)容為:省級(jí)平臺(tái)如何向國(guó)家平臺(tái)上報(bào)數(shù)據(jù)、哪些數(shù)據(jù)需要上報(bào)、上報(bào)需要遵循怎樣的數(shù)據(jù)格式標(biāo)準(zhǔn)與管理標(biāo)準(zhǔn)等。
本研究以省級(jí)平臺(tái)與國(guó)家平臺(tái)對(duì)接為背景,著重分析醫(yī)療健康數(shù)據(jù)采集及治理方案,具有以下意義:(1)可為各省級(jí)平臺(tái)與國(guó)家平臺(tái)對(duì)接提供數(shù)據(jù)采集及治理方案;(2)對(duì)加強(qiáng)區(qū)域數(shù)據(jù)上報(bào)、實(shí)現(xiàn)信息互聯(lián)互通具有促進(jìn)作用;(3)為應(yīng)對(duì)突發(fā)公共衛(wèi)生事件提供了數(shù)據(jù)支撐。
2.1.1 業(yè)務(wù)數(shù)據(jù)現(xiàn)狀分析 目前,湖北省衛(wèi)生健康委員會(huì)已建立了湖北省全民健康信息平臺(tái),實(shí)現(xiàn)了省域內(nèi)全民健康信息省、市、縣三級(jí)平臺(tái)的互聯(lián)互通。其中,武漢市已建成市人口健康信息平臺(tái),各區(qū)縣也完成區(qū)域內(nèi)人口健康信息的采集及整合,包括居民電子健康檔案信息、電子病歷信息、人口信息資源庫(kù)信息以及其他必要的衛(wèi)生、計(jì)生監(jiān)管信息等。同時(shí),基于全民健康信息平臺(tái),湖北省正在籌建醫(yī)療健康大數(shù)據(jù)中心,計(jì)劃完成數(shù)據(jù)采集以后向國(guó)家平臺(tái)進(jìn)行數(shù)據(jù)上報(bào)。
2.1.2 數(shù)據(jù)采集技術(shù)現(xiàn)狀分析 目前,省級(jí)健康信息平臺(tái)數(shù)據(jù)上報(bào)格式多樣,未實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)篩選、數(shù)據(jù)治理、數(shù)據(jù)整合方式。有的使用文件上傳形式實(shí)現(xiàn)上報(bào),文件格式包括excel、cda、csv、xml等;有的采用數(shù)據(jù)接口對(duì)接實(shí)現(xiàn)上報(bào),接口對(duì)接方式采用SOAP、Web Services、Ldap等;有的采用數(shù)據(jù)庫(kù)實(shí)現(xiàn)上報(bào),上傳數(shù)據(jù)庫(kù)格式包括csv、dat、dbf、mdb、odb等。另外,文件上傳上報(bào)形式多樣,標(biāo)準(zhǔn)不統(tǒng)一;數(shù)據(jù)接口對(duì)接上報(bào)形式缺乏統(tǒng)一的采集接口規(guī)范,存在殘缺數(shù)據(jù);數(shù)據(jù)庫(kù)上報(bào)形式缺乏統(tǒng)一的技術(shù)平臺(tái)進(jìn)行數(shù)據(jù)處理等。這些都是當(dāng)前數(shù)據(jù)采集存在的重要問(wèn)題。
(1)醫(yī)療、疾控等系統(tǒng)數(shù)據(jù)未進(jìn)行有效整合,造成區(qū)域內(nèi)衛(wèi)生、疾控?cái)?shù)據(jù)管理效能低下[2]。如在新冠肺炎疫情防控期間,與患者相關(guān)的密切接觸者、核酸檢測(cè)、物資申領(lǐng)、健康碼、出入境、購(gòu)藥等數(shù)據(jù)無(wú)法有效聯(lián)動(dòng)。
(2)由于醫(yī)院臨床工作和疾控流調(diào)工作分屬不同系統(tǒng),在發(fā)生公共衛(wèi)生事件時(shí)醫(yī)務(wù)人員是一線接觸患者的工作人員,但卻無(wú)法獲得完整的區(qū)域性、時(shí)域性疾病數(shù)據(jù)。與此同時(shí),疾控流調(diào)人員也無(wú)法獲得完整的確診患者的臨床診療數(shù)據(jù),造成雙方協(xié)作工作延遲,重復(fù)性數(shù)據(jù)采集問(wèn)題頻發(fā)。
(3)醫(yī)療數(shù)據(jù)如不進(jìn)行有效的數(shù)據(jù)治理,則無(wú)法開(kāi)展回顧性研究,不能形成有效的研究成果,也就無(wú)法形成支撐相關(guān)成果轉(zhuǎn)化的源動(dòng)力。
(4)未進(jìn)行有效數(shù)據(jù)治理的醫(yī)療數(shù)據(jù)質(zhì)量普遍不高,難以直接利用,倘若要聯(lián)合交通、民政、公安等行業(yè)數(shù)據(jù)進(jìn)行分析就更加困難。如何對(duì)多行業(yè)數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)治理及數(shù)據(jù)整合,是重大公共衛(wèi)生事件監(jiān)測(cè)體系建設(shè)的關(guān)鍵。
數(shù)據(jù)采集流程涉及數(shù)據(jù)采集、數(shù)據(jù)流、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工與處理以及數(shù)據(jù)服務(wù)、數(shù)據(jù)分析決策等。本研究基于省級(jí)健康信息平臺(tái)的數(shù)據(jù)采集流程,其調(diào)研數(shù)據(jù)來(lái)源于市級(jí)人口健康信息平臺(tái)等數(shù)據(jù)庫(kù)[3-5]。數(shù)據(jù)被采集以后進(jìn)入數(shù)據(jù)湖,與業(yè)務(wù)數(shù)據(jù)采集同時(shí)進(jìn)行,不直接從業(yè)務(wù)數(shù)據(jù)庫(kù)中提取,不會(huì)對(duì)業(yè)務(wù)數(shù)據(jù)產(chǎn)生干擾。數(shù)據(jù)湖中的數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)同步、數(shù)據(jù)抽取、數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換[6]等進(jìn)入數(shù)據(jù)中臺(tái),支撐應(yīng)用層的數(shù)據(jù)應(yīng)用服務(wù)[7]。在整個(gè)數(shù)據(jù)采集流程中,通過(guò)對(duì)數(shù)據(jù)實(shí)時(shí)整合、控制消息隊(duì)列、批量數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換[8]等,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行管控?;谑〖?jí)健康信息平臺(tái)的數(shù)據(jù)采集流程見(jiàn)圖1。
圖1 省級(jí)健康信息平臺(tái)的數(shù)據(jù)采集流程
數(shù)據(jù)采集范圍包含多個(gè)數(shù)據(jù)源,本研究討論典型數(shù)據(jù)源[9-10]的采集范圍,包括:(1)市級(jí)人口健康信息平臺(tái);(2)省級(jí)全民健康信息平臺(tái);(3)部(省)屬醫(yī)院信息平臺(tái)。
針對(duì)市級(jí)人口健康信息平臺(tái)的數(shù)據(jù)采集,主要包括業(yè)務(wù)運(yùn)營(yíng)數(shù)據(jù),合理用藥預(yù)警及管理數(shù)據(jù),基礎(chǔ)字典數(shù)據(jù),臨床診療記錄相關(guān)數(shù)據(jù)等,見(jiàn)表1。
表1 市級(jí)人口健康信息平臺(tái)數(shù)據(jù)采集內(nèi)容示例
針對(duì)省級(jí)全民健康信息平臺(tái)的數(shù)據(jù)采集,主要包括業(yè)務(wù)運(yùn)營(yíng)數(shù)據(jù)、臨床診療記錄數(shù)據(jù)、基礎(chǔ)字典數(shù)據(jù)、電子病歷數(shù)據(jù)[11-12],見(jiàn)表2。
表2 省級(jí)全民健康信息平臺(tái)數(shù)據(jù)采集內(nèi)容示例
針對(duì)部(省)屬醫(yī)院信息平臺(tái)的數(shù)據(jù)采集,主要包括醫(yī)院信息系統(tǒng)(HIS)、實(shí)驗(yàn)室信息系統(tǒng)(LIS)、超聲信息系統(tǒng)、病歷信息系統(tǒng)等數(shù)據(jù),見(jiàn)表3。
表3 部(省)屬醫(yī)院信息平臺(tái)數(shù)據(jù)采集內(nèi)容示例
數(shù)據(jù)采集規(guī)則主要有3種:被動(dòng)式數(shù)據(jù)采集解析、主動(dòng)式數(shù)據(jù)采集解析和集中式數(shù)據(jù)采集解析[15-16]。被動(dòng)式數(shù)據(jù)采集解析多用于定時(shí)數(shù)據(jù)采集[17]任務(wù)調(diào)用等場(chǎng)景;主動(dòng)式數(shù)據(jù)采集解析多用于使用較為頻繁的數(shù)據(jù)上報(bào)要求;集中式數(shù)據(jù)采集解析多用于基于平臺(tái)的批量匯總數(shù)據(jù)上報(bào)等。
數(shù)據(jù)采集平臺(tái)需通過(guò)數(shù)據(jù)庫(kù)同步技術(shù)對(duì)數(shù)據(jù)進(jìn)行采集,應(yīng)滿足以下要求:(1)支持?jǐn)?shù)據(jù)的實(shí)時(shí)增量采集;(2)支持指定數(shù)據(jù)源和采集字段;(3)可提供不同數(shù)據(jù)源引擎動(dòng)態(tài)適配功能;(4)能提供數(shù)據(jù)優(yōu)先級(jí)、采集時(shí)間、采集周期配置功能;(5)具有日志分析功能,可針對(duì)異常情況進(jìn)行預(yù)警。
將采集到的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗,即對(duì)因不明原因?qū)е碌牟灰?guī)范、錯(cuò)誤的字段信息自動(dòng)進(jìn)行統(tǒng)一的清洗,避免因部分明顯錯(cuò)誤導(dǎo)致上層應(yīng)用服務(wù)的結(jié)論錯(cuò)誤。
數(shù)據(jù)標(biāo)準(zhǔn)化處理遵循國(guó)內(nèi)標(biāo)準(zhǔn)、國(guó)際標(biāo)準(zhǔn)、醫(yī)療行業(yè)標(biāo)準(zhǔn)、國(guó)際疾病指南標(biāo)準(zhǔn)等,包括ICD-10、ICD-9、HL7、CDA、醫(yī)學(xué)主題詞表(MeSH)、觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼系統(tǒng)(LOINC)、藥品詞典規(guī)范-CFDA、ATC分類、醫(yī)療機(jī)構(gòu)診療科目名錄等。運(yùn)用這些標(biāo)準(zhǔn)可對(duì)采集的數(shù)據(jù)自動(dòng)進(jìn)行標(biāo)準(zhǔn)化、歸一化處理。數(shù)據(jù)結(jié)構(gòu)化處理通過(guò)自然語(yǔ)義處理(NLP)技術(shù),結(jié)合醫(yī)療專業(yè)術(shù)語(yǔ)的語(yǔ)義結(jié)構(gòu),將醫(yī)療語(yǔ)義信息自動(dòng)按通用規(guī)則從自然語(yǔ)言表達(dá)擴(kuò)展分析為結(jié)構(gòu)化的Key-value模式,為后續(xù)的應(yīng)用、挖掘、機(jī)器學(xué)習(xí)提供基礎(chǔ)數(shù)據(jù)支持。
建立主數(shù)據(jù)和元數(shù)據(jù)管理機(jī)制。元數(shù)據(jù)管理平臺(tái)的核心能力是以統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)對(duì)多源、異構(gòu)的數(shù)據(jù)進(jìn)行處理,形成統(tǒng)一、標(biāo)準(zhǔn)的大數(shù)據(jù)視圖,通過(guò)對(duì)平臺(tái)相關(guān)業(yè)務(wù)系統(tǒng)提供元數(shù)據(jù)服務(wù),實(shí)現(xiàn)元數(shù)據(jù)的同步或匹配,包括用戶賬號(hào)權(quán)限、醫(yī)生資質(zhì)、組織機(jī)構(gòu)、診療單元、服務(wù)單元、患者信息、檢查項(xiàng)目、收費(fèi)項(xiàng)目、藥品目錄等信息,以及用來(lái)描述主數(shù)據(jù)的關(guān)系數(shù)據(jù),如組織機(jī)構(gòu)與服務(wù)單元、組織機(jī)構(gòu)與人員、服務(wù)單元與人員、檢驗(yàn)檢查項(xiàng)目和收費(fèi)項(xiàng)目、臨床診斷和標(biāo)準(zhǔn)ICD等的關(guān)系,以提高數(shù)據(jù)質(zhì)量。
創(chuàng)建元數(shù)據(jù)之后,需要將其發(fā)布給醫(yī)療機(jī)構(gòu),以統(tǒng)一和規(guī)范各業(yè)務(wù)系統(tǒng)的主數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),保證主數(shù)據(jù)編碼的一致性、準(zhǔn)確性。
對(duì)多層數(shù)據(jù)的處理,采用定量加定性綜合校驗(yàn)方法,運(yùn)用多維質(zhì)量監(jiān)控、問(wèn)題預(yù)警功能,協(xié)助人工智能平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的完整性、一致性、準(zhǔn)確性、唯一性、及時(shí)性等。構(gòu)建“數(shù)據(jù)采集——生產(chǎn)——治理——質(zhì)量提升”的多層級(jí)醫(yī)療數(shù)據(jù)質(zhì)控閉環(huán),對(duì)于因技術(shù)原因?qū)е碌臄?shù)據(jù)質(zhì)量問(wèn)題在源頭即可進(jìn)行糾正修復(fù),對(duì)于因數(shù)據(jù)模型設(shè)計(jì)不合理導(dǎo)致的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行及時(shí)修復(fù)。
對(duì)敏感數(shù)據(jù)進(jìn)行數(shù)據(jù)脫敏和加密處理[18],自動(dòng)去除或隱藏個(gè)人信息中的敏感信息(如患者姓名、身份證號(hào)、電話、地址等)[19]。通過(guò)脫敏或加密規(guī)則,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù),同時(shí)保持其他數(shù)據(jù)的可識(shí)別性和可用性[20]。
基于省級(jí)健康信息平臺(tái)的數(shù)據(jù)采集及治理研究,與之前已有相關(guān)平臺(tái)數(shù)據(jù)收集方法的區(qū)別在于,響應(yīng)了新冠肺炎疫情的特殊背景,數(shù)據(jù)采集更符合國(guó)家對(duì)于疫情上報(bào)等重大公共衛(wèi)生事件的數(shù)據(jù)上報(bào)要求,具有較好的針對(duì)性、可拓展性,是省級(jí)平臺(tái)與國(guó)家平臺(tái)數(shù)據(jù)采集信息化發(fā)展的產(chǎn)物。其主要優(yōu)點(diǎn)在于:(1)整合了目前現(xiàn)有的各類平臺(tái)數(shù)據(jù),合理利用了現(xiàn)有資源,最大程度地實(shí)現(xiàn)數(shù)據(jù)的可利用性、完整性、綜合性;(2)系統(tǒng)規(guī)劃了基于省級(jí)健康信息平臺(tái)的數(shù)據(jù)采集及治理方案,為省級(jí)平臺(tái)與國(guó)家平臺(tái)對(duì)接提供了規(guī)范的數(shù)據(jù)標(biāo)準(zhǔn);(3)數(shù)據(jù)采集和治理方案實(shí)用性好,可操作性強(qiáng),數(shù)據(jù)采集結(jié)合真實(shí)平臺(tái)和真實(shí)數(shù)據(jù),切實(shí)可行。
但是,本研究也存在一定不足與局限。對(duì)接的數(shù)據(jù)采集主要應(yīng)用于疫情防控及重大公共衛(wèi)生事件,對(duì)公共衛(wèi)生數(shù)據(jù)針對(duì)性強(qiáng),但不一定適用于其他場(chǎng)景。同時(shí),主要探討基于湖北省的省級(jí)健康信息平臺(tái),與全國(guó)其他省(自治區(qū)、直轄市)具體業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)內(nèi)容不盡相同,并不能完全適用于其他省份。
需要說(shuō)明的是,數(shù)據(jù)采集及治理是省級(jí)健康信息平臺(tái)與國(guó)家平臺(tái)對(duì)接的第一步,需要因地制宜,制定符合實(shí)際業(yè)務(wù)場(chǎng)景的數(shù)據(jù)采集及治理方案。只有前端的數(shù)據(jù)采集工作做到位,才不會(huì)影響后續(xù)業(yè)務(wù)層的數(shù)據(jù)管理決策需求。
同時(shí),隨著醫(yī)療健康大數(shù)據(jù)的發(fā)展,國(guó)家對(duì)數(shù)據(jù)采集的要求和管控會(huì)越來(lái)越精細(xì)化,與此同時(shí)數(shù)據(jù)采集的規(guī)范也會(huì)隨之變化,在數(shù)據(jù)采集及治理方面如何最大可能地適應(yīng)國(guó)家對(duì)醫(yī)療健康數(shù)據(jù)的管控要求,是未來(lái)需要持續(xù)關(guān)注的課題。