——袁駿毅 潘常青 戴錦杰 李 榕 沈 蘭
先天性心臟病(以下簡(jiǎn)稱“先心病”)是指胚胎發(fā)育異常導(dǎo)致的先天心臟缺陷性疾病,發(fā)病率約占新生兒的7‰~10‰[1-2]。國(guó)內(nèi)外已有醫(yī)院展開(kāi)先心病治療影響因素的研究,建立風(fēng)險(xiǎn)評(píng)估及治療策略模型,以減少術(shù)后并發(fā)癥[3]。
近年來(lái),醫(yī)院信息化逐漸側(cè)重臨床,但業(yè)務(wù)軟件繁多且彼此獨(dú)立,科研數(shù)據(jù)仍高度依賴人工收集,費(fèi)時(shí)費(fèi)力且效率不高[4]。Mayer JE等[5]指出,通過(guò)對(duì)疾病數(shù)據(jù)智能采集和挖掘,有利于分析不同心電結(jié)果和臨床癥狀對(duì)先心病術(shù)后干預(yù)的效果。本研究以上海市胸科醫(yī)院的先心病專病數(shù)據(jù)庫(kù)(以下簡(jiǎn)稱“專病庫(kù)”)為研究對(duì)象,解析專病庫(kù)架構(gòu)設(shè)計(jì)和運(yùn)行方式,以期更好地支撐先心病的臨床研究。同時(shí),為其他醫(yī)療機(jī)構(gòu)醫(yī)療數(shù)據(jù)的深度應(yīng)用提供參考。
專病庫(kù)的目標(biāo)是滿足多層面科研需求,數(shù)據(jù)集的飽和度決定了數(shù)據(jù)分析的支撐力度。項(xiàng)目啟動(dòng)階段,臨床專家、科研人員以及信息工程師組成團(tuán)隊(duì),討論專項(xiàng)數(shù)據(jù)采集范圍。數(shù)據(jù)集的設(shè)計(jì)借鑒了美國(guó)胸外科醫(yī)師學(xué)會(huì)(Society of Thoracic Surgeons, STS)成人心臟外科數(shù)據(jù)庫(kù)、兒童心臟網(wǎng)絡(luò)(Pediatric Heart Network, PHN)數(shù)據(jù)庫(kù)等,參考了國(guó)際疾病分類第10版、HL7ChinaCDA等10余項(xiàng)規(guī)范[6]。數(shù)據(jù)集共分為8個(gè)緯度,下分65個(gè)域,內(nèi)含781個(gè)數(shù)據(jù)單元,構(gòu)成了專病庫(kù)“緯度-域-數(shù)據(jù)單元”的物理存儲(chǔ)以及統(tǒng)計(jì)分析層次結(jié)構(gòu)。從數(shù)據(jù)提取可及性角度出發(fā),梳理數(shù)據(jù)單元采集點(diǎn),如圖1所示。每個(gè)數(shù)據(jù)單元均支持復(fù)合數(shù)值存儲(chǔ)結(jié)構(gòu),擁有編碼、名稱、緯度標(biāo)簽、域標(biāo)簽、數(shù)值、參考值、提取源等12項(xiàng)屬性,確??勺匪菪院蜆?biāo)識(shí)度[7]。
專病庫(kù)在醫(yī)院臨床數(shù)據(jù)中心(Clinical Data Repository,CDR)基礎(chǔ)上,通過(guò)后結(jié)構(gòu)化、脫敏安全和質(zhì)控管理等數(shù)據(jù)治理過(guò)程,整合成病種數(shù)據(jù)集。采用面向服務(wù)體系結(jié)構(gòu)的分布式網(wǎng)絡(luò)架構(gòu),1臺(tái)數(shù)據(jù)庫(kù)服務(wù)器存儲(chǔ)數(shù)據(jù),兩臺(tái)GPU治理服務(wù)器用于后結(jié)構(gòu)化等高通量處理,4臺(tái)應(yīng)用服務(wù)器提供單病種分析等擴(kuò)展應(yīng)用支持。系統(tǒng)架構(gòu)如圖2所示。
圖1 數(shù)據(jù)集采集源分析
圖2 系統(tǒng)架構(gòu)
病種數(shù)據(jù)集的源數(shù)據(jù)來(lái)源于多個(gè)異構(gòu)業(yè)務(wù)軟件,CDR的數(shù)據(jù)供給能力尤為重要。該院在2018年開(kāi)展CDR建設(shè),以患者主索引(Enterprise Master Patient Index,EMPI)集成服務(wù)為主線,匯集診療流程相關(guān)數(shù)據(jù)。如圖3所示,CDR采用訂閱發(fā)布技術(shù),建立對(duì)應(yīng)EMR、EDSS等生產(chǎn)庫(kù)的操作型數(shù)據(jù)存儲(chǔ)庫(kù)(Operational Data Store,ODS),通過(guò)變化數(shù)據(jù)捕捉(Change Data Capture,CDC)技術(shù),實(shí)時(shí)獲取ODS的日志變更,使用數(shù)據(jù)庫(kù)集成服務(wù)(SQL Server Integration Services,SSIS)工具, CDC將日志解析成增量待處理數(shù)據(jù)。由于業(yè)務(wù)軟件的代碼定義未必相同,依托于CDR的主數(shù)據(jù)管理(Master Data Management,MDM),以MDM的疾病代碼、藥品字典等醫(yī)學(xué)術(shù)語(yǔ)映射集,進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換,標(biāo)簽數(shù)據(jù)的來(lái)源。EMPI提供了患者身份標(biāo)識(shí)的主鍵服務(wù),關(guān)聯(lián)相同患者數(shù)據(jù),根據(jù)交叉關(guān)系實(shí)施驗(yàn)證,判斷匯集過(guò)程是否發(fā)生遺漏。遵循《電子病歷基本架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)》的規(guī)范,如ADT.A01代表入出轉(zhuǎn)信息,以標(biāo)準(zhǔn)截面建立cube[8]。支持孤島系統(tǒng)及試驗(yàn)數(shù)據(jù)的導(dǎo)入,確保醫(yī)療數(shù)據(jù)的全量收納。截止2020年底,CDR共對(duì)接32個(gè)業(yè)務(wù)應(yīng)用軟件,數(shù)據(jù)倉(cāng)庫(kù)容量16T,以年9.8%的速率增長(zhǎng)。在針對(duì)新建應(yīng)用的服務(wù)能力方面,建立了82萬(wàn)個(gè)索引,78個(gè)標(biāo)準(zhǔn)字典,502套字典映射,近1.2億條內(nèi)外交互日志,為醫(yī)院建設(shè)專病庫(kù)、學(xué)科評(píng)估等新系統(tǒng)提供了有效的數(shù)據(jù)供給。
與藥品醫(yī)囑等已經(jīng)結(jié)構(gòu)化的數(shù)據(jù)不同,病史文書(shū)通常包含大量非結(jié)構(gòu)化的自由文本,后結(jié)構(gòu)化屬于數(shù)據(jù)治理的深度步驟,精度影響到海量病歷的利用程度。對(duì)于EMR的心電報(bào)告、既往史等文本,需要通過(guò)自然語(yǔ)言處理(Natural Language Processing,NLP)和知識(shí)圖譜的后結(jié)構(gòu)化治理,轉(zhuǎn)化成符合標(biāo)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)項(xiàng)的字段和鍵值。系統(tǒng)建立了主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)等機(jī)器學(xué)習(xí)的NLP處理流程,進(jìn)行上下文嵌入的文本智能解析,實(shí)現(xiàn)命名實(shí)體、醫(yī)學(xué)分詞的提取,同步處理詞義消歧和時(shí)序解析。
深度學(xué)習(xí)算法采用了條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)的疊加算法,以CRF的輸出層作為BiLSTM的輸入層,有效解決常規(guī)NLP效果不佳的情況[9],信息抽取的識(shí)別精度超過(guò)85%,識(shí)別覆蓋率占文本可轉(zhuǎn)換內(nèi)容的92%。病史文本轉(zhuǎn)化后,增加了時(shí)序邏輯及數(shù)據(jù)耦合的判讀范圍,如術(shù)中抗生素、術(shù)后病程錄等交叉邏輯,基于知識(shí)圖譜的醫(yī)學(xué)分支邏輯,利用決策樹(shù)、邏輯回歸等AI算法,構(gòu)建出分類合并最優(yōu)模型,以信息增益的特征值對(duì)邏輯節(jié)點(diǎn)進(jìn)行時(shí)間耦合度分析,使診療過(guò)程數(shù)據(jù)處于連續(xù)的時(shí)序排序。
圖3 CDR數(shù)據(jù)匯集過(guò)程
圖4 脫敏安全體系
圖5 質(zhì)控管理
為保證隱私數(shù)據(jù)的存儲(chǔ)和傳輸安全,處理過(guò)程采用脫敏技術(shù)手段。隨著移動(dòng)物聯(lián)網(wǎng)的推廣,患者個(gè)人隱私信息面臨較大泄露風(fēng)險(xiǎn)。根據(jù)上海市衛(wèi)生健康委員會(huì)有關(guān)規(guī)定,存儲(chǔ)患者身份及生物信息的系統(tǒng)必須符合公安部《安全等級(jí)保護(hù)制度2.0標(biāo)準(zhǔn)》要求[10]。
如圖4所示,敏感信息定義方面,除了姓名等明顯的隱私項(xiàng),還存在著表面無(wú)關(guān)聯(lián)的、內(nèi)含風(fēng)險(xiǎn)的數(shù)據(jù),若未納入敏感等級(jí),一旦泄露也會(huì)帶來(lái)?yè)p失。采用關(guān)聯(lián)規(guī)則分析技術(shù)對(duì)敏感項(xiàng)進(jìn)行界定,基于關(guān)聯(lián)信息挖掘算法判定關(guān)聯(lián)因子的可靠性程度,窮舉算出敏感規(guī)則的置信度區(qū)間,確保在不損失數(shù)據(jù)價(jià)值的條件下更好地確定范圍。脫敏處理方面,去隱私化過(guò)程采用加密算法,利用對(duì)稱算法DES加密隱私項(xiàng),EMPI等關(guān)系型外鍵采用不可逆算法MD5加密,并留有隱藏轉(zhuǎn)換的目錄對(duì)照。后臺(tái)管理方面,結(jié)合審計(jì)監(jiān)察需求,使用辦公審批流程監(jiān)督數(shù)據(jù)申請(qǐng),保證審計(jì)日志的可靠性,定期更換加密算法的動(dòng)態(tài)密鑰,所有加密和傳輸均記錄密鑰版本號(hào),以便出現(xiàn)問(wèn)題時(shí)回溯。
數(shù)據(jù)經(jīng)過(guò)前序加工后,依然存在如檢查醫(yī)囑無(wú)報(bào)告等空值情況,或者如出院小結(jié)和病案首頁(yè)診斷不一致等邏輯互斥現(xiàn)象[11],因此需進(jìn)行質(zhì)控處理(圖5)。針對(duì)預(yù)入庫(kù)數(shù)據(jù),一是采用AI自動(dòng)全面質(zhì)檢方法,以EMPI和標(biāo)準(zhǔn)目錄梳理患者數(shù)據(jù),基于質(zhì)控規(guī)則庫(kù)的參考標(biāo)準(zhǔn),檢測(cè)關(guān)鍵指標(biāo)的單變量約束,實(shí)施孤立數(shù)據(jù)分析和上下文聯(lián)動(dòng)檢驗(yàn),捕捉關(guān)系完整性、臨床變量依賴性等情況。二是采用人工校驗(yàn)進(jìn)行復(fù)核。質(zhì)控人員按比例隨機(jī)抽取患者信息,打開(kāi)業(yè)務(wù)軟件中的病歷,判斷治理過(guò)程是否存在偏差。根據(jù)自動(dòng)和人工的檢測(cè)結(jié)果,生成質(zhì)量測(cè)評(píng)報(bào)告,實(shí)現(xiàn)質(zhì)控統(tǒng)計(jì)指標(biāo)的血緣追蹤,監(jiān)測(cè)診療業(yè)務(wù)和臨床路徑的變異情況,形成動(dòng)態(tài)提示的深度質(zhì)控面板。測(cè)評(píng)報(bào)告中詳細(xì)列舉發(fā)現(xiàn)的具體問(wèn)題,原生數(shù)據(jù)問(wèn)題反饋信息部門,追溯業(yè)務(wù)軟件,提高采集準(zhǔn)確性;違規(guī)性數(shù)據(jù)問(wèn)題反饋醫(yī)務(wù)部門,制定新的邏輯規(guī)則,規(guī)避再次發(fā)生。待問(wèn)題糾正且達(dá)到測(cè)度評(píng)價(jià)分值要求時(shí),終態(tài)數(shù)據(jù)才能被判定為合格,數(shù)據(jù)正式入庫(kù)。
醫(yī)院的專病庫(kù)已導(dǎo)入既往數(shù)據(jù),進(jìn)入了常態(tài)化運(yùn)營(yíng)階段。專病庫(kù)目前收納了自2015年1月—5月的2 384例患者資料,男性1 026例,女性1 358例。平均年齡(35.2±25.0)歲,其中,18歲以上成人1 687例,占比70.76%,符合醫(yī)院診治成人心臟病為主的年齡分布特征;外省籍患者1 722例,占比72.23%,表明醫(yī)院具有鮮明的??铺厣洼椛溆绊懥?。
一是建立了日常的新增歸檔數(shù)據(jù)入庫(kù)機(jī)制。每月15日專病庫(kù)自動(dòng)從CDR提取并治理上月的出院先心病患者資料,臨床研究中心在質(zhì)量測(cè)評(píng)報(bào)告上簽字后入庫(kù)。二是制定了完整的科研數(shù)據(jù)提取流程。研究者在院內(nèi)辦公平臺(tái)發(fā)起課題數(shù)據(jù)申請(qǐng),經(jīng)臨床研究中心、科教部、分管院長(zhǎng)逐級(jí)審批后予以授權(quán),研究者按批準(zhǔn)的篩選范圍,導(dǎo)出符合需求的脫敏數(shù)據(jù)。截至2021年8月,臨床研究中心已配合完成6項(xiàng)先心病隨訪研究,通過(guò)快速提供所需臨床數(shù)據(jù),使研究者精準(zhǔn)界定隨訪階段與內(nèi)容。
利用AI技術(shù)實(shí)現(xiàn)了臨床病史的后結(jié)構(gòu)化,拓展了數(shù)據(jù)收集范圍,體現(xiàn)出醫(yī)療數(shù)據(jù)的利用價(jià)值。賦予研究者全新的科研手段,全文檢索功能支持預(yù)研隊(duì)列特征項(xiàng)的模糊匹配,提高了查找和預(yù)處理數(shù)據(jù)的效率;構(gòu)建了時(shí)序性的先心病數(shù)據(jù)集,避免了多源數(shù)據(jù)相互矛盾的現(xiàn)象,滿足預(yù)測(cè)模型的訓(xùn)練需求,研究結(jié)論更可靠。
醫(yī)院通過(guò)多源數(shù)據(jù)的智能化治理,建設(shè)高質(zhì)量的專病庫(kù),解決了臨床研究數(shù)據(jù)采集受限的問(wèn)題,避免了人工收集數(shù)據(jù)造成的錯(cuò)誤,提升了科研效率。
需要說(shuō)明的是,專病庫(kù)建設(shè)全程需要臨床專家、信息技術(shù)人員及科研人員共同參與。臨床專家前瞻性地厘清面臨的問(wèn)題,提出常規(guī)資料收集要求;信息技術(shù)人員具體分析從業(yè)務(wù)軟件提取數(shù)據(jù)的可及性,設(shè)計(jì)并架構(gòu)數(shù)據(jù)庫(kù),通過(guò)算法匯聚并清洗數(shù)據(jù);研究者則利用數(shù)據(jù)庫(kù)展開(kāi)研究,提煉實(shí)際的研究證據(jù),從而引申出新的問(wèn)題。通過(guò)多方介入的運(yùn)轉(zhuǎn)流程,數(shù)據(jù)才能起到關(guān)鍵作用,形成以數(shù)據(jù)庫(kù)為核心的研究閉環(huán)模式。
專病庫(kù)的核心組件和模塊具有較強(qiáng)的復(fù)用能力。但數(shù)據(jù)庫(kù)建設(shè)費(fèi)用高昂,而橫向的復(fù)制成本相對(duì)較低。因此,在推廣應(yīng)用時(shí),面對(duì)不同的病種,首先,如患者資料、就診信息等相同數(shù)據(jù),與病種獨(dú)有數(shù)據(jù)應(yīng)加以標(biāo)記分隔;其次,多模態(tài)數(shù)據(jù)的處理中,抽取及治理邏輯常常也是類似的,區(qū)別在于病種代碼和特定規(guī)則不同。因此,數(shù)據(jù)庫(kù)的組件應(yīng)采用“通用-病種”的方式整體定義,既減少軟硬件資源的投入,也有利于縮短推廣到其他病種的實(shí)施周期。
當(dāng)然,專病庫(kù)的建設(shè)是一個(gè)逐漸完善的過(guò)程,隨著研究者使用次數(shù)增多,也會(huì)不定期地暴露出一些缺陷:如某類業(yè)務(wù)軟件存在信息盲點(diǎn),使源數(shù)據(jù)無(wú)法提取,缺失項(xiàng)需要研究者手動(dòng)補(bǔ)充,數(shù)據(jù)無(wú)法共享等。另外,針對(duì)同一種特征的描述,醫(yī)生的書(shū)寫各異,導(dǎo)致提取不準(zhǔn)確。對(duì)此,NLP算法的精準(zhǔn)度,以及數(shù)據(jù)項(xiàng)的全面性和準(zhǔn)確性有待進(jìn)一步提高。隨著診前及預(yù)后模型的復(fù)雜度提升,醫(yī)院信息化要不斷改進(jìn),實(shí)現(xiàn)業(yè)務(wù)軟件的前結(jié)構(gòu)化改造,推動(dòng)專病庫(kù)持續(xù)優(yōu)化,真正發(fā)揮出醫(yī)療數(shù)據(jù)的潛力。