龍思哲 李朵 林琳
目前,為響應(yīng)國家政策及醫(yī)院自身業(yè)務(wù)發(fā)展需求,醫(yī)院已開展了多年的信息化建設(shè)工作,各信息系統(tǒng)在日常業(yè)務(wù)中產(chǎn)生的數(shù)據(jù)不斷積累形成的健康醫(yī)療大數(shù)據(jù)。健康醫(yī)療大數(shù)據(jù)優(yōu)點(diǎn)明顯高于傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù),其除了具有獲取效率高、數(shù)量量大以及外推性好的優(yōu)點(diǎn)外,還具有覆蓋范圍廣等優(yōu)勢。但是其也存在很多問題,比如除了數(shù)據(jù)分散、數(shù)據(jù)來源多樣等問題外,還存在信息系統(tǒng)數(shù)據(jù)共享性低等問題,又或者是存在大量非結(jié)構(gòu)化信息融合難度高等問題[1-2]。醫(yī)學(xué)大數(shù)據(jù)不僅具有傳統(tǒng)大數(shù)據(jù)的5V特征,也自身典型特征,對于非顯性價(jià)值信息的運(yùn)用,需要建立合適的分析模型,運(yùn)用相應(yīng)的技術(shù)進(jìn)行提取有效的信息分析,否則不能直接運(yùn)用。同時(shí),數(shù)據(jù)質(zhì)量也要嚴(yán)格把關(guān),數(shù)據(jù)出錯(cuò),極大可能引起一系列連鎖反應(yīng),造成結(jié)果的不真實(shí)性[3]。
健康醫(yī)療大數(shù)據(jù)平臺(tái)是大數(shù)據(jù)收集及分析、實(shí)現(xiàn)全面醫(yī)療管控的重要工具之一,其構(gòu)建期間因具有各種缺點(diǎn)導(dǎo)致臨床醫(yī)學(xué)研究發(fā)展受到阻礙,其中包括健康醫(yī)療大數(shù)據(jù)價(jià)值較低,質(zhì)量差,且沒有統(tǒng)一標(biāo)準(zhǔn)進(jìn)行制約而導(dǎo)致,因此也限制了醫(yī)療服務(wù)。醫(yī)療機(jī)構(gòu)監(jiān)管、等二次利用數(shù)據(jù)的開展實(shí)施[1]。大數(shù)據(jù)醫(yī)療服務(wù)具有多項(xiàng)功能,具體包括能夠影響分析以及血緣分析功能,此外還能通過治理數(shù)據(jù)來賦予該平臺(tái)數(shù)據(jù)流視圖,從而使醫(yī)療數(shù)據(jù)具有一定審計(jì)跟蹤功能等[4]。本文通過借鑒真實(shí)世界數(shù)據(jù)(real world data)實(shí)現(xiàn)臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì)(Clinical Data Interchange Standards Consortium, CDISC)的成功應(yīng)用案例,探討真實(shí)世界健康醫(yī)療大數(shù)據(jù)的可追溯能力,以提升健康醫(yī)療大數(shù)據(jù)質(zhì)量,為后續(xù)研究工作提供便利。
健康醫(yī)療大數(shù)據(jù)具有多項(xiàng)業(yè)務(wù)功能,其中包括公共衛(wèi)生、計(jì)劃生育、傳統(tǒng)醫(yī)療服務(wù)以及綜合管理等,此外其向外可延伸至人工智能、互聯(lián)網(wǎng)、藥品管理等領(lǐng)域,應(yīng)用信息網(wǎng)絡(luò)技術(shù)產(chǎn)生的與健康醫(yī)療相關(guān)的海量數(shù)據(jù),是健康醫(yī)療行業(yè)治理、真實(shí)世界研究、衛(wèi)生醫(yī)療服務(wù)提升等應(yīng)用的重要資源[5]。就目前來看我國對健康醫(yī)療大數(shù)據(jù)的理解存在一定誤區(qū),其中最主要的為兩點(diǎn)內(nèi)容:(1)忽略了非臨床數(shù)據(jù);(2)將健康醫(yī)療大數(shù)據(jù)與臨床數(shù)據(jù)放到同等位置。
健康醫(yī)療大數(shù)據(jù)來源在我國進(jìn)行收集統(tǒng)計(jì)工作已經(jīng)數(shù)年,其具有收集統(tǒng)計(jì)量工作大、來源廣泛等特征,就目前來看我國健康醫(yī)療大數(shù)據(jù)來源包括多項(xiàng)方面:(1)生物數(shù)據(jù)庫:其作用在于記載各類生物信息;(2)醫(yī)療結(jié)構(gòu)臨床資料:一般情況下患者入院時(shí)醫(yī)生都需要對其進(jìn)行居民健康檔案、電子處方、電子病歷、居民健康卡以及藥物服用等特點(diǎn),這些均屬于健康醫(yī)療大數(shù)據(jù);(3)非健康數(shù)據(jù):包括睡眠枕、睡眠床墊以及動(dòng)手環(huán)等,其作用在于能夠及時(shí)利用家用健康設(shè)備進(jìn)行數(shù)據(jù)采集;(4)健康管理app、微信公眾號以及小程序均屬于網(wǎng)絡(luò)移動(dòng)數(shù)據(jù),該網(wǎng)絡(luò)平臺(tái)的作用在于記錄患者各方面數(shù)據(jù),包括醫(yī)療、體征以及檢測等;(5)公共衛(wèi)生資料,其中包括患者日常就診記錄,一般資料以及過往疾病歷史等;(6)基因庫以及基因信息;(7)包括會(huì)議論文、文獻(xiàn)以及醫(yī)療指南等醫(yī)學(xué)知識庫。
健康醫(yī)療大數(shù)據(jù)不僅具有傳統(tǒng)大數(shù)據(jù)的5V特征,即數(shù)據(jù)體量大(volume)、處理速度快(velocity)、數(shù)據(jù)類型多(variety)、低價(jià)值密度(value)、真實(shí)性強(qiáng)(veracity),還具有以下幾種特性。
1.3.1 復(fù)雜性 醫(yī)學(xué)術(shù)語涉及國內(nèi)和國外醫(yī)學(xué)術(shù)語及中文與外文表達(dá)表述方式,其中存在多種問題,例如常見的有屬于標(biāo)準(zhǔn)存在分歧,中外文表達(dá)方式存在不同,此外還存在因更新速度過快導(dǎo)致醫(yī)學(xué)術(shù)語表達(dá)意思與實(shí)際語義存在不同。通常情況下患者在醫(yī)院診治過程中常?;颊咦鳛橹行?,醫(yī)生根據(jù)患者病情從多個(gè)維度來分析醫(yī)療數(shù)據(jù)。因數(shù)據(jù)產(chǎn)生的格式和要求不同,使得數(shù)據(jù)中存在大量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),顯著提高了健康醫(yī)療大數(shù)據(jù)的復(fù)雜性,對后期數(shù)據(jù)處理和分析有更嚴(yán)格的要求[6]。
1.3.2 時(shí)效性 每個(gè)人的健康疾病狀態(tài)均會(huì)隨時(shí)間不斷變化,并非固定、靜止的。健康醫(yī)療大數(shù)據(jù)結(jié)合相關(guān)技術(shù)在恰當(dāng)時(shí)間進(jìn)行數(shù)據(jù)采集和處理,可有效獲取數(shù)據(jù)的動(dòng)態(tài)變化,增強(qiáng)數(shù)據(jù)的時(shí)效性,為后期應(yīng)用提供更準(zhǔn)確的數(shù)據(jù)信息[7]。
1.3.3 不完整性 無論是手工記錄或借助于電子化方式記錄健康醫(yī)療大數(shù)據(jù),均會(huì)因各種原因?qū)е聰?shù)據(jù)不全或在記錄過程中出現(xiàn)紕漏缺失造成數(shù)據(jù)不完整。
1.3.4 隱私性 健康醫(yī)療大數(shù)據(jù)中包含著患者檢查、診斷、治療、費(fèi)用等大量隱私、敏感信息,甚至涵蓋著人類遺傳資源信息,通過數(shù)據(jù)分析和挖掘使得健康醫(yī)療大數(shù)據(jù)的隱私性呈現(xiàn)暴露化狀態(tài),可增加數(shù)據(jù)泄露、誤用、濫用等不良事件的風(fēng)險(xiǎn),使得健康醫(yī)療大數(shù)據(jù)在使用時(shí)的安全和倫理問題更為凸顯[8]。
1.3.5 封閉性 醫(yī)院在信息化建設(shè)過程中缺乏全面系統(tǒng)的數(shù)據(jù)共享機(jī)制,且各信息系統(tǒng)間有相對獨(dú)立的信息標(biāo)準(zhǔn),導(dǎo)致各系統(tǒng)間數(shù)據(jù)互聯(lián)互通程度較低,存在“孤島效應(yīng)”,使得健康醫(yī)療大數(shù)據(jù)具有封閉性[9]。
1.3.6 海量性 理論上,健康醫(yī)療大數(shù)據(jù)可以具有TB甚至PB級的數(shù)據(jù)量,可涉及一個(gè)國家、地區(qū)的幾家或所有醫(yī)院的部分健康人群或所有人群,甚至僅僅是一家醫(yī)院的全部臨床醫(yī)療數(shù)據(jù)。實(shí)際上,一家中型醫(yī)院一年即可產(chǎn)生高達(dá)幾十TB的包括影像數(shù)據(jù)在內(nèi)的醫(yī)療數(shù)據(jù),就算去除關(guān)鍵的影響學(xué)數(shù)據(jù),也有數(shù)百G的數(shù)據(jù)量,現(xiàn)如今我國大多醫(yī)院都不僅單個(gè)部門的數(shù)據(jù),而是多個(gè)醫(yī)院數(shù)據(jù)進(jìn)行聯(lián)系。
1.3.7 追蹤性 個(gè)體醫(yī)療健康大數(shù)據(jù)包括一系列內(nèi)容,患者的臨床數(shù)據(jù)資料也是根據(jù)時(shí)間進(jìn)行排列,其中健康大數(shù)據(jù)一系列生命過程所產(chǎn)生的多點(diǎn)數(shù)據(jù),包括人類出生、幼兒保健、注射疫苗、入學(xué)體檢、畢業(yè)工作體檢、看病、飲食情況、睡眠情況以及住院等多種情況,其中醫(yī)院就診中心電圖數(shù)據(jù)需持續(xù)性進(jìn)行觀察,通過數(shù)據(jù)觀察后來分析病人自身情況,也就是具有一定的追蹤特性。
數(shù)據(jù)標(biāo)準(zhǔn)化以及結(jié)構(gòu)標(biāo)準(zhǔn)化能確保數(shù)據(jù)質(zhì)量得到保證。伴隨互聯(lián)網(wǎng)科技發(fā)展,不同來源的醫(yī)療數(shù)據(jù)在后期應(yīng)用中很難實(shí)現(xiàn),為此為了解決這一問題就需要高校追溯數(shù)據(jù)來源,確保數(shù)據(jù)來源達(dá)到可視化。其目的在于方便在后期過程中能夠直接查找到相應(yīng)的數(shù)據(jù),從而達(dá)到減輕行業(yè)專家負(fù)擔(dān)的作用。因人工標(biāo)注工作效率較低無法滿足醫(yī)療數(shù)據(jù)治理過程中對海量數(shù)據(jù)進(jìn)行標(biāo)注的需求,而半自動(dòng)或自動(dòng)的標(biāo)注方法對海量數(shù)據(jù)進(jìn)行標(biāo)注可顯著提高數(shù)據(jù)治理效率,且可以為后續(xù)相關(guān)研究提供高質(zhì)量數(shù)據(jù)[10]。通常臨床數(shù)據(jù)提交具有一定規(guī)則和要求,通過分析和完善相關(guān)規(guī)則能真實(shí)的反應(yīng)數(shù)據(jù)情況,然后通過給予藥物治療疾病的臨床特征、有效療效評價(jià)指標(biāo)等也逐漸得到重視[11-12]。真實(shí)世界數(shù)據(jù)作為CDISC項(xiàng)目之一,其目的是在電子健康記錄或其他衛(wèi)生信息系統(tǒng)中收集相關(guān)數(shù)據(jù),應(yīng)用到關(guān)鍵的可拓展用途中,如疾病登記、安全報(bào)告、臨床研究及生物監(jiān)測。
本研究以某省會(huì)城市某片區(qū)15家醫(yī)療機(jī)構(gòu)現(xiàn)有醫(yī)院信息系統(tǒng)(hospital information system,HIS)系統(tǒng)數(shù)據(jù)為基礎(chǔ),將所涉及的相關(guān)數(shù)據(jù)依據(jù)國家頒布的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行標(biāo)準(zhǔn)化及半自動(dòng)化融合處理。通過對原始數(shù)據(jù)及數(shù)據(jù)模型的管理,賦予該數(shù)據(jù)治理平臺(tái)以下功能:(1)提取原始數(shù)據(jù)的字段、表、表間關(guān)系;(2)構(gòu)成能夠?qū)γ總€(gè)表和字段標(biāo)注業(yè)務(wù)名稱及備注的原始數(shù)據(jù)庫數(shù)據(jù)模型;(3)提供根據(jù)業(yè)務(wù)名稱或字段和表名稱進(jìn)行搜索的功能;(4)通過對字段和表的增加、刪除及修改管理數(shù)據(jù)模型的功能。
在數(shù)據(jù)采集過程中,該數(shù)據(jù)平臺(tái)對數(shù)據(jù)庫中的用戶開放賬號權(quán)限表進(jìn)行數(shù)據(jù)采樣,將已存在的業(yè)務(wù)術(shù)語關(guān)聯(lián)至對應(yīng)的基礎(chǔ)數(shù)據(jù)中,通過數(shù)據(jù)源映射至業(yè)務(wù)術(shù)語生成新的目錄。為了將不同醫(yī)療機(jī)構(gòu)的信息系統(tǒng)產(chǎn)生的數(shù)據(jù)融合成統(tǒng)一的格式,達(dá)到數(shù)據(jù)交換的目的,該數(shù)據(jù)平臺(tái)通過自然語言處理(natural language processing,NLP)算法對數(shù)據(jù)進(jìn)行去重、梳理、消歧、歸一等,將整理后的業(yè)務(wù)數(shù)據(jù)模型添加到知識庫中,在將數(shù)據(jù)依據(jù)對應(yīng)的業(yè)務(wù)數(shù)據(jù)模型抽取、清晰至目標(biāo)數(shù)據(jù)庫中,并對數(shù)據(jù)采集過程的目標(biāo)數(shù)據(jù)庫(extract-transform-load,ETL)采取了透明化操作管理,使數(shù)據(jù)采集過程可視化,檢索效率隨之提升[13-14]。將融合整理后的數(shù)據(jù)信息按照公共衛(wèi)生、藥品使用情況、慢病管理等主題進(jìn)行分類,后期數(shù)據(jù)分析以業(yè)務(wù)需求為導(dǎo)向,不同業(yè)務(wù)部門根據(jù)其業(yè)務(wù)需要進(jìn)行數(shù)據(jù)篩選,進(jìn)而規(guī)劃醫(yī)療數(shù)據(jù)全景圖進(jìn)一步提煉有價(jià)值數(shù)據(jù),最終梳理出健康醫(yī)療數(shù)據(jù)集市,在數(shù)據(jù)集市中抽取某分類下所需要的數(shù)據(jù)進(jìn)行可視化計(jì)算。通過對該健康醫(yī)療大數(shù)據(jù)平臺(tái)進(jìn)行治理,可顯著提高數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、合理性及時(shí)效性,達(dá)到提升健康醫(yī)療大數(shù)據(jù)質(zhì)量的目的。并且健康醫(yī)療大數(shù)據(jù)平臺(tái)可通過追溯數(shù)據(jù)來源達(dá)到數(shù)據(jù)質(zhì)量控制的要求,通過患者、病種及科室能查看到該區(qū)域的醫(yī)療信息[15]。例如,通過搜索功能查看某一時(shí)間段該區(qū)域各醫(yī)療機(jī)構(gòu)糖尿病患者就診人數(shù),為后期醫(yī)療資源分配等提供相關(guān)信息。
現(xiàn)階段屬于健康醫(yī)療與互聯(lián)網(wǎng)相互聯(lián)系的階段,構(gòu)建大數(shù)據(jù)數(shù)據(jù)庫作為全球性范圍內(nèi)各個(gè)醫(yī)療機(jī)構(gòu)的方向,其作用在于構(gòu)建信息網(wǎng)、采集人物相關(guān)信息等作用,使現(xiàn)有的健康醫(yī)療大數(shù)據(jù)呈指數(shù)級增長。因大數(shù)據(jù)本身除了具有分散、冗雜等特征外,導(dǎo)致很難順應(yīng)時(shí)代發(fā)展,導(dǎo)致其準(zhǔn)確度較低。此外因大數(shù)據(jù)因數(shù)據(jù)質(zhì)量不高,其準(zhǔn)確度較低,一致性較差,嚴(yán)重情況時(shí)可能導(dǎo)致不能及時(shí)分析各種業(yè)務(wù),一定程度也阻礙健康醫(yī)療發(fā)展。構(gòu)建大數(shù)據(jù)數(shù)據(jù)庫的缺點(diǎn)也會(huì)影響健康醫(yī)療大數(shù)據(jù)平臺(tái)正常運(yùn)營。與此同時(shí)使采集到的信息具有不確定性,導(dǎo)致的結(jié)果是影響數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量與信息的準(zhǔn)確度、精準(zhǔn)度及輸出的正確性密切相關(guān)。健康醫(yī)療大數(shù)據(jù)的分析、信息導(dǎo)出的結(jié)果對人們的身體健康產(chǎn)生直接影響,因此對于數(shù)據(jù)質(zhì)量有極高的要求。提高數(shù)據(jù)質(zhì)量的方法之一是制定標(biāo)準(zhǔn)化管理,如在各個(gè)信息系統(tǒng)中的主數(shù)據(jù)、元數(shù)據(jù)等規(guī)范化填寫。此外,對數(shù)據(jù)的使用進(jìn)行審批流程化管理,制定各種情況下的審批流程的方案,具體詳細(xì)限定數(shù)據(jù)使用人數(shù),并落實(shí)負(fù)責(zé)執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)更新和數(shù)據(jù)質(zhì)量跟蹤的責(zé)任部門和人員。數(shù)據(jù)治理由信息流程秩序管理進(jìn)一步發(fā)展至信息價(jià)值開發(fā)。
本文通過建立數(shù)據(jù)可追溯性全鏈的可視化平臺(tái),使該健康醫(yī)療大數(shù)據(jù)平臺(tái)達(dá)到數(shù)據(jù)質(zhì)量控制的要求,并提供數(shù)據(jù)采集、統(tǒng)計(jì)等功能,為數(shù)據(jù)應(yīng)用提供結(jié)構(gòu)映射、生命周期管理等。該健康醫(yī)療大數(shù)據(jù)平臺(tái)通過建立跨系統(tǒng)或機(jī)構(gòu)的識別規(guī)則,在跨系統(tǒng)或機(jī)構(gòu)數(shù)據(jù)融合過程中實(shí)現(xiàn)較高質(zhì)量的數(shù)據(jù)整合,從而達(dá)到數(shù)據(jù)采集的時(shí)效性和一致性,以滿足后期不同數(shù)據(jù)分析和應(yīng)用的需求。