周蜜果 張平 竇丹波 馮佳 劉寧遠(yuǎn) 成福春 朱亮
摘要:本文對重癥監(jiān)護(hù)醫(yī)學(xué)信息集市Ⅲ(MIMICⅢ數(shù)據(jù)庫)的數(shù)據(jù)構(gòu)成和特征內(nèi)容進(jìn)行分析,梳理了研究者基于該數(shù)據(jù)庫的研究主題分布、代碼知識庫的共享模式及腳本內(nèi)容、隱私數(shù)據(jù)的處理和多層保護(hù)機(jī)制,認(rèn)為MIMICⅢ數(shù)據(jù)庫的技術(shù)和管理模式適用于類似醫(yī)療信息的處理,如注重隱私的處理、對于主索引的確立及各類代碼的統(tǒng)一、促進(jìn)源代碼的共享等,對構(gòu)建共享中醫(yī)數(shù)據(jù)集具有參考意義。
關(guān)鍵詞:MIMICⅢ數(shù)據(jù)庫;代碼共享;中醫(yī)數(shù)據(jù)集
DOI: 10.3969/j.issn.2095-5707.2019.06.001
中圖分類號:R197.324;G353.1 ? ?文獻(xiàn)標(biāo)識碼:A ? ?文章編號:2095-5707(2019)06-0001-05
Abstract: This article analyzed the data composition and characteristic content of Medical Information Mart for Intensive Care Ⅲ (MIMICⅢ Database), and combed the research topic distribution of researchers based on the database, sharing model of code knowledge base, content of the script, processing of private data, and layer protection mechanism, and believed that the technology and management mode of MIMICIII Database was suitable for the processing of similar medical information, such as privacy-oriented processing, the establishment of main indexes and unification of various codes, and the promotion of source code sharing, which showed reference significance for building a shared TCM data set.
Key words: MIMICⅢ Database; code sharing; TCM data set
隨著醫(yī)院信息系統(tǒng)的不斷完善,醫(yī)療數(shù)據(jù)的獲取和再利用的效率成為醫(yī)療健康大數(shù)據(jù)的焦點(diǎn),醫(yī)生和科研人員通過對這些信息的檢索整合,可以獲得科研成果或者用于臨床決策支持。中醫(yī)科室基于實(shí)際業(yè)務(wù)建立了大量的??茢?shù)據(jù)集,數(shù)據(jù)集的質(zhì)量直接影響到數(shù)據(jù)的使用效果。本文旨在通過對國際通用度較高的醫(yī)學(xué)信息數(shù)據(jù)庫的數(shù)據(jù)特征及運(yùn)行模式進(jìn)行研究,為構(gòu)建中醫(yī)數(shù)據(jù)集提供參考,使其能更好地、有針對性地支持臨床數(shù)據(jù)挖掘及臨床決策。
1 ?MIMICⅢ數(shù)據(jù)庫概況
2003年,美國貝斯以色列女執(zhí)事醫(yī)療中心(Beth Israel Deaconess Medical Center,以下簡稱“醫(yī)療中心”)、麻省理工(MIT)、麻省總醫(yī)院(MGH)和英國牛津大學(xué)的急診科醫(yī)生、重癥科醫(yī)生、計算機(jī)科學(xué)專家等共同建立了一個數(shù)據(jù)庫,該數(shù)據(jù)庫在建立之初的名字為Multiparameter Intelligent Monitoring in Intensive Care Ⅱ,簡寫為MIMICⅡ。2016年9月,MIMICⅡ數(shù)據(jù)庫升級為MIMICⅢ數(shù)據(jù)庫,并改名為Medical Information Mart for Intensive Care,直譯為重癥監(jiān)護(hù)醫(yī)學(xué)信息集市,簡寫仍然是MIMIC。
目前MIMICⅢ數(shù)據(jù)庫最新的版本是1.4(V1.4),包含了2001年6月-2012年10月在醫(yī)療中心住院的38 645名成年個體(非新生兒)和 ?7 875名新生兒(出生至28天)的58 000余次住院臨床診療信息。這些資料被整理成了26張CSV格式(以純文本的形式存儲表格數(shù)據(jù),包括數(shù)字和文本)的表格供研究者查詢[1],為流行病學(xué)的分析性研究、臨床決策的發(fā)展及醫(yī)學(xué)電子設(shè)備的研發(fā)提供了更多樣的方法和思路[2]。
2 ?MIMICⅢ數(shù)據(jù)庫內(nèi)容
2.1 ?MIMICⅢ數(shù)據(jù)庫的表結(jié)構(gòu)
MIMICⅢ數(shù)據(jù)庫有26張表格,其中5張為輔助字典表(包括醫(yī)療項目、診斷、手術(shù)操作、指標(biāo)項目、實(shí)驗(yàn)室項目對應(yīng)代碼),余下21張都是患者住院期間的各項臨床數(shù)據(jù),其中檢驗(yàn)記錄表(Chartevents)是內(nèi)存最大的一張表格,達(dá)到30多個G,由于數(shù)據(jù)量過大,這一張表在導(dǎo)入數(shù)據(jù)庫時被拆分為18張。在研究中,較為常用的MIMICⅢ數(shù)據(jù)庫的信息主要有以下幾類。
2.1.1 ?基本信息 ?患者的人口統(tǒng)計學(xué)資料(如性別、種族、婚姻狀況等),以及出入院、病區(qū)轉(zhuǎn)換等基本信息。年齡沒有直接記載,但可以通過出生日期和入院日期之差計算得出。這些基本信息可用于研究初期,在樣本中篩選出類似性質(zhì)的患者供下一步分析。
2.1.2 ?診斷及手術(shù)信息 ?使用國際疾病分類(International Classification of Diseases, ICD)中ICD_9標(biāo)準(zhǔn)編碼,記錄患者診斷、診斷分組、手術(shù)操作記錄信息。表1是根據(jù)信息中的第一診斷配合患者年齡分組得出的一個簡單示例。
2.1.3 ?實(shí)時記錄的生理指標(biāo) ?例如,信息數(shù)據(jù)結(jié)構(gòu)化存儲可以實(shí)時記錄心率、動脈血壓、肺動脈壓及體液出入量平衡等情況(見圖1)。
2.1.4 ?影像學(xué)檢查結(jié)果、醫(yī)囑、全面的實(shí)驗(yàn)室檢驗(yàn)結(jié)果 ?例如,血生化、血常規(guī)、動脈血?dú)狻⒛虺R?guī)、微生物檢查等。除了影像學(xué)檢查結(jié)果是以文本描述的形式存儲,其他實(shí)驗(yàn)室檢驗(yàn)結(jié)果均是結(jié)構(gòu)化的數(shù)據(jù)。
2.1.5 ?患者用藥記錄信息 ?每位患者用藥的開始及結(jié)束時間、藥品名稱、規(guī)格單位、藥品類型(主、輔)、用藥劑量、用藥強(qiáng)度及給藥途徑。
2.1.6 ?護(hù)理病程記錄信息 ?以文本形式詳細(xì)記錄患者病情病史、入院后的治療診斷過程、在院出院用藥情況、檢查結(jié)果描述、患者狀態(tài)描述及出院指導(dǎo)等內(nèi)容。
在實(shí)際研究中,為了減少臨床記錄中錄入錯誤、采樣率變化、數(shù)據(jù)丟失等情況的發(fā)生,根據(jù)需求會對數(shù)據(jù)進(jìn)行預(yù)處理,例如,在膿毒血癥患者心率、血壓晝夜生理節(jié)律性研究中,剔除了在重癥加強(qiáng)護(hù)理病房(Intensive Care Unit, ICU)住院時間不足2 d或有效數(shù)據(jù)長度不夠48 h的患者記錄、使用心臟起搏器的患者以及在整個ICU數(shù)據(jù)記錄中丟失長度超過4 h的患者記錄、不同時具有心率和血壓測量數(shù)據(jù)的患者記錄[3]。
2.2 ?研究主題分布
MIMIC數(shù)據(jù)庫自建立以來,受到各國研究人員關(guān)注,圍繞其發(fā)表的論文逐年增長,研究主題主要分布在以下幾個方面:⑴ICU患者預(yù)后、死亡率預(yù)測及其相關(guān)影響因素分析。⑵ICU患者基本生命體征信息的研究,如王劍等[3]通過對膿毒血癥患者心率和血壓晝夜變化幅度差異進(jìn)行研究分析,發(fā)現(xiàn)死亡組和存活組之間的心率和血壓晝夜變化幅度存在顯著性差異,可進(jìn)一步研究晝夜節(jié)律性與臨床干預(yù)措施的關(guān)聯(lián)性,為患者治療提供決策支持。⑶探究某些因素是否是某些疾病的影響因子。⑷關(guān)于MIMIC數(shù)據(jù)庫介紹或數(shù)據(jù)處理方法的研究,包括數(shù)據(jù)集的獲取、使用方法、結(jié)構(gòu)特征的描述、研究方法的介紹等,幫助廣大科研工作者快速高效地了解數(shù)據(jù)庫。⑸預(yù)測某種疾病的發(fā)病率或死亡率。Dunitz M等[4]利用該數(shù)據(jù)庫研發(fā)了一種實(shí)時算法,通過將感染性疾病患者進(jìn)行危險分層,在患者發(fā)展為膿毒性休克前進(jìn)行危險歸類,可有效預(yù)測高乳酸血癥和循環(huán)衰竭的發(fā)生,提高分診的效率和準(zhǔn)確度。⑹范圍較廣的其他類研究,包括探究不同測量方法的效果及差異,以及用于多參數(shù)數(shù)據(jù)D/A回放的系統(tǒng)開發(fā),可對多參數(shù)數(shù)據(jù)進(jìn)行波形回放等。
通過研究主題的分布統(tǒng)計可以看出,數(shù)據(jù)庫中的大部分?jǐn)?shù)據(jù)已在相關(guān)研究中被使用,但仍有很多信息有待各領(lǐng)域結(jié)合各自的專業(yè)進(jìn)行深度挖掘,開拓更多研究選題,例如,對其中的文本數(shù)據(jù)(影像報告、護(hù)理病程記錄)進(jìn)行分析,構(gòu)建可利用的知識庫,也可以有效輔助臨床決策[5]。
2.3 ?MIMIC代碼知識庫
MIMICⅢ數(shù)據(jù)庫的默認(rèn)數(shù)據(jù)軟件支持系統(tǒng)為PostgreSQL,也支持其他主流的數(shù)據(jù)庫系統(tǒng),如MySQL,Oracle,SQL Server等。PostgreSQL作為一款功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng),可以運(yùn)行在所有主流操作系統(tǒng)上,不僅擁有強(qiáng)大的可靠穩(wěn)定性,支持大多數(shù)的數(shù)據(jù)類型,可存儲二進(jìn)制大對像(包括圖片、聲音和視頻),多平臺語言的兼容能力和可擴(kuò)性,最關(guān)鍵的是它完全開源,可以自由獲取,并免費(fèi)授權(quán)允許用戶在各種開源或是閉源項目中使用,因此非常適合作為自由研究的數(shù)據(jù)庫開發(fā)平臺。
在GitHub平臺(https://github.com/MIT-LCP/ mimic-code)MIMIC版塊下,有供全球研究者免費(fèi)下載的代碼包,其中有各種腳本內(nèi)容,包括索引的速度測試、數(shù)據(jù)庫的建立、數(shù)據(jù)特征(人口統(tǒng)計數(shù)據(jù),器官衰竭評分、疾病嚴(yán)重程度評分、治療持續(xù)時間)、可執(zhí)行文檔提取分析數(shù)據(jù)的實(shí)例等。研究者可以通過這些代碼看到其他人的研究方法和結(jié)果,也可以上傳自己的腳本,或者對已有腳本進(jìn)行改進(jìn),在平臺的管理下向全世界分享自己修改后的代碼包[6]。如圖2所示。
例如,膿毒癥是ICU中常見的、且治療費(fèi)用高昂的疾病,以前被定義為全身性炎癥和感染同時存在,但最近被重新定義為由宿主對感染的反應(yīng)失調(diào)引起的危及生命的器官功能障礙。Seymour C W等[6]通過交叉參考抗生素使用和微生物學(xué)評估請求,確定疑似感染的患者。新的研究者采用類似的方法,將入ICU不久有過申請微生物培養(yǎng)的情況定義為疑似感染,在膿毒癥3.0標(biāo)準(zhǔn)下將膿毒癥定義為與器官衰竭相關(guān)的感染懷疑,在缺乏更精確的標(biāo)志物的情況下,這個定義即是膿毒癥實(shí)際發(fā)作的代表,它作為起始時間的近似值,可用于開發(fā)決策支持工具[7]。
Angus D C等[8]提供膿毒癥標(biāo)準(zhǔn)的腳本是通過診斷代碼和操作代碼,確定相關(guān)患者的感染、顯性膿毒癥、器官衰竭、機(jī)械通氣情況的有無,除了顯性膿毒癥之外,感染如果與器官衰竭或機(jī)械通氣同時存在,則判斷為膿毒癥(見圖3~圖5)。相比于已發(fā)表的論文,這些腳本可以更直觀地看到研究者利用數(shù)據(jù)的方法和結(jié)果,為想要進(jìn)行類似科研數(shù)據(jù)分析的人提供了方向,能以更有意義的方式管理、分析、解釋和呈現(xiàn)這些數(shù)據(jù)。
3 ?對于構(gòu)建中醫(yī)共享數(shù)據(jù)集的啟示
MIMICⅢ數(shù)據(jù)庫在臨床數(shù)據(jù)庫建設(shè)和基于數(shù)據(jù)庫開展臨床研究方面都走在了前沿,相比較而言,我國在這方面的工作尚處于起步階段[7],特別是中醫(yī)藥行業(yè),缺乏權(quán)威的、對公眾開放及共享交流的高質(zhì)量數(shù)據(jù)集。MIMICⅢ數(shù)據(jù)庫的運(yùn)行機(jī)制,對于構(gòu)建共享中醫(yī)數(shù)據(jù)集具有重要的借鑒及啟示作用。
3.1 ?注重隱私的處理
數(shù)據(jù)的分享增加了醫(yī)療隱私泄露的風(fēng)險,而數(shù)據(jù)的挖掘會進(jìn)一步形成對醫(yī)療隱私保護(hù)更大的威脅[9]。MIMICⅢ數(shù)據(jù)庫包含ICU患者的真實(shí)醫(yī)療數(shù)據(jù),面對全球研究者,為了給予患者應(yīng)有的保護(hù)和尊重,必須在隱私保護(hù)方面慎之又慎。
首先,要獲取MIMICⅢ數(shù)據(jù)庫的使用權(quán)限,必須要通過必要的培訓(xùn)課程學(xué)習(xí)(針對數(shù)據(jù)研究人員的課程),通過相應(yīng)的倫理學(xué)考試。其次,申請者要在生物醫(yī)學(xué)研究資源網(wǎng)站PhysioNet(網(wǎng)址:http://www.physionet.org/)上進(jìn)行信息注冊后正式提交申請,同時提供之前完成課程培訓(xùn)的報告,申請獲得批準(zhǔn)后,將收到從PhysioNetWorks下載數(shù)據(jù)庫說明的電子郵件。由于是人工審核,可能需要1周左右的時間;若申請中有任何不完整、不正確或無意義的信息,都可能會造成延遲批準(zhǔn)或者不批準(zhǔn)。如此繁雜的獲取過程就是數(shù)據(jù)的第一重保護(hù)。
獲得訪問權(quán)限后,約40 G流量的數(shù)據(jù)庫下載也是一個頗具挑戰(zhàn)的過程,下載完成后,在搭建好的數(shù)據(jù)庫管理平臺上使用SQL腳本建立起一個完整的MIMIC數(shù)據(jù)庫表結(jié)構(gòu),并導(dǎo)入相關(guān)數(shù)據(jù),大約占用100 G的空間。
最終,數(shù)據(jù)庫本身對患者數(shù)據(jù)隱私保護(hù)完全符合健康保險可移植性和責(zé)任法案(HIPAA, Health Insurance Portability and Accountability Act。該法案對醫(yī)療信息的電子交換進(jìn)行了詳細(xì)規(guī)范。網(wǎng)址:https://www.hippa.com/)的要求,采用算法對患者數(shù)據(jù)進(jìn)行預(yù)處理,包括利用模式識別算法去標(biāo)識化、日期移位及格式轉(zhuǎn)換等,識別并移除患者的受保護(hù)健康信息。例如,圖6中,2196、2153就是將日期的年份在一定偏移量規(guī)則下,經(jīng)過平移后得到的結(jié)果,即日期移位。這些日期仍然可用于年齡或住院天數(shù)等計算分析,同時也保護(hù)了患者的隱私。這些技術(shù)本質(zhì)上適用于任何醫(yī)療文本及患者相關(guān)敏感信息的處理,值得在構(gòu)建中醫(yī)共享數(shù)據(jù)集的過程中加以學(xué)習(xí)借鑒[10]。
3.2 ?對于主索引的確立及各類代碼的統(tǒng)一
MIMICⅢ數(shù)據(jù)庫用于區(qū)別患者個體的字段共有3個:subjects_id,hadm_id和icustay_id。其中,subjects_id是患者身份的唯一標(biāo)識,即1個subject_id對應(yīng)1名患者。hadm_id是患者每次住院的身份識別號,1名患者可能多次住院,因此1個subjects_id會對應(yīng)多個hadm_id,但1個hadm_id只能對應(yīng)1個subject_id。icustay_id與hadm_id類似,表示患者進(jìn)入ICU的編號,1個hadm_id可以對應(yīng)多個icustay_id。在利用MIMICⅢ數(shù)據(jù)庫進(jìn)行研究時,需要運(yùn)用SQL語言對多個數(shù)據(jù)庫進(jìn)行連接,連接的基礎(chǔ)一般就是上述3個字段[1]。
診斷、手術(shù)操作、藥品、檢查項目、指標(biāo)等各項信息在外界都有不同的體系標(biāo)準(zhǔn),各自代碼都不同,MIMICⅢ數(shù)據(jù)庫以字典表的形式,給這些代碼提供了內(nèi)部的統(tǒng)一管理,在數(shù)據(jù)分析挖掘過程中按照這些字典表的指引,能夠更高效地鎖定指標(biāo)的具體內(nèi)容。
3.3 ?促進(jìn)源代碼的共享
MIMICⅢ數(shù)據(jù)庫不僅提供數(shù)據(jù)本身,更重要的是提供基于該數(shù)據(jù)庫的相關(guān)研究數(shù)據(jù)腳本的共享。通過該數(shù)據(jù)腳本,可以重現(xiàn)該研究使用的實(shí)際數(shù)據(jù),供后來研究者評估。而且,可以對該腳本不斷地深化改進(jìn)并發(fā)布,從而使面向主題的研究更加深入與準(zhǔn)確。
當(dāng)然,若要構(gòu)建實(shí)際的中醫(yī)共享數(shù)據(jù)集,除了以上幾點(diǎn)可以參考以外,我們也可以圍繞專病專科的建設(shè),構(gòu)建主題更加鮮明的數(shù)據(jù)集,如針灸療法評價數(shù)據(jù)集、推拿療法評價數(shù)據(jù)集、皮膚病數(shù)據(jù)集、婦科病數(shù)據(jù)集等。在各類數(shù)據(jù)集的構(gòu)建過程中,核心應(yīng)圍繞著中醫(yī)的理、法、方、藥以及臨床療效,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化與結(jié)構(gòu)化處理,以提高數(shù)據(jù)檢索的效率與準(zhǔn)確性。
參考文獻(xiàn)
[1] 胡志德.如何利用重癥醫(yī)學(xué)數(shù)據(jù)庫MIMIC開展研究[EB/OL]. ? (2018-06-25)[2019-04-26].http://www.sohu.com/a/237697470_373785.
[2] 李開源,馮聰,賈立靜,等.MIMIC數(shù)據(jù)庫在急診醫(yī)學(xué)臨床研究過程中運(yùn)用的思考[J].中華危重病急救醫(yī)學(xué),2018,30(5):494-496.
[3] 王劍,張政波,王衛(wèi)東,等.基于重癥監(jiān)護(hù)數(shù)據(jù)庫MIMIC-Ⅱ的臨床數(shù)據(jù)挖掘研究[J].中國醫(yī)療器械雜志,2014,38(6):402-406.
[4] DUNITZ M, VERGHESE G, HELDT T. Predicting hyperlactatemia in the MIMIC Ⅱ database[J]. Conf Proc IEEE Eng Med Biol Soc, 2015:985-988.
[5] 陳靜,李保萍.MIMIC-Ⅲ電子病歷數(shù)據(jù)集及其挖掘研究[J].信息資源管理學(xué)報,2017(4):29-37.
[6] SEYMOUR C W, LIU V X, IWASHYNA T J, et al. Assessment of clinical criteria for sepsis: for the third international consensus definitions for sepsis and septic shock (sepsis-3)[J]. Journal of the American Medical Association, 2016, 315(8):762-774.
[7] JOHNSON A E W, STONE D J, CELI L A, et.al. The MIMIC Code Repository: enabling reproducibility in critical care research[J]. Journal of the American Medical Informatics Association, 2018,25(1):32-39.
[8] ANGUS D C, LINDE-ZWIRBLE W T, LIDICKER J, et.al. Epidemiology of severe sepsis in the United States: analysis of incidence, outcome, and associated costs of care[J]. Critical Care Medicine, 2001,29(7):1303-1310.
[9] 王強(qiáng)芬.大數(shù)據(jù)時代醫(yī)療隱私層次化控制的理性思考[J].醫(yī)學(xué)與哲學(xué)(A),2016,37(5):5-8.
[10] 鄭西川.臨床科研大數(shù)據(jù)應(yīng)用系列3:基于MIMIC-Ⅲ數(shù)據(jù)集的 ? ?患者數(shù)據(jù)隱私保護(hù)技術(shù)及啟示HIT專家網(wǎng)[EB/OL].(2018-09-12) ? [2019-04-26].https://www.hit180.com/33205.html.
(收稿日期:2019-07-19)
(修回日期:2019-09-09;編輯:魏民)