趙俊+孫亞丹
【摘 要】隨云計算、物聯(lián)網(wǎng)、虛擬化技術(shù)、互聯(lián)網(wǎng)技術(shù)的發(fā)展和應(yīng)用,Watson算法等人工智能技術(shù)引入醫(yī)療領(lǐng)域,醫(yī)院為了更好地服務(wù)患者、醫(yī)護(hù)人員和醫(yī)療管理人員,構(gòu)建了以電子病歷為核心的人口健康信息集成平臺和臨床數(shù)據(jù)中心CDR。醫(yī)療過程中產(chǎn)生數(shù)以萬計的醫(yī)療數(shù)據(jù),針對醫(yī)療領(lǐng)域的大數(shù)據(jù)的特點,海量的醫(yī)療健康非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含著信息價值多樣,本文設(shè)計了一種基于Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理與決策流程,對其進(jìn)行有效存儲、處理、查詢和分析,進(jìn)而輔助某個臨床醫(yī)生做出更為科學(xué)和準(zhǔn)確的診斷和用藥決策,幫助醫(yī)院根據(jù)患者潛在需求制定個性化服務(wù)。
【關(guān)鍵詞】非結(jié)構(gòu)化;Hadoop;大數(shù)據(jù)分析;虛擬化
Research on Unstructured Big Data Analysis for Healthcare Based on Hadoop
SUN Yadan ZHAO Jun
(Shanghai Ruanzhong Information Technology Co., Ltd, Shanghai 200235)
【Abstract】With the development and application of cloud computing ,Internet of things, virtualization technology, the hospital has built the information integration platform and Clinical Data Repository, which is the core of the electronic medical record and produces tens of thousands of medical health big data. In allusion to the characteristics of big data in the medical field, massive healthcare unstructured data contains diverse information value. The paper designs unstructured data processing and decision making process based on Hadoop , which is effective in storing, processing, querying and analyzing, and thus assisting a clinician to make more scientific and accurate diagnosis and medication decisions and to help hospitals to develop personalized service according to the potential needs of patients.
【Key words】Unstructured; Hadoop; Big data analytics; Virtualization
1 大數(shù)據(jù)的時代背景
二十一世紀(jì)以來,隨云計算、物聯(lián)網(wǎng)、虛擬化技術(shù)和互聯(lián)網(wǎng)技術(shù)的急速成長及“三網(wǎng)融合”、Web2.0時代的到來,網(wǎng)絡(luò)的迅猛發(fā)展引發(fā)了應(yīng)用數(shù)據(jù)的種類和數(shù)量的快速增長。為了更好地為病人服務(wù),進(jìn)一步緩解醫(yī)患關(guān)系;利于醫(yī)護(hù)人員,提高工作效率,減輕人力成本;支撐管理者運(yùn)營決策,宏觀把控醫(yī)院發(fā)展和醫(yī)療進(jìn)步,構(gòu)建以電子病歷(Electronic Medical Record,EMR)為核心的醫(yī)院信息集成平臺和臨床數(shù)據(jù)中心(Clinical Data Repository,CDR),提升了信息化標(biāo)準(zhǔn)水平,以病人為核心,以電子病歷為基準(zhǔn),把醫(yī)療的全流程行為中的環(huán)節(jié)和鏈條有機(jī)鏈接在一起,形成醫(yī)療管理的閉環(huán),包括醫(yī)囑、藥品、檢驗、物資耗材、手術(shù)麻醉、醫(yī)療評價等環(huán)節(jié)的閉環(huán)管理。同時為保證系統(tǒng)的安全性,按照等級保護(hù)三級水平建設(shè)。信息平臺和CDR建設(shè)應(yīng)用,醫(yī)院如何將CDR中的數(shù)據(jù)通過技術(shù)的工具發(fā)揮出最大價值,實現(xiàn)對醫(yī)生工作實時進(jìn)行決策,給醫(yī)院運(yùn)營進(jìn)行實時的決策分析,最大化醫(yī)院數(shù)據(jù)價值應(yīng)用,引起了許多醫(yī)院的管理者、行業(yè)專家廣泛關(guān)注和資金投入。同時隨著醫(yī)療信息化技術(shù)、EMR信息化的發(fā)展,人口健康大數(shù)據(jù)信息迅猛增長。對于浩瀚的醫(yī)療大數(shù)據(jù)信息海洋,如何高效地、有效地、有序地收集、分析、挖掘出信息之間的相關(guān)關(guān)系,將數(shù)據(jù)集合化多為精。在實際應(yīng)用中,大數(shù)據(jù)和分析技術(shù)已成功應(yīng)用于許多領(lǐng)域,如醫(yī)療信息、互聯(lián)網(wǎng)金融、社會化媒體中的用戶行為分析、電子商務(wù)等。信息風(fēng)暴帶來了大數(shù)據(jù)的出現(xiàn)大數(shù)據(jù)不僅導(dǎo)致了人們的生活、事業(yè)和思維方式的改變,同時引發(fā)了巨大的變革,因此大數(shù)據(jù)分析技術(shù)順勢而生,成為非常重要的研究領(lǐng)域,同時也逐步在醫(yī)療領(lǐng)域使用。
2 醫(yī)療健康大數(shù)據(jù)的特征與非結(jié)構(gòu)性
大數(shù)據(jù)分析是對結(jié)構(gòu)類型多樣、迅猛增長、內(nèi)容真實的數(shù)據(jù)進(jìn)行分析、預(yù)測,會使決策更為精確,釋放出更多數(shù)據(jù)的隱藏信息、未知的相關(guān)關(guān)系以及其他有用信息的過程。醫(yī)療健康大數(shù)據(jù)除了具有大數(shù)據(jù)5V特征外,還具備自身典型特征:階段性,時效性和冗余性。隨著人口健康信息化和健康醫(yī)療大數(shù)據(jù)的推進(jìn)和發(fā)展,醫(yī)療信息數(shù)據(jù)的來源正在逐步轉(zhuǎn)換,其中有相當(dāng)一大部分的醫(yī)療信息資源是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),如一些影像數(shù)據(jù)、電子病歷數(shù)據(jù)等。醫(yī)療信息資源數(shù)據(jù)主要是圍繞患者的疾病周期過程中進(jìn)行相關(guān)的醫(yī)療活動產(chǎn)生的文字、編碼、影像等醫(yī)療資料,這些數(shù)據(jù)對于患者的治療過程至關(guān)重要,同時對于醫(yī)院的臨床路徑的制定等其他醫(yī)療活動具有指導(dǎo)意義。海量的醫(yī)療健康非結(jié)構(gòu)化數(shù)據(jù)包含著巨大的醫(yī)學(xué)價值,通過對其有效處理,輔助臨床醫(yī)師進(jìn)行診斷和用藥決策,基于大數(shù)據(jù)技術(shù),挖掘醫(yī)療信息數(shù)據(jù)之間價值,幫助臨床醫(yī)生在患者治療過程中提供制定個性化服務(wù),也為醫(yī)護(hù)工作者提供強(qiáng)有力的支撐,是目前醫(yī)療領(lǐng)域探討的主要問題。
3 基于Hadoop的非結(jié)構(gòu)化大數(shù)據(jù)分析模型構(gòu)建
3.1 基于Hadoop的非結(jié)構(gòu)化醫(yī)療數(shù)據(jù)處理與決策流程
醫(yī)療健康大數(shù)據(jù)具有數(shù)據(jù)量大、復(fù)雜性、多源異質(zhì)性的特征,同時現(xiàn)實應(yīng)用中產(chǎn)生了數(shù)以PB計的大規(guī)模數(shù)據(jù),主要是由醫(yī)療數(shù)據(jù)庫(如電子健康檔案數(shù)據(jù)庫和健康體檢記錄數(shù)據(jù)庫)與互聯(lián)網(wǎng)數(shù)據(jù)庫(如健康咨詢服務(wù)網(wǎng)站和移動醫(yī)療應(yīng)用程序)生成[3]。為了保證對非結(jié)構(gòu)化大數(shù)據(jù)有效、有用價值的挖掘,要求醫(yī)院應(yīng)具備對數(shù)以萬計的非結(jié)構(gòu)化醫(yī)療健康大數(shù)據(jù)進(jìn)行分布式批處理、實時計算和即時分析的能力,并支持循環(huán)數(shù)據(jù)流和內(nèi)存分布式計算的能力?;卺t(yī)療大數(shù)據(jù)環(huán)境和非結(jié)構(gòu)化數(shù)據(jù)的特點,本文設(shè)計了一種基于Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理與決策流程,如圖1所示[4]:
圖3-1 非結(jié)構(gòu)化醫(yī)療健康大數(shù)據(jù)處理和決策分析流程
該系統(tǒng)主要是由非結(jié)構(gòu)化數(shù)據(jù)集合、醫(yī)療健康大數(shù)據(jù)并行計算流程、并行分析過程以及非結(jié)構(gòu)化大數(shù)據(jù)決策過程模塊構(gòu)成。非結(jié)構(gòu)化數(shù)據(jù)集合模塊具有多類型終端、實時采集、動態(tài)處理和遠(yuǎn)程傳輸?shù)奶攸c,主要是負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)的采集、初級處理和向醫(yī)療數(shù)據(jù)中心遠(yuǎn)程傳輸數(shù)據(jù)的任務(wù)。醫(yī)療健康非結(jié)構(gòu)化大數(shù)據(jù)并行計算模塊主要完成非結(jié)構(gòu)化數(shù)據(jù)的存儲、索引、計算分析和Hadoop計算管理操作,實現(xiàn)非結(jié)構(gòu)化醫(yī)療健康大數(shù)據(jù)的快速并行計算。醫(yī)療健康非結(jié)構(gòu)化大數(shù)據(jù)并行分析過程通過對非結(jié)構(gòu)化數(shù)據(jù)維度與度量的自定義,由Hadoop分析集群完成對非結(jié)構(gòu)化數(shù)據(jù)的并行分析,同時將分析產(chǎn)生的結(jié)果上報至報表展示中心進(jìn)行可視化表現(xiàn)。醫(yī)療健康非結(jié)構(gòu)化大數(shù)據(jù)決策過程基于大數(shù)據(jù)的分析結(jié)果,綜合醫(yī)院決策層和醫(yī)技人員的經(jīng)驗與判斷力,為醫(yī)院的戰(zhàn)略選擇與制定、醫(yī)療服務(wù)質(zhì)量保障提供有力的數(shù)據(jù)決策支持,為醫(yī)技人員提供臨床診療智能決策輔助支持。
3.2 醫(yī)療非結(jié)構(gòu)化健康數(shù)據(jù)分析與決策
3.2.1 構(gòu)建統(tǒng)一數(shù)據(jù)模型
非結(jié)構(gòu)化醫(yī)療健康大數(shù)據(jù)主要是醫(yī)療診治流程中形成的文字、符號編碼、圖表、PACS、CT、等數(shù)據(jù)資料,大數(shù)據(jù)類型多樣和標(biāo)準(zhǔn)不統(tǒng)一。為了方便識別、處理、存儲和快速讀取,醫(yī)院必須采用統(tǒng)一的數(shù)據(jù)模型對非結(jié)構(gòu)化醫(yī)療健康大數(shù)據(jù)進(jìn)行刻畫,才能提高非結(jié)構(gòu)化數(shù)據(jù)存儲、查詢、處理、管理和關(guān)聯(lián)分析的效率。
圖3-2 醫(yī)療健康非結(jié)構(gòu)化大數(shù)據(jù)模型
由圖3-2所示,醫(yī)療健康非結(jié)構(gòu)化大數(shù)據(jù)的特征集合U=?琢,?茁,?字,?酌,其中,?琢表示醫(yī)療健康非結(jié)構(gòu)化數(shù)據(jù)的基本屬性,主要包括數(shù)據(jù)的名稱、類型、作者、時間;?茁表示語義特征,指在特定的情境環(huán)境中,非結(jié)構(gòu)化數(shù)據(jù)用文字方式表達(dá)的專屬語義,主要包括數(shù)據(jù)表現(xiàn)的情境、底層特征含義等語義要素;?字表示底層特征,指通過各種專用處理技術(shù)(如圖像、語音、視頻等處理技術(shù)等)而獲得的非結(jié)構(gòu)化數(shù)據(jù)特性;?酌表示原始數(shù)據(jù),指醫(yī)院所采集的非結(jié)構(gòu)化數(shù)據(jù)的原生態(tài)文件。該四面體模型能夠真實表現(xiàn)所采集的非結(jié)構(gòu)化原始數(shù)據(jù),支持語義特征與底層特征可隨著服務(wù)情境變化而動態(tài)擴(kuò)展,支持計算機(jī)的快速識別、處理、查詢、深度處理和知識管理,是醫(yī)院非結(jié)構(gòu)化數(shù)據(jù)關(guān)系發(fā)現(xiàn)和價值挖掘的可靠保證。
3.2.2 虛擬化技術(shù)的使用
非結(jié)構(gòu)化數(shù)據(jù)具有海量、數(shù)據(jù)環(huán)境復(fù)雜、類型多樣和指數(shù)遞增的特點,傳統(tǒng)的醫(yī)療數(shù)據(jù)管理平臺無法準(zhǔn)確描述和高效管理非結(jié)構(gòu)化數(shù)據(jù),因此,必須構(gòu)建面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺,才能確保醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)管理安全、高效。目前很多醫(yī)院為保證數(shù)據(jù)的安全性、數(shù)據(jù)存儲的高效性、靈活性、可用性、可擴(kuò)展性以及降低醫(yī)院的管理成本,采用虛擬化技術(shù)。在醫(yī)療應(yīng)用過程中,虛擬化技術(shù)主要用來解決高性能的物理硬件產(chǎn)能過剩和老的舊的硬件產(chǎn)能過低的重組重用,透明化底層物理硬件,從而最大化的利用物理硬件。
3.2.3 確保數(shù)據(jù)安全性和可用性
隨著大數(shù)據(jù)時代的來臨,國家層面、相關(guān)管理部門以及用戶本人都對個人隱私信息越來越關(guān)注,2017年6月1日《網(wǎng)絡(luò)安全法》正式實施,信息安全尤其是個人的隱私問題發(fā)生了質(zhì)變,醫(yī)療行業(yè)、管理部門、醫(yī)院層面逐步加強(qiáng)患者隱私保護(hù)問題。醫(yī)院信息系統(tǒng)是具有高科技、高風(fēng)險、實時性的特點,對于醫(yī)療活動不間斷支持,同時規(guī)避發(fā)生故障以及故障發(fā)生后縮短恢復(fù)時間,必須確保信息系統(tǒng)的高度穩(wěn)定性和安全性。隨著大數(shù)據(jù)時代的快速發(fā)展,保證醫(yī)療非結(jié)構(gòu)化健康數(shù)據(jù)的安全性和可用性是醫(yī)院首要面臨的任務(wù)。目前在醫(yī)療信息系統(tǒng)建設(shè)過程中,部分三級綜合性醫(yī)院要求達(dá)到國家信息安全等級保護(hù)制度第三級,二級醫(yī)院以及??漆t(yī)院達(dá)國家信息安全等級保護(hù)制度第二級。
4 結(jié)束語
目前,很多醫(yī)院在醫(yī)療大數(shù)據(jù)治理收集和使用的標(biāo)準(zhǔn)不統(tǒng)一,從而導(dǎo)致在數(shù)據(jù)共享和患者隱私保護(hù)存在一定問題?;颊唠[私保護(hù)是數(shù)據(jù)收集和使用過程中的具有挑戰(zhàn)性的難題,也將是未來醫(yī)院信息系統(tǒng)使用過程中的重點建設(shè)內(nèi)容。為保證醫(yī)院非結(jié)構(gòu)化大數(shù)據(jù)的分析與決策過程科學(xué)性和高效性,醫(yī)院應(yīng)以患者為中心,以“數(shù)據(jù)驅(qū)動”作為醫(yī)療非結(jié)構(gòu)化健康大數(shù)據(jù)分析和決策依據(jù),不斷加強(qiáng)醫(yī)療非結(jié)構(gòu)化健康大數(shù)據(jù)在采集、噪音過濾、價值提取和存儲中的可用性與可控性管理,努力提升非結(jié)構(gòu)化數(shù)據(jù)的實時分析、人機(jī)互動、科學(xué)評估和反饋優(yōu)化水平,才能有效提升大數(shù)據(jù)決策的科學(xué)性和可用性水平。
【參考文獻(xiàn)】
[1]官思發(fā),孟璽,李宗潔,等.大數(shù)據(jù)分析研究現(xiàn)狀、問題與對策[J].情報雜志,2015,34(5):98-104.
[2]夏新,劉博,王玨,等.大數(shù)據(jù)分析在醫(yī)院醫(yī)保管理中的應(yīng)用研究[J].中國數(shù)字醫(yī)學(xué),2017,12(1):9-11.
[3]Rui Zhao,Yiyun Liu,Ning Zhang,et al.An optimization model for green supply chain management by using a big data analytic approach[J].Journal of Cleaner Production, 2017 (142):1085-1097.
[4]陳臣.基于Hadoop 的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J].情報科學(xué),2017,35(1):24-28.
[5]Sreekanth Rallapalli,R.R. Gondkar,Uma Pavan Kumar Ketavarapu. Impact of Processing and Analyzing Healthcare Big Data on Cloud Computing Environment by Implementing Hadoop Cluster [J]. Procedia Computer Science,2016(85):16-22.
[6]Jorge L. Reyes-Ortiz, Luca Oneto,Dvide Anguita. Big Data Analytics in the Cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf [J]. Procedia Computer Science,2015(53):121-130.