分析基于Hadoop的醫(yī)療信息存儲(chǔ)及檢索技術(shù)研究

2018-12-18 11:09南陽(yáng)醫(yī)學(xué)高等專(zhuān)科學(xué)校

電子世界 2018年23期

關(guān)鍵詞：時(shí)態(tài)信息管理系統(tǒng)儲(chǔ)存

南陽(yáng)醫(yī)學(xué)高等專(zhuān)科學(xué)校張琪

本文在研究中以Hadoop醫(yī)療信息管理系統(tǒng)為核心，分析Hadoop技術(shù)的應(yīng)用價(jià)值，構(gòu)建基于Hadoop的醫(yī)療信息管理系統(tǒng)，提出醫(yī)療信息儲(chǔ)存技術(shù)和檢索技術(shù)，實(shí)現(xiàn)醫(yī)療信息管理的現(xiàn)代化和智能化，并為相關(guān)研究人員提供一定的借鑒和幫助。

在國(guó)民經(jīng)濟(jì)不斷發(fā)展中，醫(yī)院經(jīng)營(yíng)管理逐漸朝著信息化的方向發(fā)展，像電子病歷或是PACS系統(tǒng)等臨床信息系統(tǒng)都逐漸應(yīng)用，大大提高了運(yùn)行效率。在信息化發(fā)展中，醫(yī)療信息儲(chǔ)存和檢索中的問(wèn)題逐漸暴露出來(lái)，傳統(tǒng)分散式數(shù)據(jù)儲(chǔ)存模式的弊端較大，無(wú)法保證數(shù)據(jù)的安全性和可靠性，再加上數(shù)據(jù)備份流程過(guò)于繁瑣，無(wú)法發(fā)揮出數(shù)據(jù)信息的潛在價(jià)值。傳統(tǒng)數(shù)據(jù)中心主要以Unix服務(wù)器為主，運(yùn)行成本高，數(shù)據(jù)讀取速度較慢，再加上計(jì)算能力低，無(wú)法滿足醫(yī)療信息的管理需求和使用需求。對(duì)此，本文依托于Hadoop技術(shù)，構(gòu)建基于Hadoop的醫(yī)療信息管理系統(tǒng)，優(yōu)化醫(yī)療信息儲(chǔ)存技術(shù)和檢索技術(shù)，有助于醫(yī)療信息的利用，進(jìn)而提高醫(yī)療水平。在這樣的環(huán)境背景下，探究基于Hadoop的醫(yī)療信息存儲(chǔ)及檢索技術(shù)具有非常重要的現(xiàn)實(shí)意義。

一、Hadoop技術(shù)的應(yīng)用價(jià)值

（一）安全而可靠

醫(yī)療信息儲(chǔ)存的安全性和可靠性直接關(guān)系到醫(yī)院各項(xiàng)醫(yī)療業(yè)務(wù)的連續(xù)性，一旦醫(yī)療信息系統(tǒng)發(fā)生故障，數(shù)據(jù)儲(chǔ)存能力、備份能力以及恢復(fù)能力就顯得至關(guān)重要，安全性和可靠性是醫(yī)療信息儲(chǔ)存的首要標(biāo)準(zhǔn)。Hadoop系統(tǒng)可以提供十分可靠的數(shù)據(jù)儲(chǔ)存，各個(gè)類(lèi)型的數(shù)據(jù)存在三份備份，這對(duì)數(shù)據(jù)儲(chǔ)存形成保障。同時(shí)，數(shù)據(jù)中心會(huì)對(duì)醫(yī)療信息數(shù)據(jù)進(jìn)行統(tǒng)一保存，臨床信息系統(tǒng)不會(huì)直接保存數(shù)據(jù)，而是將產(chǎn)生的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)中心保存，臨床所需數(shù)據(jù)會(huì)直接從數(shù)據(jù)中心調(diào)取，避免數(shù)據(jù)丟失的情況發(fā)生，保證數(shù)據(jù)的完整恢復(fù)。

（二）儲(chǔ)存成本低

以Unix為主的傳統(tǒng)服務(wù)器具有價(jià)格高、擴(kuò)展儲(chǔ)存空間小的特點(diǎn)，以SSD固態(tài)儲(chǔ)存器為核心元件，不僅價(jià)格貴，在擴(kuò)展容量的過(guò)程中，會(huì)受到服務(wù)器柜容量的影響，而服務(wù)器的軟件成本也很高。而基于Hadoop為主的數(shù)據(jù)中心，選擇傳統(tǒng)PC集群進(jìn)行數(shù)據(jù)中心的構(gòu)建，無(wú)論是整個(gè)電腦還是傳統(tǒng)硬盤(pán)，價(jià)格較低，便于達(dá)到動(dòng)態(tài)擴(kuò)展的效果。與此同時(shí)，Hadoop平臺(tái)可以支持和開(kāi)發(fā)開(kāi)源軟件，無(wú)需軟件費(fèi)用，節(jié)省不必要的軟件成本。在構(gòu)建基于Hadoop的數(shù)據(jù)中心容量中，一般存在兩種方式，一是擴(kuò)充傳統(tǒng)PC硬盤(pán)容量，便于操作；二是添加廉價(jià)PC，為信息挖掘和利用提供根本保障。

（三）查詢(xún)速度快

傳統(tǒng)服務(wù)器以機(jī)械硬盤(pán)為主，數(shù)據(jù)讀取速度慢，若選擇固態(tài)硬盤(pán)，其建設(shè)運(yùn)營(yíng)成本較高，無(wú)法長(zhǎng)期負(fù)擔(dān)。而基于Hadoop分布式框架為基礎(chǔ)的數(shù)據(jù)中心，底層為分布式文件系統(tǒng)，可以讓文件儲(chǔ)存與查詢(xún)同步進(jìn)行，以多線程的方式，提高系統(tǒng)的運(yùn)行速度，數(shù)據(jù)讀寫(xiě)速度也遠(yuǎn)遠(yuǎn)高于傳統(tǒng)服務(wù)器，協(xié)助醫(yī)生快速獲取到PACS映象文件速度，進(jìn)而保證工作效率。

二、構(gòu)建基于Hadoop的醫(yī)療信息管理系統(tǒng)

（一）系統(tǒng)框架

如圖1所示，為基于Hadoop的醫(yī)療信息管理系統(tǒng)框架，由MapReduce、HDFS等組件構(gòu)成，其中Hadoop Common為支持項(xiàng)目運(yùn)行的功能模塊，MapReduce組件協(xié)助Map與Reduce處理，而HDFS分布式文件系統(tǒng)以文件分布式儲(chǔ)存為主要功能，ZooKeeper則為分布式鎖服務(wù)，支持分布式應(yīng)用程序的構(gòu)建。

圖1 基于Hadoop的醫(yī)療信息管理系統(tǒng)框架

在這一系統(tǒng)框架中，各種功能模塊和應(yīng)用程序?yàn)楹Ａ酷t(yī)療數(shù)據(jù)讀取與計(jì)算提供支持，用戶(hù)不需要關(guān)注程序就可以實(shí)現(xiàn)，特別是在分布式系統(tǒng)運(yùn)行中，PC集群屬于硬件資源池，可以拆分即將執(zhí)行的任務(wù)，安排空閑機(jī)器資源進(jìn)行數(shù)據(jù)處理，通過(guò)并行計(jì)算的方式，提高系統(tǒng)運(yùn)行速度，使得任務(wù)分解后逐一完成，并通過(guò)Reduce來(lái)整合結(jié)果，進(jìn)而實(shí)現(xiàn)醫(yī)療信息的存儲(chǔ)和檢索。

（二）HDFS系統(tǒng)

HDFS系統(tǒng)是一種分布式文件系統(tǒng)，具有命名空間單一、數(shù)據(jù)專(zhuān)一性強(qiáng)、可以被分割和分配等特性，主要以master/slave架構(gòu)為主，由命名節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)以及客戶(hù)端等模塊構(gòu)成，內(nèi)部通信以TCP/IP協(xié)議為主。在實(shí)際運(yùn)行中，命名節(jié)點(diǎn)與數(shù)據(jù)節(jié)點(diǎn)均運(yùn)行在商用機(jī)器上，而商用機(jī)器主要運(yùn)行Linux操作系統(tǒng)，可以兼容其他機(jī)器的DataNode，通過(guò)集群?jiǎn)我幻姆绞?，?jiǎn)化整個(gè)為系統(tǒng)構(gòu)架，將NameNode作為HDFS元數(shù)據(jù)的判定者，提高系統(tǒng)運(yùn)行的穩(wěn)定性。

（三）MapReduce系統(tǒng)

MapReduce為編程模型，應(yīng)用在大規(guī)模醫(yī)療數(shù)據(jù)集并行運(yùn)算中，依托于Map和Reduce思想，借鑒于函數(shù)式編程語(yǔ)言與矢量編程語(yǔ)言，針對(duì)函數(shù)式編程語(yǔ)言而言，map為列表中的各個(gè)元素計(jì)算，Reduce為列表中的各個(gè)元素迭代計(jì)算，利用傳輸函數(shù)的方式實(shí)現(xiàn)計(jì)算，Map和Reduce主要是提供計(jì)算框架。在MapReduce系統(tǒng)運(yùn)行中，map會(huì)對(duì)原始數(shù)據(jù)進(jìn)行處理，每個(gè)原始數(shù)據(jù)間無(wú)任何關(guān)聯(lián)，在Reduce階段中，數(shù)據(jù)會(huì)通過(guò)key下的若干Value進(jìn)行組織，各個(gè)Value間已經(jīng)形成一定的關(guān)聯(lián)性。對(duì)此，MapReduce就是將一些無(wú)規(guī)律數(shù)據(jù)根據(jù)某一特征進(jìn)行歸納和處理之后的結(jié)果，map針對(duì)無(wú)規(guī)律不關(guān)聯(lián)的數(shù)據(jù)信息，對(duì)各個(gè)數(shù)據(jù)進(jìn)行解析，提煉出key與value，找到數(shù)據(jù)特征，再通過(guò)歸納和處理得到結(jié)果。

三、基于Hadoop的醫(yī)療信息存儲(chǔ)和檢索

（一）信息儲(chǔ)存

在醫(yī)療數(shù)據(jù)分析處理中，Hadoop平臺(tái)能夠?qū)崿F(xiàn)分布式存儲(chǔ)，并且對(duì)大量廉價(jià)計(jì)算機(jī)進(jìn)行集合整理來(lái)存儲(chǔ)數(shù)據(jù)，實(shí)現(xiàn)PB數(shù)據(jù)集數(shù)據(jù)的存儲(chǔ)。理論意義上來(lái)說(shuō)，Hadoop平臺(tái)能夠盡可能滿足海量電子病歷文檔以及醫(yī)療信息數(shù)據(jù)的存儲(chǔ)需求。另一方面，云計(jì)算具有較強(qiáng)的靈活性，而Hadoop平臺(tái)的擴(kuò)展性好，當(dāng)出現(xiàn)突發(fā)情況，特別是患病高發(fā)期或者集體性醫(yī)療事件會(huì)導(dǎo)致醫(yī)療數(shù)據(jù)劇增的問(wèn)題，這時(shí)Hadoop平臺(tái)就可以快速、有效的向集群中添加計(jì)算機(jī)節(jié)點(diǎn)和儲(chǔ)存資源。

在醫(yī)療信息儲(chǔ)存中，分別有讀寫(xiě)控制模塊、寫(xiě)入模塊和刪除模塊進(jìn)行控制，包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，及時(shí)將數(shù)據(jù)寫(xiě)入到系統(tǒng)中，通過(guò)創(chuàng)建數(shù)據(jù)表接口與寫(xiě)數(shù)據(jù)接口，結(jié)合讀寫(xiě)模塊制定的規(guī)定進(jìn)行信息重構(gòu)，將時(shí)態(tài)集合當(dāng)成操作對(duì)象，把信息數(shù)據(jù)周期性傳輸至Hadoop儲(chǔ)存模型中，獲得標(biāo)識(shí)變量與指定數(shù)據(jù)包屬性，并把對(duì)應(yīng)數(shù)據(jù)記錄到HBase中，保證數(shù)據(jù)信息的一致性，并添加至索引結(jié)構(gòu)中，對(duì)HDFS中的原始數(shù)據(jù)進(jìn)行處理得到存儲(chǔ)數(shù)據(jù)，再利用寫(xiě)數(shù)據(jù)接口對(duì)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)。

（二）信息查詢(xún)

Hadoop平臺(tái)提供了強(qiáng)大的分布式并行處理數(shù)據(jù)的能力，Hadoop平臺(tái)主要是針對(duì)海量數(shù)據(jù)的批處理進(jìn)行操作。并且它具有一次寫(xiě)入多次讀取的特點(diǎn)，能夠滿足醫(yī)生、專(zhuān)家在海量的醫(yī)療數(shù)據(jù)或者電子病歷數(shù)據(jù)中查找閱讀有關(guān)的信息。醫(yī)療數(shù)據(jù)檢索查詢(xún)可以通過(guò)Hadoop的計(jì)算資源對(duì)醫(yī)療數(shù)據(jù)及電子病歷文檔進(jìn)行處理，不僅速度快、準(zhǔn)確性高，從而大大提高醫(yī)療信息數(shù)據(jù)的檢索效率。

在醫(yī)療數(shù)據(jù)儲(chǔ)存系統(tǒng)中，數(shù)據(jù)查詢(xún)包括基于主鍵的非時(shí)態(tài)數(shù)據(jù)查詢(xún)與時(shí)態(tài)數(shù)據(jù)查詢(xún)，利用顯示層應(yīng)用接口支持可擴(kuò)展API，實(shí)現(xiàn)填充式數(shù)據(jù)讀取，用戶(hù)可以根據(jù)需求在顯示界面窗口中設(shè)定關(guān)鍵詞進(jìn)行數(shù)據(jù)整合和讀取，通過(guò)并行計(jì)算機(jī)框架Map/Reduce編程進(jìn)行數(shù)據(jù)查詢(xún)。針對(duì)用戶(hù)查詢(xún)請(qǐng)求而言，系統(tǒng)會(huì)預(yù)先判斷，在不干擾時(shí)態(tài)查詢(xún)操作的基礎(chǔ)上，把查詢(xún)結(jié)果直接輸入到用戶(hù)程序中，通過(guò)可視化界面進(jìn)行查閱。若干擾時(shí)態(tài)查詢(xún)操作，則需要將Map/Reduce處理所產(chǎn)生的基于關(guān)鍵字的查詢(xún)結(jié)果導(dǎo)入到與原始存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)一致的另一張HBase數(shù)據(jù)表中，在時(shí)態(tài)元素的標(biāo)量化處理后調(diào)用數(shù)據(jù)查詢(xún)模塊進(jìn)行時(shí)態(tài)關(guān)系代數(shù)演算處理，完成數(shù)據(jù)的查找操作。（封朝永.導(dǎo)師:左亞堯基于Hadoop的時(shí)態(tài)信息存儲(chǔ)與檢索策略的研究[D].廣東工業(yè)大學(xué)碩士論文,2014-05-01）

四、結(jié)束語(yǔ)

綜上所述，在醫(yī)療信息存儲(chǔ)和檢索中，為了改變傳統(tǒng)醫(yī)療信息管理系統(tǒng)的避免，需要引入Hadoop系統(tǒng)，構(gòu)建基于Hadoop的醫(yī)療信息管理系統(tǒng)，提高系統(tǒng)運(yùn)行效率，減少運(yùn)行成本，并通過(guò)系統(tǒng)構(gòu)架的簡(jiǎn)化，提高計(jì)算運(yùn)行速度，進(jìn)而保證信息存儲(chǔ)和檢索的綜合效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡