国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HDFS的分布式區(qū)域電子病歷存儲策略

2015-06-24 12:58伍貴富何葵王益新
軟件導(dǎo)刊 2015年6期
關(guān)鍵詞:電子病歷層次分析法云計算

伍貴富 何葵 王益新

摘要:區(qū)域醫(yī)療信息化平臺的建設(shè)和推廣是目前醫(yī)療信息化發(fā)展的一個重要方向和研究熱點。在平臺建設(shè)過程中,首先面臨的問題是解決如何在基于Hadoop的云計算環(huán)境中,高效地操作和存儲電子病歷等小文件。針對這一問題,提出一種基于AHP方法的存儲策略,利用Hadoop系統(tǒng)自身的Sequence File技術(shù)將小文件以隊列的形式合并為大文件,從而節(jié)省了Master Node用戶文件管理所占的內(nèi)存空間,同時通過OQ隊列保證了系統(tǒng)在合并文件之后對小文件操作的透明性。仿真實驗表明該策略在不影響云計算系統(tǒng)運行狀況的基礎(chǔ)上,可提高小文件的存儲效率。

關(guān)鍵詞:HDFS;云計算;電子病歷;層次分析法;文件合并

DOIDOI:10.11907/rjdk.151191

中圖分類號:TP301

文獻標(biāo)識碼:A 文章編號:16727800(2015)006003003

基金項目基金項目:深圳市科技創(chuàng)新委員會項目(20120618102906924)

作者簡介作者簡介:伍貴富(1963-),男,四川資陽人,博士,深圳市福田區(qū)人民醫(yī)院教授,研究方向為醫(yī)療信息化。

0 引言

隨著計算機網(wǎng)絡(luò)與信息技術(shù)的快速發(fā)展,以及國際醫(yī)學(xué)信息標(biāo)準(zhǔn)化、電子化進程的推進,使區(qū)域醫(yī)療信息化平臺的建設(shè)和推廣成為可能。電子病歷系統(tǒng)(EHRS)[1]作為醫(yī)療信息化平臺的重要組成部分,受到越來越多人們的關(guān)注。

在眾多云存儲的研究中,Hadoop項目的分布式文件系統(tǒng)HDFS作為Google File System 的開源實現(xiàn)已成為業(yè)界研究云計算、實現(xiàn)云服務(wù)的參考模型。因此,本文也將Hadoop系統(tǒng)作為云服務(wù)的基礎(chǔ)架構(gòu),研究如何將云服務(wù)的優(yōu)勢與區(qū)域醫(yī)療信息化平臺相結(jié)合,利用云平臺的計算能力和存儲能力為電子病歷、區(qū)域PACS等系統(tǒng)提供相關(guān)服務(wù)。

由于HDFS文件系統(tǒng)中的每個目錄和文件的相關(guān)數(shù)據(jù)信息都存放在各云服務(wù)節(jié)點的內(nèi)存中,當(dāng)系統(tǒng)中存在大量的小文件(通常指那些遠小于HDFS默認數(shù)據(jù)塊大小的文件)時,則會降低整個存儲系統(tǒng)的存儲效率和存儲能力。為了解決HDFS文件系統(tǒng)中小文件的存儲效率問題,目前的主流方案是將小文件合并或組合為大文件,采用的方法大致可分為2類[2],一類是基于Hadoop archive技術(shù)實現(xiàn)小文件合并的方法,另一類則是針對具體的應(yīng)用而提出的文件組合方法。例如文獻[3]結(jié)合WebGIS訪問模式的特點,將系統(tǒng)中的小文件組合為大文件并為其建立全局索引,以提高小文件的存儲效率;而文獻[4]中假設(shè)每個HDFS系統(tǒng)用戶被分配了固定存儲空間和文件數(shù)目,并利用Hadoop提供的harballing技術(shù)對文件進行合并,以提高了系統(tǒng)中元數(shù)據(jù)的存儲效率。

這些研究工作取得了一定成績,但是沒有從系統(tǒng)角度考慮在提高小文件存儲效率的同時,如何優(yōu)化云計算系統(tǒng)的負載狀況。因此,本文主要研究了在基于Hadoop的架構(gòu)中,如何將電子病歷等小文件進行存儲優(yōu)化的同時,保證云平臺整體負載均衡的問題。并提出了一種基于層次分析法(AHP)的文件存儲策略, 通過引入與系統(tǒng)狀態(tài)關(guān)聯(lián)的特征值判斷規(guī)則,來優(yōu)化系統(tǒng)對小文件進行合并執(zhí)行的時間,防止系統(tǒng)負載過高,以保證在運行小文件較多的情況下,云服務(wù)平臺的整體性能不會受到太大影響。仿真實驗表明了該方法具有較好的性能。

1 基于HDFS的區(qū)域電子病歷存儲策略設(shè)計

1.1 HDFS 文件系統(tǒng)

作為Hadoop 系統(tǒng)中的一個核心組件,HDFS系統(tǒng)通常由一個Name Node節(jié)點和一定數(shù)目的 Data Node節(jié)點組成。Name Node是HDFS文件系統(tǒng)的中心服務(wù)器,在Hadoop架構(gòu)中通常由Master Node擔(dān)任,主要工作是負責(zé)管理文件系統(tǒng)的名稱空間。而數(shù)據(jù)節(jié)點都是由單臺計算機負責(zé),每個節(jié)點負責(zé)管理自身的數(shù)據(jù)存儲服務(wù)。

在實際應(yīng)用中,發(fā)現(xiàn)綜合性醫(yī)院的電子病歷的相關(guān)數(shù)據(jù)具有高吞吐量的特點,因此本文設(shè)計電子病歷在云平臺中創(chuàng)建之后,并不立即保存到HDFS文件系統(tǒng)中,而是經(jīng)過一定周期之后,由系統(tǒng)自動提交保存病歷數(shù)據(jù)的請求。由于采用XML格式的電子病歷數(shù)據(jù)量相對較小,因此本文借鑒了文獻[4]、[5]的思想,對電子病歷等小文件的存儲策略進行優(yōu)化,以提高對數(shù)據(jù)的處理效率。本策略為每個用戶文件建立了2種隊列:第1種為序列文件隊列(Sequence File queue,SFQ),第2種為序列文件操作隊列(Operation queue,OQ)。其中,SFQ用于小文件的合并,OQ用于對合并后小文件的操作。通過實驗設(shè)定每種隊列的動態(tài)合并閾值,當(dāng)系統(tǒng)中所存的文件數(shù)量超過設(shè)定的合并閾值后,Name Node將按層次分析法(AHP)判斷是否進行文件合并,并在系統(tǒng)負載允許的情況下對電子病歷的相關(guān)數(shù)據(jù)進行壓縮,否則到SFQ隊列耗盡時再對文件進行合并。

在本策略運行過程中,Name Node將對各節(jié)點的CPU利用率、內(nèi)存利用率、帶寬利用率和系統(tǒng)平均吞吐量等屬性進行檢測,并對系統(tǒng)運行狀態(tài)進行多屬性決策。負載計算得到一個即時值,對小文件的操作是在系統(tǒng)負載計算之后,因此在SFQ隊列超過合并閾值之后,系統(tǒng)將采用AHP算法不斷檢測負載狀態(tài),如果滿足執(zhí)行合并的條件,或者SFQ隊列耗盡后,將執(zhí)行文件合并。

1.2 基于AHP的系統(tǒng)負載算法

名稱節(jié)點在管理系統(tǒng)負載值時,根據(jù)設(shè)定的系統(tǒng)屬性的重要性構(gòu)造比較矩陣C,并由步驟1-4計算各時刻的決策屬性值d1,d2,…dn的權(quán)重wi。通過該策略,云平臺可以實現(xiàn)對各節(jié)點系統(tǒng)負載的監(jiān)測,將合并電子病歷等小文件的操作控制在能夠均衡系統(tǒng)負載時進行。

2 性能評估

為了測試改進后的HDFS系統(tǒng)對電子病歷等小文件的處理能力,搭建了兩組對比測試環(huán)境,一個是未經(jīng)修改的HDFS架構(gòu),另一個是經(jīng)過AHP存儲策略優(yōu)化后的架構(gòu),用以檢測系統(tǒng)的讀取文件時間與合并文件時間。

測試將首先生成需要的電子病歷文件,分別生成50、100、500、1 000份個人電子病歷文件,而這些文件的大小都小于64MB,平均大小約為100KB;其次分別在兩種架構(gòu)上讀寫這幾組文件并記錄下讀取和合并的時間進行比對;最后都重復(fù)進行10次獨立實驗,并以平均值作為結(jié)果得出結(jié)論。

從表1中,不難發(fā)現(xiàn)經(jīng)過存儲策略優(yōu)化后的HDFS 架構(gòu)讀取小文件的平均時間隨著文件的增多,效率要高于原有的HDFS 架構(gòu)。但是由于文件的增多,Name Node對各數(shù)據(jù)節(jié)點執(zhí)行合并時間的計算也增多,使系統(tǒng)的整體執(zhí)行時間有所增加。

圖1描述了在不同電子病歷數(shù)量的情況下,系統(tǒng)合并文件執(zhí)行的平均時間。從實驗結(jié)果中不難發(fā)現(xiàn),電子病歷合并的規(guī)模越大,Name Node消耗的管理時間將越多,與此同時,對小文件的讀寫操作以及合并文件所花費的時間代價也將越大。在基于HDFS的存儲系統(tǒng)中采用本文的存儲策略進行分析和部署,可在時間消耗和系統(tǒng)利用率之間實現(xiàn)一種最優(yōu)平衡,既可以提高電子病歷等小文件的存儲效率,同時也不太影響系統(tǒng)性能。

3 結(jié)語

本文針對醫(yī)療信息化過程中,在基于HDFS的云存儲系統(tǒng)中電子病歷等小文件存儲效率不高的問題,提出一套優(yōu)化策略。在該策略中,利用Hadoop系統(tǒng)自身的Sequence File技術(shù),將小文件以隊列的形式合并為大文件,從而節(jié)省了Name Node用戶文件管理所占的內(nèi)存空間。同時通過OQ隊列保證了系統(tǒng)在合并文件之后,對小文件操作的透明性。在判斷系統(tǒng)何時執(zhí)行合并操作時,采用數(shù)據(jù)標(biāo)準(zhǔn)化方法和層次分析法確定系統(tǒng)的負載性能,使小文件的合并能在合并時間、文件操作時間和節(jié)省內(nèi)存空間之間達到一種平衡。實驗表明本文設(shè)計的策略具有較好性能。

參考文獻:

[1] LEHMANN HP ABBOTT PA. Aspects of electronic health record systems[M].USA: Springer, 2006.

[2] 余思,桂小林,黃汝維,等.一種提高云存儲中小文件存儲效率的方案[J].西安交通大學(xué)學(xué)報,2011(6):5963.

[3] LIU XUHUI,HAN JIZHONG,ZHONG YUNQIN,et al. Implementing webGIS on hadoop: a case study of improving small file I/O performance on HDFS[Z].200918.

[4] MACKEY GRANT,SEHRISH SABA,WANG JUN. Improving metadata management for small files in HDFS[Z].200914.

[5] SAATY THOMAS L.Axiomatic foundation of the analytic hierarchy process[M].1986.

責(zé)任編輯(責(zé)任編輯:黃 健)

英文摘要Abstract:One of the key technologies of construction the regional medical information system is efficient operations and storing small files such as electronic health records(EHR)in a Hadoopbased cloud computing environments. To solve this problem, this paper proposed a storage strategy based on AHP(Analytic Hierarchy Process)method. By employed Hadoop Sequence File technology, small files will be combined to make a large file. This method will save the occupation of the memory space in Master Node, and using operation queue to ensure that the operation of those combined small file is correct. Simulation experiments show that this policy will improve small files storage efficiency, and without affect the State of cloud computing systems.

英文關(guān)鍵詞Key Words: HDFS; Cloud Computing; EHR;AHP; Combined Files

猜你喜歡
電子病歷層次分析法云計算
實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器