国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HBase的心電信號存儲系統(tǒng)的研究與實現(xiàn)

2018-03-14 10:21:20王利琴高衛(wèi)香蘭軍翟艷東
現(xiàn)代計算機 2018年4期
關(guān)鍵詞:存儲系統(tǒng)心電電信號

王利琴,高衛(wèi)香,蘭軍,翟艷東

(河北工業(yè)大學(xué)計算機科學(xué)與軟件學(xué)院,天津 300401)

0 引言

根據(jù)《中國心血管報告2016》[1]的統(tǒng)計結(jié)果,心血管疾病的死亡高居我國城鄉(xiāng)居民死亡原因首位。隨著心臟病、高血壓、糖尿病等慢性疾病的死亡率不斷飆升,越來越多的人面臨健康的威脅。同時隨著通信網(wǎng)絡(luò)技術(shù)和傳感器技術(shù)的發(fā)展,來自醫(yī)院的傳統(tǒng)心電檢查數(shù)據(jù)以及來自移動終端等設(shè)備的心電數(shù)據(jù)(ECG,Electro?cardiogram)呈指數(shù)級增長、復(fù)雜程度增大,逐步構(gòu)成了心電大數(shù)據(jù)。如果能對這些數(shù)據(jù)進行分析挖掘,發(fā)現(xiàn)潛在的心臟疾病,并在發(fā)作前提供預(yù)警,則將大大降低病人的致死率及醫(yī)療成本,同時為醫(yī)護人員的臨床實踐提供參考。因此構(gòu)建心電數(shù)據(jù)的存儲平臺,實現(xiàn)心電數(shù)據(jù)的共享,為心臟疾病的診斷提供支撐具有重要的現(xiàn)實意義。

Hadoop作為分布式的存儲平臺,已有不少文獻將其應(yīng)用到了心電信號的存儲領(lǐng)域。文獻[2]提出了一種基于HBase的心電信號存儲架構(gòu),并利用MapReduce編程框架實現(xiàn)對信號處理的方案,該方案在存儲系統(tǒng)滿足數(shù)據(jù)輸入和輸出響應(yīng)需求的同時很容易地將計算并行化,從而解決了當(dāng)前各類由于傳感器和其他監(jiān)測終端產(chǎn)生的結(jié)果數(shù)據(jù)越來越多,存儲計算需求越來越高的需求。文獻[3]基于Hadoop和HBase技術(shù)構(gòu)建心電數(shù)據(jù)庫,并對數(shù)據(jù)庫的存儲時間、訪問時間做了測試,實驗表明基于Hadoop和HBase構(gòu)建的心電信號存儲系統(tǒng)具有較高的可靠性,可以滿足心電數(shù)據(jù)的存儲要求。但文獻中只分析了數(shù)據(jù)的存儲時間、查詢時間,并沒有給出具體的存儲系統(tǒng)架構(gòu)。本文將從分布式存儲系統(tǒng)設(shè)計的角度,詳細給出存儲系統(tǒng)設(shè)計的系統(tǒng)結(jié)構(gòu),數(shù)據(jù)存儲流程以及HBase表結(jié)構(gòu)設(shè)計及主鍵設(shè)計。

1 相關(guān)技術(shù)

1.1 Hadoop

Hadoop[4]由Hadoop分布式文件系統(tǒng)(Hadoop Dis?tributed File System,HDFS)和MapReduce編程框架組成,是一個提供分布式存儲和計算能力的主從架構(gòu)平臺。HDFS與傳統(tǒng)的分布式系統(tǒng)不同,傳統(tǒng)的分布式系統(tǒng)需要在客戶端和服務(wù)器之間重復(fù)傳輸數(shù)據(jù),這對計算密集型的工作很適用,但對大數(shù)據(jù)處理,由于數(shù)據(jù)變得太大,對其進行移動已變得不可實現(xiàn)。Hadoop實現(xiàn)了移動計算而非移動數(shù)據(jù),主節(jié)點(NameNode)只發(fā)送要執(zhí)行的MapReduce程序到從節(jié)點(DataNode)上,而且這些程序通常很?。ㄍǔJ乔ё止?jié)),集群的帶寬完全可以滿足。同時,集群中的數(shù)據(jù)被分解并分布在集群中的所有數(shù)據(jù)節(jié)點上,并且計算盡可能多地在同一臺機器上的數(shù)據(jù)塊進行。

1.2 MapReduce

MapReduce[5]是一種編程模型,廣泛應(yīng)用于大數(shù)據(jù)的并行處理。MapReduce由Map函數(shù)和Reduce函數(shù)具體執(zhí)行,Map函數(shù)對輸入的數(shù)據(jù)進行切分,并輸出鍵值對形式的中間結(jié)果,Reduce函數(shù)合并具有相同鍵的多個不同的值,形成一個鍵值對的集合。它只專注于計算,而不必關(guān)心數(shù)據(jù),使得基于MapReduce的編程更易實現(xiàn)。此外,由于大多數(shù)計算都是在存儲數(shù)據(jù)副本的從節(jié)點上完成的,這使得在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)量較小,從而提高了整體計算效率。

1.3 HBase

HBase[6]是運行在HDFS之上的分布式列存儲數(shù)據(jù)庫,它基于Google BigTable并支持MapReduce編程模型,提供了方便的、隨機訪問數(shù)據(jù)的方法。作為一種NoSQL數(shù)據(jù)庫,HBase對表、行和列的定義與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,它的數(shù)據(jù)模型主要包含如下幾個部分:

表:Hbase用表存儲數(shù)據(jù)。

行:行由一個可排序的行鍵(rowkey)唯一標(biāo)識。

列族:列族需事先定義,每行的數(shù)據(jù)按照列族分組存儲。

列修飾符:列修飾符也就是列,列族里的數(shù)據(jù)通過列定位。每行有相同的列簇,但是在行之間,相同的列簇不需要有相同的列。

單元:行鍵、列族和列修飾符一起確定一個單元。

HBase在數(shù)據(jù)存儲和操作方面比傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)具有巨大的優(yōu)勢。因此,采用HBase設(shè)計數(shù)據(jù)存儲模型,使其能夠滿足高并發(fā)性、海量存儲和高擴展性等需求[7]。

2 基于大數(shù)據(jù)分布式平臺的心電信號存儲系統(tǒng)設(shè)計

2.1 基于Hadoop的存儲平臺設(shè)計

基于Hadoop平臺的分布式特性,本文構(gòu)建的心電大數(shù)據(jù)處理存儲平臺如圖1所示,由Hadoop、Zookeep?er和HBase構(gòu)建。在這個平臺中,Hadoop提供基本的分布式存儲和處理功能,Zookeeper協(xié)調(diào)應(yīng)用程序并管理相關(guān)配置,HBase存儲ECG信號數(shù)據(jù)。

圖1 心電大數(shù)據(jù)存儲平臺設(shè)計

2.2 數(shù)據(jù)存儲流程

心電大數(shù)據(jù)存儲系統(tǒng)不僅存儲由各類傳感器和醫(yī)療設(shè)備采集的實時心電數(shù)據(jù),而且也要存儲已有的數(shù)據(jù),用于數(shù)據(jù)和疾病預(yù)測的相關(guān)分析等場合。因此,對大數(shù)據(jù)存儲系統(tǒng)來說,要分離線存儲和在線存儲兩個過程,如圖2所示。

圖2 心電大數(shù)據(jù)存儲流程

2.3 表結(jié)構(gòu)設(shè)計

考慮到HBase在存儲數(shù)據(jù)時,不同的列族存儲在不同的文件中。同時當(dāng)某個列族在flush的時候,與它鄰近的列族也會因關(guān)聯(lián)效應(yīng)被觸發(fā)flush,最終導(dǎo)致系統(tǒng)產(chǎn)生更多的I/O。因此,本文在設(shè)計存儲數(shù)據(jù)表時,只設(shè)計一個列族,以心電數(shù)據(jù)存儲表為例,只包含一個列族ECG,包含如下列:

文件名:心電數(shù)據(jù)作為時間序列數(shù)據(jù),為更好的對其實施管理,需將其按照固定時間進行截取,存為一個文件。

文件存儲路徑:數(shù)據(jù)實際在HDFS上的存儲位置。

信號特征:在分析心電圖時,需要用到ECG數(shù)據(jù)的特征參數(shù),如QRS持續(xù)時間、R波振幅、ST段振幅、ST段斜率、ST段位移、PR間期、QT間期以及由特征提取算法提取到的其他特征值。通過分析這些特征參數(shù),應(yīng)用程序可以找到各種參數(shù)與疾病之間的相關(guān)關(guān)系。

疾病類別:在心電數(shù)據(jù)存入數(shù)據(jù)庫之前,基于提取到的信號特征采用某種分類方法將其大致進行分類。

用戶屬性:心電數(shù)據(jù)對應(yīng)的患者相關(guān)的一些數(shù)據(jù),如患者的病史、生活方式、性別、年齡、服藥歷史等屬性,這些屬性往往也與疾病存在著相關(guān)關(guān)系。

2.4 行主鍵設(shè)計

HBase只提供了行級索引,因此為實現(xiàn)多條件查詢,需要設(shè)計合適的行主鍵。本文選擇用戶id和疾病id聯(lián)合作為行主鍵。同時為避免region的熱點問題,充分利用集群分布式的特性,將用戶id倒序。

3 實驗及結(jié)果

3.1 實驗環(huán)境及數(shù)據(jù)集

測試硬件環(huán)境為在1臺服務(wù)器構(gòu)建分布式Hadoop集群,集群包含1個主節(jié)點,4個從節(jié)點,用到的各軟件版本分別為 Hadoop2.6.2、Zookeeper3.4.6、HBase1.2.6,操作系統(tǒng)均為64位CentOS 6.5。服務(wù)器的硬件配置如下:

處理器:英特爾·至強·E5-2600V4處理器;

磁盤:600GB;

內(nèi)存:32GB;

本文采用的心電數(shù)據(jù)庫如表1所示,共包含來自三個數(shù)據(jù)集的263個心電信號文件,共約10.2G的數(shù)據(jù)。其中European ST-T數(shù)據(jù)集包含90個30分鐘的心電記錄文件,Long-Term AF包含84個21小時的心電記錄文件,Long-Term ST包含89個24小時的心電記錄文件。

3.2 數(shù)據(jù)寫入性能

因ECG數(shù)據(jù)是從5KB到100MB的不等的文件,為考察心電存儲平臺數(shù)據(jù)的導(dǎo)入性能,需事先對ECG文件進行預(yù)處理,根據(jù)采樣頻率按照每分鐘的時長將原始文件切分成同樣的長度,各數(shù)據(jù)集含有的記錄條數(shù)如表1所示,共236700條記錄。將數(shù)據(jù)分別寫入到本文構(gòu)建的存儲平臺和MySQL數(shù)據(jù)庫中,每秒記錄一次寫入的記錄條數(shù),實驗進行10次,取平均值,實驗結(jié)果如圖3所示。實驗結(jié)果表明:HBase數(shù)據(jù)的寫入性能總體優(yōu)于MySQL寫入性能。HBase隨著寫入記錄數(shù)的增加,數(shù)據(jù)寫入性能總體平穩(wěn),最快寫入速度19813條/秒。

表1 實驗數(shù)據(jù)集

圖3 HBase與MySQL數(shù)據(jù)寫入性能比較

圖4 HBase與MySQL數(shù)據(jù)查詢性能比較

3.3 數(shù)據(jù)查詢性能

按照行鍵的設(shè)計,設(shè)計三種查詢測試用例,包含只按照用戶id查詢、只按照疾病id查詢和用戶id和疾病id組合查詢,每個用例一共執(zhí)行10次后取均值,結(jié)果如圖4所示。實驗結(jié)果表明,HBase的查詢性能總體優(yōu)于MySQL,最快查詢速度15805條/秒,數(shù)據(jù)檢索結(jié)果返回時效達到毫秒級,能夠滿足業(yè)務(wù)應(yīng)用中對心電信號存儲和檢索時效的要求。

4 結(jié)語

針對關(guān)系型數(shù)據(jù)庫對心電數(shù)據(jù)的存儲及檢索效率低的問題,通過對HBase中相關(guān)表的結(jié)構(gòu)及行鍵設(shè)計,建立了基于HBase的分布式存儲與處理系統(tǒng),使實時采集和監(jiān)控心電數(shù)據(jù)成為可能。系統(tǒng)中關(guān)鍵技術(shù)是基于MapReduce的并行數(shù)據(jù)導(dǎo)入。實驗驗證了該方案相對于MySQL具有較高的存儲效率和查詢速度,能夠滿足業(yè)務(wù)中的時效性要求。

[1]http://news.medlive.cn/heart/info-progress/show-129366_129.html

[2]Nguyen AV,Wynden R,Sun Y:HBase,MapReduce,and Integrated Data Visualization for Processing Clinical Signal Data.In AAAI Spring Symposium:Computational Physiology:2011.

[3]熊艷,陳宇,蔣文濤等.基于Hadoop的心電數(shù)據(jù)庫存儲研究[J].生物醫(yī)學(xué)工程研究,2016,35(3):175-177.

[4]Shvachko K,Kuang H,Radia S,Chansler R:The Hadoop Distributed File System.In Mass Storage Systems and Technologies(MSST),2010 IEEE 26th Symposium on:2010,IEEE;2010:1-10.

[5]K.C.Wee and M.S.M.Zahid.Auto-tuned Hadoop MapReduce for ECG Analysis.2015 IEEE Student Conference on Research and Development(SCOReD),Kuala Lumpur,2015:329-334.

[6]張智,龔宇.分布式存儲系統(tǒng)HBase關(guān)鍵技術(shù)研究[J].現(xiàn)代計算機,2014(11):33-37.

[7]R.C.Taylor.An overview of the Hadoop/MapReduce/HBase Framework and Its Current Applications in Bioinformatics.J.BMC Bioinformatics,2010.

猜你喜歡
存儲系統(tǒng)心電電信號
基于聯(lián)合聚類分析的單通道腹部心電信號的胎心率提取
心電向量圖診斷高血壓病左心室異常的臨床應(yīng)用
分布式存儲系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
基于非接觸式電極的心電監(jiān)測系統(tǒng)
電子制作(2019年19期)2019-11-23 08:41:40
穿戴式心電:發(fā)展歷程、核心技術(shù)與未來挑戰(zhàn)
基于Code Composer Studio3.3完成對心電信號的去噪
科技傳播(2019年24期)2019-06-15 09:29:28
天河超算存儲系統(tǒng)在美創(chuàng)佳績
更正啟事
基于隨機森林的航天器電信號多分類識別方法
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲系統(tǒng)
永福县| 平度市| 哈巴河县| 马关县| 汽车| 恩平市| 卢湾区| 望城县| 从江县| 广平县| 奈曼旗| 钦州市| 安远县| 邹平县| 惠安县| 芜湖市| 宜昌市| 阿拉善左旗| 西平县| 金寨县| 鄂托克旗| 海淀区| 大方县| 广汉市| 利辛县| 剑川县| 高淳县| 阳朔县| 伊宁县| 惠来县| 石泉县| 慈溪市| 驻马店市| 香河县| 康定县| 孟连| 微山县| 武汉市| 蚌埠市| 闽清县| 准格尔旗|