王 坤,楊 楊,邱雪松
(北京郵電大學(xué) 可信網(wǎng)絡(luò)通信協(xié)同創(chuàng)新中心,北京 100876)
10.3969/j.issn.1003-3114.2018.01.02
王坤,楊楊,邱雪松.天地一體化網(wǎng)絡(luò)中基于HDFS的元數(shù)據(jù)優(yōu)化策略[J].無線電通信技術(shù),2018,44(1):09-13.
[WANG Kun,YANG Yang,QIU Xuesong.Metadata Optimization Strategy Based on HDFS in Integrated Space-ground Network [J].Radio Communications Technology,2018,44(1):09-13.]
天地一體化網(wǎng)絡(luò)中基于HDFS的元數(shù)據(jù)優(yōu)化策略
王 坤,楊 楊,邱雪松
(北京郵電大學(xué) 可信網(wǎng)絡(luò)通信協(xié)同創(chuàng)新中心,北京 100876)
Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop的核心之一,已經(jīng)廣泛應(yīng)用于天地一體化網(wǎng)絡(luò)數(shù)據(jù)的存儲。但由于HDFS存儲和管理的數(shù)據(jù)容量受限于命名節(jié)點(diǎn)(NameNode)的內(nèi)存大小,其擴(kuò)展性受到制約。針對NameNode管理元數(shù)據(jù)時(shí)存在的加載文件系統(tǒng)鏡像(FSImage)時(shí)間過長、容量受內(nèi)存大小限制等問題,提出將HDFS層級化的元數(shù)據(jù)結(jié)構(gòu)調(diào)整為扁平化結(jié)構(gòu),并將元數(shù)據(jù)移出內(nèi)存的優(yōu)化思路,設(shè)計(jì)了基于日志結(jié)構(gòu)合并樹(Log-Structured Merge-Tree,LSM)與內(nèi)存映射文件進(jìn)行元數(shù)據(jù)管理的F-HDFS架構(gòu),并介紹了F-HDFS的元數(shù)據(jù)管理方式。通過F-HDFS的原型系統(tǒng)與HDFS的對比實(shí)驗(yàn),表明F-HDFS性能整體優(yōu)于HDFS,可提供穩(wěn)定快速的元數(shù)據(jù)服務(wù),能存儲與管理超過HDFS 5.3倍以上的數(shù)據(jù)。
Hadoop; HDFS; 元數(shù)據(jù)管理; 擴(kuò)展性; 內(nèi)存映射文件
TP274
A
1003-3114(2018)01-09-5
2017-09-19
北京郵電大學(xué)可信網(wǎng)絡(luò)通信協(xié)同創(chuàng)新中心預(yù)研基金項(xiàng)目;中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目;國家科技支撐計(jì)劃項(xiàng)目 (2015BAI11B01)
MetadataOptimizationStrategyBasedonHDFSinIntegratedSpace-groundNetwork
WANG Kun,YANG Yang,QIU Xuesong
(Collaborative Innovation Center of Trusted Cyber Communications, Beijing University of Posts and Telecommunications,Beijing 100876,China)
Hadoop distributed file system (HDFS) is one of the cores of Hadoop.It has been widely used in data storage of integrated space and terrestrial information network.However,the scalability of HDFS is limited by the memory size of the NameNode.In order to solve the problem of long time when loading file system mirror (FSImage) to NameNode memory and the problem of capacity restricted by memory size,F-HDFS is designed by adjusting the HDFS hierarchical metadata structure to flat structure and moving metadata out of memory.The design of F-HDFS is based on log structured merge tree and memory mapped files.Through the contrast experiment of F-HDFS prototype system and HDFS,it's proved that the performance of F-HDFS is better than HDFS in general,and it can provide stable and fast metadata service,and can store and manage more than 5.3 times more data than HDFS.
Hadoop; HDFS;metadata management; expansibility; memory mapped file
大數(shù)據(jù)和云計(jì)算技術(shù)獨(dú)有的無限擴(kuò)展、隨時(shí)獲取的資源管理方式對于部隊(duì)作戰(zhàn)數(shù)據(jù)平臺的建設(shè)將帶來深刻影響與變革。足夠高的、可靠的、低成本的、容易獲取的帶寬資源,是云計(jì)算和大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前提和基礎(chǔ)。但是在天地一體化網(wǎng)絡(luò)中,由于通信、偵察、導(dǎo)航氣象等多種功能的異構(gòu)衛(wèi)星/衛(wèi)星網(wǎng)絡(luò)、深空網(wǎng)絡(luò)、空間飛行器以及地面有線和無線網(wǎng)絡(luò)設(shè)施所產(chǎn)生的空、天、地、海等多維信息的海量性和安全性將對大數(shù)據(jù)平臺的構(gòu)建提出挑戰(zhàn)。同時(shí),帶寬競爭所引發(fā)的數(shù)據(jù)同步過程中傳輸中斷、網(wǎng)絡(luò)延遲、內(nèi)容丟失等問題將嚴(yán)重制約天地一體化網(wǎng)絡(luò)中大數(shù)據(jù)同步的效率。HADOOP因其具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性和低成本等優(yōu)點(diǎn),自推出以來在學(xué)術(shù)界得到了廣泛的關(guān)注,同時(shí)得到了迅速的普及和應(yīng)用。隨著HADOOP的不斷成熟,現(xiàn)已發(fā)展成為包含HBASE、HIVE、ZOOKEEPER、MAHOUT等基本子系統(tǒng)的完整的大數(shù)據(jù)處理平臺。在進(jìn)行天地一體化網(wǎng)絡(luò)數(shù)據(jù)的存儲中,HDFS文件系統(tǒng)因其流式讀寫等特點(diǎn),性能較為高效。
與PVFS[1]、MooseFS[2]和GFS[3]等分布式文件系統(tǒng)類似,HDFS也采用主從模式,在一個(gè)HDFS集群中有一個(gè)NameNode和多個(gè)DataNode,NameNode負(fù)責(zé)存儲和管理元數(shù)據(jù)[4],DateNode負(fù)責(zé)以塊為單位存儲實(shí)際文件數(shù)據(jù)。此外,集群中通常還會(huì)有Standby Node用來保證高可用性。由于Namenode負(fù)責(zé)管理整個(gè)集群的所有元數(shù)據(jù), HDFS將集群中每個(gè)文件、數(shù)據(jù)塊和目錄項(xiàng)都視為一個(gè)對象(Object),保存每個(gè)對象的元數(shù)據(jù),并在集群運(yùn)行期間將所有元數(shù)據(jù)加載入NameNode內(nèi)存,以提供高速的元數(shù)據(jù)訪問服務(wù)。因此,HDFS的NameNode會(huì)由于元數(shù)據(jù)過多而導(dǎo)致內(nèi)存溢出,限制整個(gè)集群可存儲的文件數(shù)和塊數(shù)量。
在NameNode中,命名空間(NameSpace)占據(jù)了NameNode的大部分內(nèi)存[5]。NameNode是HDFS文件系統(tǒng)的入口,訪問HDFS的應(yīng)用或客戶端需要從NameNode處獲知分布式文件系統(tǒng)的樹狀目錄和文件結(jié)構(gòu),進(jìn)而訪問實(shí)際的文件內(nèi)容。NameNode對命名空間的管理數(shù)據(jù)除在內(nèi)存中常駐外,還會(huì)保存到磁盤的FSImage和Editslog文件中。當(dāng)NameNode重啟或?yàn)?zāi)備切換后,會(huì)根據(jù)磁盤中數(shù)據(jù)在內(nèi)存中重新構(gòu)造命名空間。NameNode采用這種方式的主要問題在于:
① 元數(shù)據(jù)擴(kuò)展性受限。NameNode在內(nèi)存中加載所有元數(shù)據(jù),元數(shù)據(jù)量過大將會(huì)引起JVM頻繁的垃圾回收,影響集群性能;若超過NameNode內(nèi)存大小,集群將完全不可用。
② 元數(shù)據(jù)加載耗時(shí)。NameNode每次重啟都要根據(jù)磁盤中的Editslog和FSImage還原命名空間,并逐步加載入內(nèi)存。元數(shù)據(jù)加載十分耗時(shí),且在該階段NameNode無法提供服務(wù)。
為突破上述限制,提高HDFS元數(shù)據(jù)管理性能,本文從NameNode層次化的元數(shù)據(jù)管理方式入手,將元數(shù)據(jù)分離出內(nèi)存,借鑒LSM[6-7]設(shè)計(jì)了一種輕量化元數(shù)據(jù)存儲結(jié)構(gòu)MDDB(Metadata Data Base),將元數(shù)據(jù)從內(nèi)存轉(zhuǎn)移到內(nèi)存映射文件與磁盤中,不受NameNode內(nèi)存容量限制,且可提供優(yōu)秀的元數(shù)據(jù)操作訪問性能。通過基于LSM與內(nèi)存映射文件的扁平化方式進(jìn)行元數(shù)據(jù)管理與操作,并構(gòu)建了原型系統(tǒng)F-HDFS驗(yàn)證其可行性與有效性。
將文件目錄進(jìn)行扁平化處理,在NameNode中加入了新的元數(shù)據(jù)存儲組件元數(shù)據(jù)數(shù)據(jù)庫(MetaData Data Base,MDDB),NameNode通過與MDDB交互進(jìn)行元數(shù)據(jù)操作,為客戶端提供文件服務(wù)。F-HDFS的架構(gòu)如圖1所示,其中元數(shù)據(jù)存儲在MDDB中,MDDB采用LSM與內(nèi)存映射文件和針對性的優(yōu)化措施,提供高效的元數(shù)據(jù)訪問。由于將元數(shù)據(jù)的存儲和處理分離出了NameNode內(nèi)存,F(xiàn)-HDFS對于文件系統(tǒng)的操作也與原本的HDFS不同,下面將詳細(xì)介紹F-HDFS中MDDB和元數(shù)據(jù)操作的相關(guān)設(shè)計(jì)與優(yōu)化。
圖1 F-HDFS架構(gòu)
針對F-HDFS的NameNode元數(shù)據(jù)存取場景設(shè)計(jì)了MDDB,它是一種基于LSM樹(Log-Structured Merge-Tree)與內(nèi)存映射文件[8]的輕量化鍵值數(shù)據(jù)庫。不同于HDFS將元數(shù)據(jù)加載入內(nèi)存,并在磁盤中持久化存儲FSImage的方式,F(xiàn)-HDFS的元數(shù)據(jù)存儲和處理都在MDDB中進(jìn)行。MDDB借鑒了LevelDB的設(shè)計(jì)思想,針對F-HDFS的應(yīng)用場景進(jìn)行了重新設(shè)計(jì)和優(yōu)化。
MDDB由4個(gè)層次組成,包括活躍層、L0層、L1層和L2層,結(jié)構(gòu)如圖2所示。
其中,頂層為活躍層。元數(shù)據(jù)的插入和刪除操作僅發(fā)生在活躍層,該層包含一個(gè)活躍表。當(dāng)活躍表的大小超過閾值時(shí),將轉(zhuǎn)變?yōu)橹蛔x表并被放入L0層。同時(shí),一個(gè)新的空表將會(huì)被創(chuàng)建,成為當(dāng)前活動(dòng)的活躍表。
圖2 MDDB層次結(jié)構(gòu)
活躍表包含兩部分,一部分是駐留在NameNode內(nèi)存中的HashMap,一部分是以內(nèi)存映射方式加載的索引文件和數(shù)據(jù)文件。數(shù)據(jù)文件包含實(shí)際的元數(shù)據(jù)內(nèi)容,索引文件是對數(shù)據(jù)文件每條元數(shù)據(jù)的索引,便于快速訪問。
當(dāng)NameNode向MDDB中插入新的文件元數(shù)據(jù)時(shí),例如對于文件K及其元數(shù)據(jù)V,首先K與V將被追加到活躍表的數(shù)據(jù)文件末;然后,索引文件中將生成對應(yīng)的索引i,記錄K、V的位置;接著,HashMap中將插入一條映射記錄,該記錄的關(guān)鍵字為K,值為索引i。若從活躍層讀取文件K的元數(shù)據(jù),需要先根據(jù)K從HashMap中取出對應(yīng)的索引i,然后根據(jù)索引i到數(shù)據(jù)文件中讀取元數(shù)據(jù)V的值。為了加快數(shù)據(jù)讀寫速度,數(shù)據(jù)文件和索引文件均以內(nèi)存映射的形式加載與訪問。
L0層中表的構(gòu)成成分、讀取過程和活躍表一致,但從L0層開始,只支持表讀取操作。當(dāng)L0層的表達(dá)到一定數(shù)量(如2個(gè)),多個(gè)表將會(huì)被排序歸并為一個(gè)表,歸并結(jié)果將被放入L1層。在排序和歸并過程中,表中鍵重復(fù)的舊數(shù)據(jù)將被淘汰。
L1層的每個(gè)表包含兩部分內(nèi)容,一部分是布隆過濾器[9](BloomFilter),另一部分是數(shù)據(jù)文件。數(shù)據(jù)文件經(jīng)由L0層排序歸并得到。在L0層的排序與歸并過程中,數(shù)據(jù)同時(shí)被寫入BloomFilter和數(shù)據(jù)文件中。L1層的讀取操作需要先在布隆過濾器中檢索,若布隆過濾器報(bào)告目標(biāo)項(xiàng)可能存在,則通過二分法查詢索引文件。
當(dāng)L1層的表達(dá)到一定數(shù)量(如4個(gè)或8個(gè)),多個(gè)表將會(huì)被排序歸并為一個(gè)新表,并放入L2層中。如果L2層中存在舊表,則舊表將參與排序歸并,最終L2層中只保留一張表。在歸并過程中,所有被刪除或更新的舊數(shù)據(jù)都會(huì)被清除。
MDDB中的刪除操作可以視為特殊的插入操作,對于待刪除的文件或目錄,MDDB會(huì)針對該條目插入一條擁有刪除標(biāo)記特殊數(shù)據(jù),在后續(xù)的歸并中會(huì)將標(biāo)記刪除的無效數(shù)據(jù)清除。查詢與讀取操作從活躍層開始,根據(jù)數(shù)據(jù)新鮮度按從上往下、同層內(nèi)從表隊(duì)列隊(duì)首向隊(duì)尾的順序搜索。
由于NameNode是運(yùn)行在Java虛擬機(jī)上的, HDFS在運(yùn)行期間將元數(shù)據(jù)駐留在NameNode的JVM堆內(nèi)存中,因此元數(shù)據(jù)存取性能較高。但JVM存在垃圾回收機(jī)制,存儲大量元數(shù)據(jù)會(huì)頻繁觸發(fā)垃圾回收,影響NameNode的正常使用。內(nèi)存映射文件的性能介于純內(nèi)存和純磁盤之間,并持久化保存在磁盤上,無數(shù)據(jù)丟失風(fēng)險(xiǎn),且不受垃圾回收機(jī)制影響。F-HDFS可在NameNode重啟后,節(jié)省將FSImage文件反序列化和載入內(nèi)存的時(shí)間。此外L2層的數(shù)據(jù)文件以磁盤文件的形式存放,避免大量的“冷數(shù)據(jù)”[10]浪費(fèi)內(nèi)存地址空間。MDDB中所有數(shù)據(jù)文件都是直接或間接持久化保存的,如果NameNode宕機(jī)或進(jìn)程意外結(jié)束,元數(shù)據(jù)不會(huì)丟失,重啟后即可快速恢復(fù)。
F-HDFS對于HDFS的扁平化處理包括兩方面:一方面是目錄結(jié)構(gòu)的扁平化。在F-HDFS中,每個(gè)目錄項(xiàng)的目錄名和父目錄編號“pid”構(gòu)成唯一的標(biāo)識依據(jù)“(pid,name)”,與目錄項(xiàng)對應(yīng)的訪問控制信息、數(shù)據(jù)塊信息等內(nèi)容一并保存在MDDB中,形成扁平化的目錄結(jié)構(gòu)。另一方面是元數(shù)據(jù)的扁平化。F-HDFS按照原HDFS中INode的格式,將INode處理為扁平字節(jié)數(shù)組,其中每一種元數(shù)據(jù)屬性都是定長。NameNode可通過預(yù)定義的偏移位置,直接讀取元數(shù)據(jù)字段內(nèi)容,而不用將全部元數(shù)據(jù)反序列化為INode對象再讀取,節(jié)省了訪問時(shí)間。
在扁平化目錄中,訪問目錄的過程也異于樹形結(jié)構(gòu)。例如圖3所示的目錄結(jié)構(gòu),訪問目錄“/foo/dira”的步驟為:① 由根目錄出發(fā),通過“(0,root)”得到根目錄root的ID為1;② 構(gòu)造“(1,foo)”得到目錄foo的ID為2;③ 通過“(2,dira)”即可查找到目錄dira的元數(shù)據(jù)信息。本示例為了簡潔省略了實(shí)際中訪問控制的檢查過程。
圖3 扁平化目錄示例
與訪問目錄的步驟類似,對于mkdir等操作,例如“mkdir /foo/a”,首先需要根據(jù)“/foo/a”查找是否存在該目錄項(xiàng),若不存在,直接向MDDB活躍層插入“(2,a)”與目錄a的元數(shù)據(jù)即可。若需更新某目錄項(xiàng)的元數(shù)據(jù),如rename等操作,則需要執(zhí)行一次原子更改操作,同時(shí)將操作記錄寫入Editslog。刪除文件或目錄的操作與更新操作類似,更新或刪除操作完成后,無效數(shù)據(jù)在L1、L2層發(fā)生排序歸并時(shí)才會(huì)被清除。
以Hadoop 2.7.3版本源碼為基礎(chǔ),修改并編譯完成了F-HDFS的原型系統(tǒng),另外還將扁平化處理適配了LevelDB,以驗(yàn)證本文方案所設(shè)計(jì)的MDDB及相關(guān)元數(shù)據(jù)訪問優(yōu)化的有效性。本節(jié)將展示本文針對HDFS、F-HDFS(以MDDB為引擎的F-HDFS記為F-HDFS_M、以LevelDB為引擎的F-HDFS記為F-HDFS_L)的對比實(shí)驗(yàn)結(jié)果。
本文實(shí)驗(yàn)在3個(gè)規(guī)格相同的集群上展開,各集群的NameNode配置均為2.4 GHz CPU、8 GB RAM、1 GB Ethernet、200 GB HDD。每個(gè)集群包含5個(gè)DataNode,配置為4 GB RAM、1 GB Ethernet、500 GB HDD。所有節(jié)點(diǎn)的操作系統(tǒng)為Ubuntu 14.04 64 bit、Java 1.8。HDFS、F-HDFS_M與F-HDFS_L分別運(yùn)行在3個(gè)獨(dú)立的集群上。
實(shí)驗(yàn)首先采用Hadoop官方提供的Benchmark測試套件[11]作為測試工具,測試HDFS和F-HDFS的NameNode對元數(shù)據(jù)和目錄項(xiàng)的“mkdir”操作性能。
對于“mkdir”操作,本文利用測試工具分別以1、2、4、8、16、32和64線程,對HDFS、F-HDFS_M和F-HDFS_L各創(chuàng)建100 000個(gè)目錄。針對不同線程數(shù)量分別測試3次,每次測試完成都重新格式化NameNode,每種線程數(shù)量取3次每秒操作數(shù)(op/s)的平均數(shù)為測試結(jié)果。測試結(jié)果的單位是每秒的操作數(shù),數(shù)值越大表明性能越好。從圖4中可以看出,雖然在64線程的實(shí)驗(yàn)中,F(xiàn)-HDFS_M的數(shù)據(jù)為9 569.97 op/s,低于HDFS的數(shù)據(jù)10 512.7 op/s,但F-HDFS_M結(jié)果整體優(yōu)于對比項(xiàng)。F-HDFS_L在1、2、4線程時(shí)與HDFS性能接近,但隨著線程數(shù)的增加,測試結(jié)果增長緩慢。F-HDFS_L與F-HDFS_M相差較大的原因在于LevelDB僅采用內(nèi)存和磁盤存儲數(shù)據(jù),每次新建目錄項(xiàng)之前的判存操作都要查詢,形成了性能瓶頸。而F-HDFS_M通過集中式的追加寫和優(yōu)化的索引,實(shí)現(xiàn)了優(yōu)于HDFS的性能。
圖4 mkdir測試結(jié)果
除了針對NameNode的元數(shù)據(jù)性能測試,還利用Load Generator[12]對3個(gè)集群進(jìn)行了實(shí)際文件讀寫的負(fù)載測試。實(shí)驗(yàn)測試3個(gè)集群在不同文件數(shù)量負(fù)載下的吞吐量,每次測試分為3個(gè)步驟:首先以最大目錄深度為8、子目錄數(shù)最大為100、文件平均大小1 MB,副本數(shù)為3、本次文件數(shù)量為基數(shù),生成目錄結(jié)構(gòu)文件;然后根據(jù)目錄結(jié)構(gòu)文件,在集群中自動(dòng)生成相應(yīng)的目錄和文件;最后建立64個(gè)客戶端對NameNode進(jìn)行文件讀寫和目錄訪問,最終輸出本次測試的綜合吞吐量。
雖然在元數(shù)據(jù)操作基準(zhǔn)測試中,F(xiàn)-HDFS_M的mkdir操作吞吐量優(yōu)于HDFS,而對于open操作,F(xiàn)-HDFS_M的最大吞吐量低于HDFS。但在圖5所示結(jié)果中,F(xiàn)-HDFS_M響應(yīng)多客戶端操作的的綜合吞吐量均優(yōu)于HDFS。由于本實(shí)驗(yàn)中副本數(shù)為3,實(shí)際上當(dāng)HDFS達(dá)到可用極限時(shí),該集群的NameNode共管理至少600萬個(gè)對象(包括文件、目錄、塊等),而當(dāng)F-HDFS達(dá)到可用極限時(shí),NameNode共管理至少3 200萬個(gè)對象,是HDFS的5.3倍以上。
圖5 負(fù)載測試結(jié)果
針對天地一體化信息網(wǎng)絡(luò)背景中基于HDFS文件系統(tǒng)進(jìn)行元數(shù)據(jù)管理的局限,提出了F-HDFS改進(jìn)方案,通過將元數(shù)據(jù)分離出NameNode內(nèi)存與FSImage,實(shí)現(xiàn)元數(shù)據(jù)擴(kuò)容與快速加載。首先,本文介紹了F-HDFS的設(shè)計(jì)方案,包括元數(shù)據(jù)的存儲引擎MDDB、扁平化的目錄與元數(shù)據(jù)管理措施。其次,通過原型系統(tǒng)與HDFS的對比實(shí)驗(yàn),展現(xiàn)并分析了F-HDFS的性能。實(shí)驗(yàn)結(jié)果表明,F(xiàn)-HDFS具有優(yōu)秀的元數(shù)據(jù)操作性能,能提供多于HDFS容量5.3倍以上的數(shù)據(jù)存儲和管理能力。
[1] Haddad I F.PVFS: A Parallel Virtual File System for LinuxClusters[J].Linux Journal,2000,2000(80es):5.
[2] Bai S, Wu H.The Performance Study on Several Distributed File Systems[C]∥ International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery.IEEE,2011:226-229.
[3] Ghemawat S, Gobioff H,Leung S T.The Google File System[C]∥ Nineteenth ACM Symposium on Operating Systems Principles.ACM,2003:29-43.
[4] Shafer J,Rixner S,Cox A L.The Hadoop Distributed Filesystem: Balancing Portability and Performance [C]∥ Performance Analysis of Systems & Software (ISPASS).2010 IEEE International Symposium on.IEEE,2010:122-133.
[5] Shvachko K V.HDFS Scalability: the Limits to Growth[J].login:the Magazine of USENIX & SAGE,2010,35: 6-16.
[6] O'Neil P,Cheng E,Gawlick D,et al.The Log-structured Merge-tree (LSM-tree)[J].Acta Informatica ,1996,33(4): 351-385.
[7] Chang F.Bigtable: A Distributed Storage System for Structured Data[J].ACM Transactions on Computer Systems (TOCS),2006,26(2):205-218.
[8] Song N Y,Son Y,Han H,et al.Efficient Memory-mapped i/o on Fast Storage Device[J].ACM Transactions on Storage (TOS),2016 ,12(4): 19.
[9] Kumar A,Xu J,Wang J.Space-code Bloom Filter for Efficient Per-flow Traffic Measurement[J].IEEE Journal on Selected Areas in Communications ,2006,24(12): 2327-2339.
[10] Run A K,Chitharanjan K.A review on hadoop — HDFS infrastructure extensions[C]∥ Information & Communication Technologies.IEEE,2013:132-137.
[11] Hadoop Benchmarking [EB/OL].http:∥hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/Benchmarking.html.
[12] Load Generator[EB/OL].http:∥hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/SLGUser Guide.html.
[13] Dev D,Patgiri R.Dr.Hadoop:an Infinite Scalable Metadata Management for Hadoop-How the Baby Elephant Becomes Immortal[J].Frontiers of Information Technology & Electronic Engineering,2016,17(1):15-31.
王坤(1994—),男,碩士研究生,主要研究方向:大數(shù)據(jù)與分布式存儲系統(tǒng);
楊楊(1981—),女,副教授,主要研究方向:無線傳感網(wǎng)應(yīng)用與大數(shù)據(jù)分析;
邱雪松(1973—),男,教授,主要研究方向:網(wǎng)絡(luò)管理與通信軟件。