李成嶺,鄭雨翔,洪祎祺,李雯,郭慧敏
(1.國網(wǎng)上海市電力公司浦東供電公司,上海 200122;2.上海中興電力建設(shè)發(fā)展有限公司,上海 200122)
國網(wǎng)遼寧省電力有限公司全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心數(shù)據(jù)分析域非結(jié)構(gòu)化數(shù)據(jù)接入方面涉及非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)中電子文件管理系統(tǒng)、檔案系統(tǒng)、電網(wǎng)GIS地理空間信息系統(tǒng)、營銷業(yè)務(wù)系統(tǒng)、安監(jiān)系統(tǒng)、PMS2.0、協(xié)同辦公系統(tǒng)、電力交易系統(tǒng)、ERP、計(jì)量生產(chǎn)調(diào)度平臺(tái)、營銷GIS、基建管理信息系統(tǒng)等 34個(gè)業(yè)務(wù)系統(tǒng)接入非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)的非結(jié)構(gòu)化數(shù)據(jù)。綜合考慮,主要通過測(cè)試80 GB文件的寫入、讀取場景過程中分布式文件系統(tǒng)性能各種指標(biāo)的不同數(shù)量大小,如節(jié)點(diǎn)數(shù)量的大小、備份因子的大小、數(shù)據(jù)塊的大小,對(duì)國網(wǎng)公司大數(shù)據(jù)平臺(tái)分布式文件系統(tǒng)(基于HDFS優(yōu)化封裝)的讀寫性能進(jìn)行測(cè)試。
下面以測(cè)試節(jié)點(diǎn)數(shù)量對(duì)分布式文件系統(tǒng)讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,所有的測(cè)試節(jié)點(diǎn)的物理配置需保持一致,且在一個(gè)分布式集群下,數(shù)據(jù)塊大小統(tǒng)一默認(rèn)為128 MB,其他參數(shù)都保持一致。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:跨節(jié)點(diǎn)遠(yuǎn)程寫入和讀取80 GB文件,分別記錄耗時(shí);分別在不同工作節(jié)點(diǎn)上本地寫入和讀取80 GB文件,分別記錄耗時(shí);重復(fù)以上步驟,分別測(cè)試2個(gè)、3個(gè)DataNode的HDFS集群環(huán)境,跨節(jié)點(diǎn)遠(yuǎn)程寫入文件、節(jié)點(diǎn)本地寫入文件耗時(shí),測(cè)試結(jié)果如下所示。
(1)1個(gè)DataNode的HDFS集群
1個(gè)DataNode的HDFS集群的測(cè)試結(jié)果見表1。
(2)2個(gè)DataNode的HDFS集群
2個(gè)DataNode的HDFS集群的測(cè)試結(jié)果見表2。
(3)3個(gè)DataNode的HDFS集群
3個(gè)DataNode的HDFS集群的測(cè)試結(jié)果見表3。
集群的規(guī)模增大,在DataNode上讀取數(shù)據(jù)的性能優(yōu)勢(shì)將越來越小,因?yàn)閿?shù)據(jù)塊分布越來越稀疏,在一個(gè)數(shù)據(jù)節(jié)點(diǎn)上能夠取得的數(shù)據(jù)塊越來越少,需要通過網(wǎng)絡(luò)進(jìn)行傳輸?shù)臄?shù)據(jù)越來越多。另外,隨著集群規(guī)模的增大,客戶端讀寫的速率有遞減的趨勢(shì)。
表1 1個(gè)DataNode的HDFS集群的測(cè)試結(jié)果
表3 3個(gè)DataNode的HDFS集群的測(cè)試結(jié)果
下面以測(cè)試備份因子數(shù)對(duì)分布式文件系統(tǒng)讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,所有的測(cè)試節(jié)點(diǎn)的物理配置需保持一致,節(jié)點(diǎn)數(shù)量為3。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:設(shè)置備份因子數(shù)為1,跨節(jié)點(diǎn)遠(yuǎn)程寫入和讀取80 GB文件,分別記錄耗時(shí);分別在不同工作節(jié)點(diǎn)上本地寫入和讀取80 GB文件,分別記錄耗時(shí);重復(fù)以上步驟,分別測(cè)試備份因子為2、3的HDFS集群環(huán)境中跨節(jié)點(diǎn)遠(yuǎn)程讀寫文件、節(jié)點(diǎn)本地讀寫文件耗時(shí),測(cè)試結(jié)果如下所示。
(4)備份因子為1~3情況下的寫性能測(cè)試
備份因子為 1~3情況下的寫性能測(cè)試結(jié)果見表4。
(2)備份因子為1~3下的讀性能測(cè)試
備份因子為 1~3情況下的讀性能測(cè)試結(jié)果見表5。
備份因子的改變不影響客戶端的讀寫性能,客戶端的 I/O瓶頸依然是交換機(jī)的傳輸速率。備份因子數(shù)增加時(shí),客戶端寫的時(shí)間有小幅度的增加,這是因?yàn)橐淹粋€(gè)塊寫到不同的機(jī)器上,增加了寫的開銷。備份因子的增加使本地寫文件性能下降,本地讀文件性能提高。
表4 備份因子為1~3情況下的寫性能測(cè)試結(jié)果
表5 備份因子為1~3情況下的讀性能測(cè)試結(jié)果
下面以測(cè)試數(shù)據(jù)塊的大小對(duì)分布式文件系統(tǒng)讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,同上一項(xiàng)測(cè)試設(shè)置相同,節(jié)點(diǎn)數(shù)量為3個(gè),備份數(shù)為3。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:設(shè)置設(shè)置塊大小為4 MB,跨節(jié)點(diǎn)遠(yuǎn)程寫入80 GB文件,記錄耗時(shí);重復(fù)以上步驟,分別測(cè)試備份因子為4 MB、8 MB、16 MB、32 MB、64 MB、128 MB、256 MB、512 MB、1 024 MB時(shí)的HDFS集群環(huán)境,跨節(jié)點(diǎn)遠(yuǎn)程讀寫文件、節(jié)點(diǎn)本地讀寫文件耗時(shí),測(cè)試結(jié)果如下所示。
經(jīng)測(cè)試,當(dāng)數(shù)據(jù)塊逐漸增大,寫入時(shí)間在總體上是一個(gè)遞減的趨勢(shì),但當(dāng)塊增大到一定程度之后,寫入時(shí)間趨于平穩(wěn),即數(shù)據(jù)塊的增大只能在一定的范圍內(nèi)影響HDFS的讀寫性能,如果把數(shù)據(jù)塊的大小設(shè)置為更大的,那對(duì)性能的影響就微乎其微。
分布式文件系統(tǒng)功能方面主要需測(cè)試分布式文件系統(tǒng)的負(fù)載均衡、節(jié)點(diǎn)動(dòng)態(tài)拓展。
下面以測(cè)試分布式文件系統(tǒng)負(fù)載均衡的功能作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下,集群上已有一定數(shù)據(jù)存儲(chǔ)負(fù)載,測(cè)試新添節(jié)點(diǎn)后執(zhí)行負(fù)載均衡。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:搭建一個(gè)2個(gè)節(jié)點(diǎn)的 HDFS統(tǒng)集群;寫入一定量數(shù)據(jù),查看HDFS監(jiān)控頁面,查看并記錄每個(gè)節(jié)點(diǎn)中塊的數(shù)量;集群新添加一個(gè)節(jié)點(diǎn),執(zhí)行負(fù)載均衡命令,過20 min后,查看每個(gè)節(jié)點(diǎn)中塊的數(shù)量;多次執(zhí)行負(fù)載均衡,過20 min后,查看每個(gè)節(jié)點(diǎn)塊的數(shù)量測(cè)試結(jié)果如下所示。
(1)新增測(cè)試節(jié)點(diǎn)前每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況
搭建的兩個(gè)節(jié)點(diǎn):BG8S01和BG8S03,新增測(cè)試節(jié)點(diǎn)前每個(gè)節(jié)點(diǎn)中塊的數(shù)量分別為458和457。
(2)新增節(jié)點(diǎn)后,執(zhí)行負(fù)載均衡每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況
新增節(jié)點(diǎn)后,執(zhí)行負(fù)載均衡每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況如圖1所示。
圖1 執(zhí)行負(fù)載均衡每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況
負(fù)載均衡的目的雖然是平衡數(shù)據(jù),但它并不追求畢其功于一役,而是事先設(shè)定目標(biāo),每一次執(zhí)行只實(shí)現(xiàn)預(yù)設(shè)目標(biāo),即只是縮小了過載/負(fù)載節(jié)點(diǎn)與集群平均使用率的差值,而通過反復(fù)多次的執(zhí)行使集群內(nèi)的數(shù)據(jù)逐漸趨于均衡??梢姡植际轿募到y(tǒng)能通過搭建分布式節(jié)點(diǎn)實(shí)現(xiàn)系統(tǒng)的負(fù)載均衡。
分布式文件系統(tǒng)具備良好的擴(kuò)展性,能夠動(dòng)態(tài)增加節(jié)點(diǎn),并能保持?jǐn)?shù)據(jù)的分布均衡和存儲(chǔ)空間的擴(kuò)容。
大數(shù)據(jù)平臺(tái)分布式列式數(shù)據(jù)庫基于 Hadoop HBase優(yōu)化封裝,HBase是基于Hadoop的NoSQL數(shù)據(jù)庫,能夠?yàn)榇髷?shù)據(jù)提供實(shí)時(shí)的讀/寫操作,能夠利用 HDFS的分布式處理模式,并通過MapReduce獲取強(qiáng)大的離線處理或批量處理能力,同時(shí)能夠融合key/value存儲(chǔ)模式,以實(shí)現(xiàn)實(shí)時(shí)查詢能力。HBase是一個(gè)分布式、可擴(kuò)展、面向列的數(shù)據(jù)庫,因此可部署在廉價(jià)的PC服務(wù)器集群上處理大規(guī)模的海量數(shù)據(jù)。
下面以測(cè)試節(jié)點(diǎn)數(shù)量對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,節(jié)點(diǎn)的物理配置一致,測(cè)試節(jié)點(diǎn)在同一個(gè)分布式集群下;HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:寫入1 000萬條數(shù)據(jù),其中,每條數(shù)據(jù)300 byte;rowkey為散列值,長度為12;列族下有3個(gè)字段,字段名分別為TN、MP、TO。完成寫入后,計(jì)算寫入總時(shí)間;對(duì)上述表進(jìn)行讀取性能測(cè)試,測(cè)試指定rowkey方式單次讀取的速率;重復(fù)上述步驟,分別測(cè)試在2、3個(gè)工作節(jié)點(diǎn)的 HBase分布式集群環(huán)境下的讀寫性能,測(cè)試結(jié)果如下所示。
表6 HBase寫入數(shù)據(jù)測(cè)試結(jié)果
(1)HBase寫入數(shù)據(jù)測(cè)試
HBase寫入數(shù)據(jù)測(cè)試結(jié)果見表6。
(2)HBase讀取數(shù)據(jù)測(cè)試
HBase讀取數(shù)據(jù)測(cè)試結(jié)果如圖2所示。
圖2 HBase讀取數(shù)據(jù)測(cè)試結(jié)果
隨著集群的規(guī)模增大,HBase寫入性能呈線性遞增,單次rowkey讀取的速率近似相等。
下面以測(cè)試列族數(shù)量對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,節(jié)點(diǎn)的物理配置一致,測(cè)試節(jié)點(diǎn)在同一個(gè)分布式集群下;HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作如同上一項(xiàng)測(cè)試步驟,測(cè)試結(jié)果如下所示。
(1)HBase寫入性能測(cè)試
HBase寫入性能測(cè)試結(jié)果如圖3所示。
圖3 HBase寫入性能測(cè)試結(jié)果
列族的數(shù)量影響寫入的性能,數(shù)量越多則寫入性能越差。在相同列族上的讀取性能差別不大,如果跨列族讀取,列族數(shù)量越多則讀取性能越差。
下面以測(cè)試列名及列族名長度對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)在 1個(gè)分布式集群下,HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:搭建一個(gè)3個(gè)工作節(jié)點(diǎn)的HBase分布式集群環(huán)境;新建一張列族名長度為一個(gè)字符的HBase列族表,寫入1 000萬條數(shù)據(jù),其中,每條數(shù)據(jù)300 byte;rowkey為散列值,長度為12;列族下有1個(gè)字段,字段名長度為1個(gè)字符。完成寫入后,計(jì)算寫入總時(shí)間;對(duì)上述表進(jìn)行讀取性能測(cè)試,測(cè)試指定rowkey方式單次讀取的速率;重復(fù)上述步驟,分別測(cè)試在列族明長度為1,列名長度為2、3;以及列名長度為1,列族名長度為2、3的HBase分布式集群環(huán)境下的讀寫性能,測(cè)試結(jié)果如下所示。
(1)HBase 列名及列族名長度不同寫入測(cè)試
HBase 列名及列族名長度不同寫入測(cè)試結(jié)果見表7。
(2)HBase 列名及列族名長度不同讀取測(cè)試
HBase 列名及列族名長度不同讀取測(cè)試結(jié)果見表8。
列名、列族名的長度影響HBase的讀寫性能,長度越長則性能越差。
下面以測(cè)試rowkey組成結(jié)構(gòu)對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下,HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:搭建一個(gè)3個(gè)工作節(jié)點(diǎn)的HBase分布式集群環(huán)境;新建一張只有一個(gè)列族,列族名長度為一個(gè)字符的HBase表;寫入1 000萬條數(shù)據(jù),其中,每條數(shù)據(jù)300 byte;rowkey為流水號(hào)散列值,長度為12;列族下有1個(gè)字段,字段名長度為1個(gè)字符。完成寫入后,計(jì)算寫入總時(shí)間;對(duì)上述表進(jìn)行讀取性能測(cè)試,測(cè)試指定rowkey方式單次讀取的速率;重復(fù)上述步驟,分別測(cè)試rowkey的結(jié)構(gòu)為不散列時(shí)在HBase分布式集群環(huán)境下的讀寫性能,測(cè)試結(jié)果如下所示。
(1)不同結(jié)構(gòu)的rowkey寫HBase性能測(cè)試
不同結(jié)構(gòu)的rowkey寫HBase性能測(cè)試結(jié)果如圖4所示。
圖4 不同結(jié)構(gòu)的rowkey寫HBase性能測(cè)試結(jié)果
(2)不同結(jié)構(gòu)的rowkey 讀HBase性能測(cè)試
不同結(jié)構(gòu)的rowkey讀HBase性能測(cè)試結(jié)果如圖5所示。
圖5 不同結(jié)構(gòu)的rowkey讀HBase性能測(cè)試結(jié)果
表7 HBase 列名及列族名長度不同寫入測(cè)試結(jié)果
表8 HBase 列名及列族名長度不同讀取測(cè)試結(jié)果
rowkey結(jié)構(gòu)設(shè)計(jì)得越離散,讀寫出吞吐量越高,速度越快。
下面以測(cè)試rowkey長度對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下,HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作同上一項(xiàng)測(cè)試步驟,重復(fù)上述步驟,分別測(cè)試在rowkey的長度為20、30在HBase分布式集群環(huán)境下的讀寫性能,測(cè)試結(jié)果如下所示。
(1)不同長度的rowkey 寫HBase性能測(cè)試
不同長度的rowkey 寫HBase性能測(cè)試結(jié)果如圖6所示。
圖6 不同長度的rowkey寫HBase性能測(cè)試結(jié)果
(2)不同長度的rowkey 讀HBase性能測(cè)試
不同長度的rowkey 讀HBase性能測(cè)試結(jié)果如圖7所示。
圖7 不同長度的rowkey讀HBase性能測(cè)試結(jié)果
rowkey的長度影響存取的性能,長度越長則性能越差。
下面以測(cè)試批量操作對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下,HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作同上項(xiàng)測(cè)試步驟,對(duì)上述表進(jìn)行讀取性能測(cè)試,測(cè)試指定rowkey方式單次讀取一條的速率,重復(fù)上述步驟,分別測(cè)試批量100條、1 000條、10 000條在HBase分布式集群環(huán)境下的讀寫性能,測(cè)試結(jié)果如下所示。
(1)不同批量操作數(shù)對(duì)HBase寫性能的影響
不同批量操作數(shù)對(duì)HBase寫性能的影響的測(cè)試結(jié)果見表9。
(2)不同批量操作數(shù)對(duì)HBase讀性能的影響
不同批量操作數(shù)對(duì)HBase讀性能的影響的測(cè)試結(jié)果見表10。
合適的批量數(shù)能夠有效提升讀寫性能,并能達(dá)到一個(gè)最優(yōu)效率。然后隨著批量數(shù)的增大,性能逐步下降。
分布式列式數(shù)據(jù)庫功能方面主要需測(cè)試分布式列式數(shù)據(jù)庫的負(fù)載均衡、數(shù)據(jù)壓縮功能。
下面以測(cè)試HBase在負(fù)載均衡方面的功能作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下,集群上已有一定數(shù)量的表(region數(shù)超過節(jié)點(diǎn)數(shù)),測(cè)試過程中新添加節(jié)點(diǎn)。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:搭建一個(gè)2個(gè)工作節(jié)點(diǎn)的分布式文件系統(tǒng)集群,并觀察region的數(shù)量及分布情況;集群新添加1個(gè)工作節(jié)點(diǎn),等待5 min(balancer默認(rèn)定期檢查時(shí)間)查看region分布情況,同2個(gè)工作節(jié)點(diǎn)的情況比較,測(cè)試結(jié)果如下所示。
表9 不同批量操作數(shù)對(duì)HBase寫性能的影響的測(cè)試結(jié)果
表10 不同批量操作數(shù)對(duì)HBase讀性能的影響的測(cè)試結(jié)果
HBase負(fù)載均衡測(cè)試結(jié)果如圖8所示。
圖8 HBase負(fù)載均衡測(cè)試結(jié)果
HBase定期檢查,并平衡各工作節(jié)點(diǎn)的region數(shù)量。
下面以測(cè)試HBase數(shù)據(jù)壓縮的功能作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)均在分布式集群下,兩次寫入數(shù)據(jù)的數(shù)據(jù)量大小一樣。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:搭建一個(gè)只有1個(gè)工作節(jié)點(diǎn)分布式文件系統(tǒng)集群;未開啟數(shù)據(jù)壓縮,新建HBase數(shù)據(jù)表,寫入一定量的數(shù)據(jù),查看集群的磁盤利用率;配置LZO數(shù)據(jù)壓縮,將相應(yīng)JAR文件放到HBase的lib文件夾下,新建HBase數(shù)據(jù)表并設(shè)置LZO數(shù)據(jù)壓縮,清空集群數(shù)據(jù),寫入相同的數(shù)據(jù),查看磁盤的利用率,測(cè)試結(jié)果如下所示。
數(shù)據(jù)壓縮的測(cè)試結(jié)果見表11。
數(shù)據(jù)壓縮功能能夠有效地壓縮數(shù)據(jù)大小,減少磁盤的空間使用。
下面以測(cè)試分布式文件系統(tǒng)的擴(kuò)展性作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性,測(cè)試節(jié)點(diǎn)均在分布式集群下,兩次寫入數(shù)據(jù)的數(shù)據(jù)量大小一樣。在統(tǒng)一的測(cè)試環(huán)境下,實(shí)施測(cè)試操作:搭建一個(gè)只有1個(gè)工作節(jié)點(diǎn)的HBase集群,觀察HBase的region的數(shù)量及分布情況;集群新添加1個(gè)工作節(jié)點(diǎn),等待5 min(balancer默認(rèn)定期檢查時(shí)間)查看region分布情況,同只有1個(gè)工作節(jié)點(diǎn)的情況比較;查看集群的可用空間,測(cè)試結(jié)果如下所示。
HBase動(dòng)態(tài)擴(kuò)展測(cè)試結(jié)果如圖9所示。
圖9 HBase動(dòng)態(tài)擴(kuò)展測(cè)試結(jié)果
HBase具備良好的擴(kuò)展性,能夠動(dòng)態(tài)增加節(jié)點(diǎn),并能保持region分布均衡和存儲(chǔ)空間的擴(kuò)容。
表11 數(shù)據(jù)壓縮的測(cè)試結(jié)果
HBase具備良好的擴(kuò)展性,能夠動(dòng)態(tài)增加節(jié)點(diǎn),并能保持region分布均衡和存儲(chǔ)空間的擴(kuò)容。集群的規(guī)模增大,在DataNode上讀取數(shù)據(jù)的性能優(yōu)勢(shì)將越來越小,因?yàn)閿?shù)據(jù)塊分布越來越稀疏,在一個(gè)數(shù)據(jù)節(jié)點(diǎn)上能夠取得的數(shù)據(jù)塊越來越少,需要通過網(wǎng)絡(luò)進(jìn)行傳輸?shù)臄?shù)據(jù)越來越多。另外,隨著集群規(guī)模的增大,客戶端讀寫的速率有遞減的趨勢(shì)。
參考文獻(xiàn):
[1]GEORGE L.HBase權(quán)威指南[M].代志遠(yuǎn), 劉佳, 蔣杰, 譯.北京: 人民郵電出版社, 2013.GEORGE L.HBase: the definitive guide[M].Translated by DAI Z Y, LIU J, JIANG J.Beijing: Posts & Telecom Press, 2013.
[2]蔡斌, 陳湘萍.Hadoop技術(shù)內(nèi)幕: 深入解析Hadoop Common和 HDFS架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京: 機(jī)械工業(yè)出版社,2013.CAI B, CHEN X P.Hadoop internals: in-depths study of common and HDFS[M].Beijing: China Machine Press, 2013.
[3]孟鑫, 馬延輝, 李立松.HBase企業(yè)應(yīng)用開發(fā)實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社, 2014.MENG X, MA Y H, LI L S.Enterprise application development with HBase[M].Beijing: China Machine Press, 2014.
[4]皮雄軍.NoSQL數(shù)據(jù)庫技術(shù)實(shí)戰(zhàn)[M].北京: 清華大學(xué)出版社, 2015.PI X J.NoSQL database technology combat[M].Beijing:Tsinghua University Press, 2015.
[5]DIMIDUK N, KHURANA A.HBase實(shí)戰(zhàn)[M].謝磊, 譯.北京: 人民郵電出版社, 2013.DIMIDUK N, KHURANA A.HBase in action[M].Translated by XIE L.Beijing: Posts & Telecom Press, 2013.
[6]蔣燚峰.HBase管理指南[M].北京: 人民郵電出版社, 2013.JIANG Y F.HBase administration cookbook[M].Beijing: Posts& Telecom Press, 2013.
[7]SHRIPARV S.Learning HBase[M].周彥偉, 婁帥, 蒲聰, 譯.北京: 電子工業(yè)出版社, 2015.SHRIPARV S.Learning HBase[M].Translated by ZHOU Y W,LOU S, PU C.Beijing: Publishing House of Electronics Industry, 2015.
[8]董西成.Hadoop技術(shù)內(nèi)幕: 深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京: 機(jī)械工業(yè)出版社, 2013.DONG X C.Hadoop internals: in-depths study of MapReduce[M].Beijing: China Machine Press, 2013.
[9]GROVER M, MALASKA T, SEIDMAN J.Hadoop應(yīng)用架構(gòu)[M].郭文超, 譯.北京: 人民郵電出版社, 2017.GROVER M, MALASKA T, SEIDMAN J.Hadoop application architecture[M].Translated by GUO W C.Beijing: Posts &Telecom Press, 2017.
[10]王雪迎.Hadoop構(gòu)建數(shù)據(jù)倉庫實(shí)踐[M].北京: 清華大學(xué)出版社, 2017.WANG X Y.Practice of Hadoop data warehouse[M].Beijing:Tsinghua University Press, 2017.
[11]WHITE T.Hadoop權(quán)威指南: 大數(shù)據(jù)的存儲(chǔ)與分析(第4版)[M].王海, 華東, 劉喻, 等譯.北京: 清華大學(xué)出版社, 2017.WHITE T.Hadoop: the definitive guide[M].Translated by WANG H, HUA D, LIU Y, et al.Beijing: Tsinghua University Press, 2017.