電網(wǎng)數(shù)據(jù)存儲(chǔ)技術(shù)選型的研究

2018-05-25 06:37:05李成嶺鄭雨翔洪祎祺李雯郭慧敏

電信科學(xué) 2018年5期

李成嶺，鄭雨翔，洪祎祺，李雯，郭慧敏

（1.國網(wǎng)上海市電力公司浦東供電公司，上海 200122；2.上海中興電力建設(shè)發(fā)展有限公司，上海 200122）

1 引言

國網(wǎng)遼寧省電力有限公司全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心數(shù)據(jù)分析域非結(jié)構(gòu)化數(shù)據(jù)接入方面涉及非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)中電子文件管理系統(tǒng)、檔案系統(tǒng)、電網(wǎng)GIS地理空間信息系統(tǒng)、營銷業(yè)務(wù)系統(tǒng)、安監(jiān)系統(tǒng)、PMS2.0、協(xié)同辦公系統(tǒng)、電力交易系統(tǒng)、ERP、計(jì)量生產(chǎn)調(diào)度平臺(tái)、營銷GIS、基建管理信息系統(tǒng)等 34個(gè)業(yè)務(wù)系統(tǒng)接入非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)的非結(jié)構(gòu)化數(shù)據(jù)。綜合考慮，主要通過測(cè)試80 GB文件的寫入、讀取場景過程中分布式文件系統(tǒng)性能各種指標(biāo)的不同數(shù)量大小，如節(jié)點(diǎn)數(shù)量的大小、備份因子的大小、數(shù)據(jù)塊的大小，對(duì)國網(wǎng)公司大數(shù)據(jù)平臺(tái)分布式文件系統(tǒng)（基于HDFS優(yōu)化封裝）的讀寫性能進(jìn)行測(cè)試。

2 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)

2.1 節(jié)點(diǎn)數(shù)量對(duì)讀寫性能的影響

下面以測(cè)試節(jié)點(diǎn)數(shù)量對(duì)分布式文件系統(tǒng)讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，所有的測(cè)試節(jié)點(diǎn)的物理配置需保持一致，且在一個(gè)分布式集群下，數(shù)據(jù)塊大小統(tǒng)一默認(rèn)為128 MB，其他參數(shù)都保持一致。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：跨節(jié)點(diǎn)遠(yuǎn)程寫入和讀取80 GB文件，分別記錄耗時(shí)；分別在不同工作節(jié)點(diǎn)上本地寫入和讀取80 GB文件，分別記錄耗時(shí)；重復(fù)以上步驟，分別測(cè)試2個(gè)、3個(gè)DataNode的HDFS集群環(huán)境，跨節(jié)點(diǎn)遠(yuǎn)程寫入文件、節(jié)點(diǎn)本地寫入文件耗時(shí)，測(cè)試結(jié)果如下所示。

（1）1個(gè)DataNode的HDFS集群

1個(gè)DataNode的HDFS集群的測(cè)試結(jié)果見表1。

（2）2個(gè)DataNode的HDFS集群

2個(gè)DataNode的HDFS集群的測(cè)試結(jié)果見表2。

（3）3個(gè)DataNode的HDFS集群

3個(gè)DataNode的HDFS集群的測(cè)試結(jié)果見表3。

集群的規(guī)模增大，在DataNode上讀取數(shù)據(jù)的性能優(yōu)勢(shì)將越來越小，因?yàn)閿?shù)據(jù)塊分布越來越稀疏，在一個(gè)數(shù)據(jù)節(jié)點(diǎn)上能夠取得的數(shù)據(jù)塊越來越少，需要通過網(wǎng)絡(luò)進(jìn)行傳輸?shù)臄?shù)據(jù)越來越多。另外，隨著集群規(guī)模的增大，客戶端讀寫的速率有遞減的趨勢(shì)。

表1 1個(gè)DataNode的HDFS集群的測(cè)試結(jié)果

表3 3個(gè)DataNode的HDFS集群的測(cè)試結(jié)果

2.2 備份因子數(shù)對(duì)讀寫性能的影響

下面以測(cè)試備份因子數(shù)對(duì)分布式文件系統(tǒng)讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，所有的測(cè)試節(jié)點(diǎn)的物理配置需保持一致，節(jié)點(diǎn)數(shù)量為3。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：設(shè)置備份因子數(shù)為1，跨節(jié)點(diǎn)遠(yuǎn)程寫入和讀取80 GB文件，分別記錄耗時(shí)；分別在不同工作節(jié)點(diǎn)上本地寫入和讀取80 GB文件，分別記錄耗時(shí)；重復(fù)以上步驟，分別測(cè)試備份因子為2、3的HDFS集群環(huán)境中跨節(jié)點(diǎn)遠(yuǎn)程讀寫文件、節(jié)點(diǎn)本地讀寫文件耗時(shí)，測(cè)試結(jié)果如下所示。

（4）備份因子為1～3情況下的寫性能測(cè)試

備份因子為 1～3情況下的寫性能測(cè)試結(jié)果見表4。

（2）備份因子為1～3下的讀性能測(cè)試

備份因子為 1～3情況下的讀性能測(cè)試結(jié)果見表5。

備份因子的改變不影響客戶端的讀寫性能，客戶端的 I/O瓶頸依然是交換機(jī)的傳輸速率。備份因子數(shù)增加時(shí)，客戶端寫的時(shí)間有小幅度的增加，這是因?yàn)橐淹粋€(gè)塊寫到不同的機(jī)器上，增加了寫的開銷。備份因子的增加使本地寫文件性能下降，本地讀文件性能提高。

表4 備份因子為1～3情況下的寫性能測(cè)試結(jié)果

表5 備份因子為1～3情況下的讀性能測(cè)試結(jié)果

2.3 數(shù)據(jù)塊大小對(duì)寫入性能的影響

下面以測(cè)試數(shù)據(jù)塊的大小對(duì)分布式文件系統(tǒng)讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，同上一項(xiàng)測(cè)試設(shè)置相同，節(jié)點(diǎn)數(shù)量為3個(gè)，備份數(shù)為3。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：設(shè)置設(shè)置塊大小為4 MB，跨節(jié)點(diǎn)遠(yuǎn)程寫入80 GB文件，記錄耗時(shí)；重復(fù)以上步驟，分別測(cè)試備份因子為4 MB、8 MB、16 MB、32 MB、64 MB、128 MB、256 MB、512 MB、1 024 MB時(shí)的HDFS集群環(huán)境，跨節(jié)點(diǎn)遠(yuǎn)程讀寫文件、節(jié)點(diǎn)本地讀寫文件耗時(shí)，測(cè)試結(jié)果如下所示。

經(jīng)測(cè)試，當(dāng)數(shù)據(jù)塊逐漸增大，寫入時(shí)間在總體上是一個(gè)遞減的趨勢(shì)，但當(dāng)塊增大到一定程度之后，寫入時(shí)間趨于平穩(wěn)，即數(shù)據(jù)塊的增大只能在一定的范圍內(nèi)影響HDFS的讀寫性能，如果把數(shù)據(jù)塊的大小設(shè)置為更大的，那對(duì)性能的影響就微乎其微。

分布式文件系統(tǒng)功能方面主要需測(cè)試分布式文件系統(tǒng)的負(fù)載均衡、節(jié)點(diǎn)動(dòng)態(tài)拓展。

2.4 負(fù)載均衡

下面以測(cè)試分布式文件系統(tǒng)負(fù)載均衡的功能作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下，集群上已有一定數(shù)據(jù)存儲(chǔ)負(fù)載，測(cè)試新添節(jié)點(diǎn)后執(zhí)行負(fù)載均衡。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：搭建一個(gè)2個(gè)節(jié)點(diǎn)的 HDFS統(tǒng)集群；寫入一定量數(shù)據(jù)，查看HDFS監(jiān)控頁面，查看并記錄每個(gè)節(jié)點(diǎn)中塊的數(shù)量；集群新添加一個(gè)節(jié)點(diǎn)，執(zhí)行負(fù)載均衡命令，過20 min后，查看每個(gè)節(jié)點(diǎn)中塊的數(shù)量；多次執(zhí)行負(fù)載均衡，過20 min后，查看每個(gè)節(jié)點(diǎn)塊的數(shù)量測(cè)試結(jié)果如下所示。

（1）新增測(cè)試節(jié)點(diǎn)前每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況

搭建的兩個(gè)節(jié)點(diǎn)：BG8S01和BG8S03，新增測(cè)試節(jié)點(diǎn)前每個(gè)節(jié)點(diǎn)中塊的數(shù)量分別為458和457。

（2）新增節(jié)點(diǎn)后，執(zhí)行負(fù)載均衡每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況

新增節(jié)點(diǎn)后，執(zhí)行負(fù)載均衡每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況如圖1所示。

圖1 執(zhí)行負(fù)載均衡每個(gè)節(jié)點(diǎn)中塊的數(shù)量情況

負(fù)載均衡的目的雖然是平衡數(shù)據(jù)，但它并不追求畢其功于一役，而是事先設(shè)定目標(biāo)，每一次執(zhí)行只實(shí)現(xiàn)預(yù)設(shè)目標(biāo)，即只是縮小了過載/負(fù)載節(jié)點(diǎn)與集群平均使用率的差值，而通過反復(fù)多次的執(zhí)行使集群內(nèi)的數(shù)據(jù)逐漸趨于均衡?？梢姡植际轿募到y(tǒng)能通過搭建分布式節(jié)點(diǎn)實(shí)現(xiàn)系統(tǒng)的負(fù)載均衡。

2.5 節(jié)點(diǎn)動(dòng)態(tài)拓展

分布式文件系統(tǒng)具備良好的擴(kuò)展性，能夠動(dòng)態(tài)增加節(jié)點(diǎn)，并能保持?jǐn)?shù)據(jù)的分布均衡和存儲(chǔ)空間的擴(kuò)容。

3 實(shí)時(shí)數(shù)據(jù)存儲(chǔ)

大數(shù)據(jù)平臺(tái)分布式列式數(shù)據(jù)庫基于 Hadoop HBase優(yōu)化封裝，HBase是基于Hadoop的NoSQL數(shù)據(jù)庫，能夠?yàn)榇髷?shù)據(jù)提供實(shí)時(shí)的讀/寫操作，能夠利用 HDFS的分布式處理模式，并通過MapReduce獲取強(qiáng)大的離線處理或批量處理能力，同時(shí)能夠融合key/value存儲(chǔ)模式，以實(shí)現(xiàn)實(shí)時(shí)查詢能力。HBase是一個(gè)分布式、可擴(kuò)展、面向列的數(shù)據(jù)庫，因此可部署在廉價(jià)的PC服務(wù)器集群上處理大規(guī)模的海量數(shù)據(jù)。

3.1 節(jié)點(diǎn)數(shù)量對(duì)讀寫性能的影響

下面以測(cè)試節(jié)點(diǎn)數(shù)量對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，節(jié)點(diǎn)的物理配置一致，測(cè)試節(jié)點(diǎn)在同一個(gè)分布式集群下；HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：寫入1 000萬條數(shù)據(jù)，其中，每條數(shù)據(jù)300 byte；rowkey為散列值，長度為12；列族下有3個(gè)字段，字段名分別為TN、MP、TO。完成寫入后，計(jì)算寫入總時(shí)間；對(duì)上述表進(jìn)行讀取性能測(cè)試，測(cè)試指定rowkey方式單次讀取的速率；重復(fù)上述步驟，分別測(cè)試在2、3個(gè)工作節(jié)點(diǎn)的 HBase分布式集群環(huán)境下的讀寫性能，測(cè)試結(jié)果如下所示。

表6 HBase寫入數(shù)據(jù)測(cè)試結(jié)果

（1）HBase寫入數(shù)據(jù)測(cè)試

HBase寫入數(shù)據(jù)測(cè)試結(jié)果見表6。

（2）HBase讀取數(shù)據(jù)測(cè)試

HBase讀取數(shù)據(jù)測(cè)試結(jié)果如圖2所示。

圖2 HBase讀取數(shù)據(jù)測(cè)試結(jié)果

隨著集群的規(guī)模增大，HBase寫入性能呈線性遞增，單次rowkey讀取的速率近似相等。

3.2 列族數(shù)量對(duì)讀寫性能的影響

下面以測(cè)試列族數(shù)量對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，節(jié)點(diǎn)的物理配置一致，測(cè)試節(jié)點(diǎn)在同一個(gè)分布式集群下；HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作如同上一項(xiàng)測(cè)試步驟，測(cè)試結(jié)果如下所示。

（1）HBase寫入性能測(cè)試

HBase寫入性能測(cè)試結(jié)果如圖3所示。

圖3 HBase寫入性能測(cè)試結(jié)果

列族的數(shù)量影響寫入的性能，數(shù)量越多則寫入性能越差。在相同列族上的讀取性能差別不大，如果跨列族讀取，列族數(shù)量越多則讀取性能越差。

3.3 列名及列族名長度對(duì)讀寫性能的影響

下面以測(cè)試列名及列族名長度對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)在 1個(gè)分布式集群下，HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：搭建一個(gè)3個(gè)工作節(jié)點(diǎn)的HBase分布式集群環(huán)境；新建一張列族名長度為一個(gè)字符的HBase列族表，寫入1 000萬條數(shù)據(jù)，其中，每條數(shù)據(jù)300 byte；rowkey為散列值，長度為12；列族下有1個(gè)字段，字段名長度為1個(gè)字符。完成寫入后，計(jì)算寫入總時(shí)間；對(duì)上述表進(jìn)行讀取性能測(cè)試，測(cè)試指定rowkey方式單次讀取的速率；重復(fù)上述步驟，分別測(cè)試在列族明長度為1，列名長度為2、3；以及列名長度為1，列族名長度為2、3的HBase分布式集群環(huán)境下的讀寫性能，測(cè)試結(jié)果如下所示。

（1）HBase 列名及列族名長度不同寫入測(cè)試

HBase 列名及列族名長度不同寫入測(cè)試結(jié)果見表7。

（2）HBase 列名及列族名長度不同讀取測(cè)試

HBase 列名及列族名長度不同讀取測(cè)試結(jié)果見表8。

列名、列族名的長度影響HBase的讀寫性能，長度越長則性能越差。

3.4 rowkey結(jié)構(gòu)對(duì)讀寫性能的影響

下面以測(cè)試rowkey組成結(jié)構(gòu)對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下，HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：搭建一個(gè)3個(gè)工作節(jié)點(diǎn)的HBase分布式集群環(huán)境；新建一張只有一個(gè)列族，列族名長度為一個(gè)字符的HBase表；寫入1 000萬條數(shù)據(jù)，其中，每條數(shù)據(jù)300 byte；rowkey為流水號(hào)散列值，長度為12；列族下有1個(gè)字段，字段名長度為1個(gè)字符。完成寫入后，計(jì)算寫入總時(shí)間；對(duì)上述表進(jìn)行讀取性能測(cè)試，測(cè)試指定rowkey方式單次讀取的速率；重復(fù)上述步驟，分別測(cè)試rowkey的結(jié)構(gòu)為不散列時(shí)在HBase分布式集群環(huán)境下的讀寫性能，測(cè)試結(jié)果如下所示。

（1）不同結(jié)構(gòu)的rowkey寫HBase性能測(cè)試

不同結(jié)構(gòu)的rowkey寫HBase性能測(cè)試結(jié)果如圖4所示。

圖4 不同結(jié)構(gòu)的rowkey寫HBase性能測(cè)試結(jié)果

（2）不同結(jié)構(gòu)的rowkey 讀HBase性能測(cè)試

不同結(jié)構(gòu)的rowkey讀HBase性能測(cè)試結(jié)果如圖5所示。

圖5 不同結(jié)構(gòu)的rowkey讀HBase性能測(cè)試結(jié)果

表7 HBase 列名及列族名長度不同寫入測(cè)試結(jié)果

表8 HBase 列名及列族名長度不同讀取測(cè)試結(jié)果

rowkey結(jié)構(gòu)設(shè)計(jì)得越離散，讀寫出吞吐量越高，速度越快。

3.5 rowkey長度對(duì)讀寫性能的影響

下面以測(cè)試rowkey長度對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下，HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作同上一項(xiàng)測(cè)試步驟，重復(fù)上述步驟，分別測(cè)試在rowkey的長度為20、30在HBase分布式集群環(huán)境下的讀寫性能，測(cè)試結(jié)果如下所示。

（1）不同長度的rowkey 寫HBase性能測(cè)試

不同長度的rowkey 寫HBase性能測(cè)試結(jié)果如圖6所示。

圖6 不同長度的rowkey寫HBase性能測(cè)試結(jié)果

（2）不同長度的rowkey 讀HBase性能測(cè)試

不同長度的rowkey 讀HBase性能測(cè)試結(jié)果如圖7所示。

圖7 不同長度的rowkey讀HBase性能測(cè)試結(jié)果

rowkey的長度影響存取的性能，長度越長則性能越差。

3.6 批量操作對(duì)讀寫性能的影響

下面以測(cè)試批量操作對(duì)HBase讀寫性能的影響作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下，HBase配置參數(shù)均為默認(rèn)值。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作同上項(xiàng)測(cè)試步驟，對(duì)上述表進(jìn)行讀取性能測(cè)試，測(cè)試指定rowkey方式單次讀取一條的速率，重復(fù)上述步驟，分別測(cè)試批量100條、1 000條、10 000條在HBase分布式集群環(huán)境下的讀寫性能，測(cè)試結(jié)果如下所示。

（1）不同批量操作數(shù)對(duì)HBase寫性能的影響

不同批量操作數(shù)對(duì)HBase寫性能的影響的測(cè)試結(jié)果見表9。

（2）不同批量操作數(shù)對(duì)HBase讀性能的影響

不同批量操作數(shù)對(duì)HBase讀性能的影響的測(cè)試結(jié)果見表10。

合適的批量數(shù)能夠有效提升讀寫性能，并能達(dá)到一個(gè)最優(yōu)效率。然后隨著批量數(shù)的增大，性能逐步下降。

分布式列式數(shù)據(jù)庫功能方面主要需測(cè)試分布式列式數(shù)據(jù)庫的負(fù)載均衡、數(shù)據(jù)壓縮功能。

3.7 負(fù)載均衡

下面以測(cè)試HBase在負(fù)載均衡方面的功能作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)在1個(gè)分布式集群下，集群上已有一定數(shù)量的表（region數(shù)超過節(jié)點(diǎn)數(shù)），測(cè)試過程中新添加節(jié)點(diǎn)。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：搭建一個(gè)2個(gè)工作節(jié)點(diǎn)的分布式文件系統(tǒng)集群，并觀察region的數(shù)量及分布情況；集群新添加1個(gè)工作節(jié)點(diǎn)，等待5 min（balancer默認(rèn)定期檢查時(shí)間）查看region分布情況，同2個(gè)工作節(jié)點(diǎn)的情況比較，測(cè)試結(jié)果如下所示。

表9 不同批量操作數(shù)對(duì)HBase寫性能的影響的測(cè)試結(jié)果

表10 不同批量操作數(shù)對(duì)HBase讀性能的影響的測(cè)試結(jié)果

HBase負(fù)載均衡測(cè)試結(jié)果如圖8所示。

圖8 HBase負(fù)載均衡測(cè)試結(jié)果

HBase定期檢查，并平衡各工作節(jié)點(diǎn)的region數(shù)量。

3.8 數(shù)據(jù)壓縮

下面以測(cè)試HBase數(shù)據(jù)壓縮的功能作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)均在分布式集群下，兩次寫入數(shù)據(jù)的數(shù)據(jù)量大小一樣。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：搭建一個(gè)只有1個(gè)工作節(jié)點(diǎn)分布式文件系統(tǒng)集群；未開啟數(shù)據(jù)壓縮，新建HBase數(shù)據(jù)表，寫入一定量的數(shù)據(jù)，查看集群的磁盤利用率；配置LZO數(shù)據(jù)壓縮，將相應(yīng)JAR文件放到HBase的lib文件夾下，新建HBase數(shù)據(jù)表并設(shè)置LZO數(shù)據(jù)壓縮，清空集群數(shù)據(jù)，寫入相同的數(shù)據(jù)，查看磁盤的利用率，測(cè)試結(jié)果如下所示。

數(shù)據(jù)壓縮的測(cè)試結(jié)果見表11。

數(shù)據(jù)壓縮功能能夠有效地壓縮數(shù)據(jù)大小，減少磁盤的空間使用。

3.9 節(jié)點(diǎn)動(dòng)態(tài)擴(kuò)展

下面以測(cè)試分布式文件系統(tǒng)的擴(kuò)展性作為用例來說明。為保障測(cè)試結(jié)果的準(zhǔn)確性，測(cè)試節(jié)點(diǎn)均在分布式集群下，兩次寫入數(shù)據(jù)的數(shù)據(jù)量大小一樣。在統(tǒng)一的測(cè)試環(huán)境下，實(shí)施測(cè)試操作：搭建一個(gè)只有1個(gè)工作節(jié)點(diǎn)的HBase集群，觀察HBase的region的數(shù)量及分布情況；集群新添加1個(gè)工作節(jié)點(diǎn)，等待5 min（balancer默認(rèn)定期檢查時(shí)間）查看region分布情況，同只有1個(gè)工作節(jié)點(diǎn)的情況比較；查看集群的可用空間，測(cè)試結(jié)果如下所示。

HBase動(dòng)態(tài)擴(kuò)展測(cè)試結(jié)果如圖9所示。

圖9 HBase動(dòng)態(tài)擴(kuò)展測(cè)試結(jié)果

HBase具備良好的擴(kuò)展性，能夠動(dòng)態(tài)增加節(jié)點(diǎn)，并能保持region分布均衡和存儲(chǔ)空間的擴(kuò)容。

表11 數(shù)據(jù)壓縮的測(cè)試結(jié)果

4 結(jié)束語

HBase具備良好的擴(kuò)展性，能夠動(dòng)態(tài)增加節(jié)點(diǎn)，并能保持region分布均衡和存儲(chǔ)空間的擴(kuò)容。集群的規(guī)模增大，在DataNode上讀取數(shù)據(jù)的性能優(yōu)勢(shì)將越來越小，因?yàn)閿?shù)據(jù)塊分布越來越稀疏，在一個(gè)數(shù)據(jù)節(jié)點(diǎn)上能夠取得的數(shù)據(jù)塊越來越少，需要通過網(wǎng)絡(luò)進(jìn)行傳輸?shù)臄?shù)據(jù)越來越多。另外，隨著集群規(guī)模的增大，客戶端讀寫的速率有遞減的趨勢(shì)。

參考文獻(xiàn)：

[1]GEORGE L.HBase權(quán)威指南[M].代志遠(yuǎn), 劉佳, 蔣杰, 譯.北京：人民郵電出版社, 2013.GEORGE L.HBase： the definitive guide[M].Translated by DAI Z Y, LIU J, JIANG J.Beijing： Posts & Telecom Press, 2013.

[2]蔡斌, 陳湘萍.Hadoop技術(shù)內(nèi)幕：深入解析Hadoop Common和 HDFS架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京：機(jī)械工業(yè)出版社,2013.CAI B, CHEN X P.Hadoop internals： in-depths study of common and HDFS[M].Beijing： China Machine Press, 2013.

[3]孟鑫, 馬延輝, 李立松.HBase企業(yè)應(yīng)用開發(fā)實(shí)戰(zhàn)[M].北京：機(jī)械工業(yè)出版社, 2014.MENG X, MA Y H, LI L S.Enterprise application development with HBase[M].Beijing： China Machine Press, 2014.

[4]皮雄軍.NoSQL數(shù)據(jù)庫技術(shù)實(shí)戰(zhàn)[M].北京：清華大學(xué)出版社, 2015.PI X J.NoSQL database technology combat[M].Beijing：Tsinghua University Press, 2015.

[5]DIMIDUK N, KHURANA A.HBase實(shí)戰(zhàn)[M].謝磊, 譯.北京：人民郵電出版社, 2013.DIMIDUK N, KHURANA A.HBase in action[M].Translated by XIE L.Beijing： Posts & Telecom Press, 2013.

[6]蔣燚峰.HBase管理指南[M].北京：人民郵電出版社, 2013.JIANG Y F.HBase administration cookbook[M].Beijing： Posts& Telecom Press, 2013.

[7]SHRIPARV S.Learning HBase[M].周彥偉, 婁帥, 蒲聰, 譯.北京：電子工業(yè)出版社, 2015.SHRIPARV S.Learning HBase[M].Translated by ZHOU Y W,LOU S, PU C.Beijing： Publishing House of Electronics Industry, 2015.

[8]董西成.Hadoop技術(shù)內(nèi)幕：深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京：機(jī)械工業(yè)出版社, 2013.DONG X C.Hadoop internals： in-depths study of MapReduce[M].Beijing： China Machine Press, 2013.

[9]GROVER M, MALASKA T, SEIDMAN J.Hadoop應(yīng)用架構(gòu)[M].郭文超, 譯.北京：人民郵電出版社, 2017.GROVER M, MALASKA T, SEIDMAN J.Hadoop application architecture[M].Translated by GUO W C.Beijing： Posts &Telecom Press, 2017.

[10]王雪迎.Hadoop構(gòu)建數(shù)據(jù)倉庫實(shí)踐[M].北京：清華大學(xué)出版社, 2017.WANG X Y.Practice of Hadoop data warehouse[M].Beijing：Tsinghua University Press, 2017.

[11]WHITE T.Hadoop權(quán)威指南：大數(shù)據(jù)的存儲(chǔ)與分析(第4版)[M].王海, 華東, 劉喻, 等譯.北京：清華大學(xué)出版社, 2017.WHITE T.Hadoop： the definitive guide[M].Translated by WANG H, HUA D, LIU Y, et al.Beijing： Tsinghua University Press, 2017.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡