国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究

2019-09-10 16:55:56郭強
現(xiàn)代信息科技 2019年3期

摘 要:重復(fù)數(shù)據(jù)刪除技術(shù)和云計算技術(shù)正在快速發(fā)展,但是Hadoop系統(tǒng)也仍然存在一些影響系統(tǒng)歸檔處理效率的因素。針對這個問題,文章提出一種新的增量指紋算法和改進TTTD算法——TDOB,并將這類算法應(yīng)用到Hadoop分布式系統(tǒng)中,分析重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop中的應(yīng)用。

關(guān)鍵詞:Hadoop;重復(fù)數(shù)據(jù)刪除技術(shù);TDOB算法

中圖分類號:TP309.3 文獻標(biāo)識碼:A 文章編號:2096-4706(2019)03-0142-03

Research on Duplicate Data Deletion Technology Based on Hadoop

GUO Qiang

(Department of Management,Liaoning Normal University Haihua College,Shenyang 110167,China)

Abstract:Duplicate data deletion technology and cloud computing technology are developing rapidly,but there are still some factors that affect the efficiency of archiving processing in Hadoop system. In order to solve this problem,a new incremental fingerprint algorithm and an improved TTTD algorithm——TDOB are proposed and applied to Hadoop distributed system. The application of repeated data deletion in Hadoop is analyzed.

Keywords:Hadoop;repeat data delete technology;TDOB algorithm

0 引 言

重復(fù)數(shù)據(jù)刪除技術(shù)是數(shù)據(jù)清理中的一種技術(shù)形式,也屬于數(shù)據(jù)挖掘的一種,這項技術(shù)的應(yīng)用能夠在一定程度上刪除掉重復(fù)的數(shù)據(jù)信息,保證數(shù)據(jù)信息的正確率。重復(fù)數(shù)據(jù)刪除技術(shù)作為一種處理數(shù)據(jù)信息的有效技術(shù)形式得到了人們的關(guān)注,但是其中臟數(shù)據(jù)的處理比較麻煩,是重復(fù)數(shù)據(jù)刪除技術(shù)應(yīng)用的難點問題。在這樣的需求下出現(xiàn)了Hadoop數(shù)據(jù)刪除處理模式,這類模式能夠允許用戶快速編寫出高效并行代碼,實現(xiàn)對數(shù)據(jù)的線性拓展。因此,文章就基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)應(yīng)用問題展開探究。

1 重復(fù)數(shù)據(jù)刪除技術(shù)

隨著企業(yè)信息量的不斷增加,企業(yè)發(fā)展對數(shù)據(jù)信息傳輸率也提出了更高的要求,在這樣的發(fā)展要求下數(shù)據(jù)中心面臨大量存儲空間和高寬帶網(wǎng)絡(luò)信息傳輸?shù)碾p重挑戰(zhàn)。有關(guān)學(xué)者研究提出了重復(fù)數(shù)據(jù)刪除技術(shù)。重復(fù)數(shù)據(jù)刪除技術(shù)是在現(xiàn)有存儲技術(shù)的基礎(chǔ)上發(fā)展起來的一種技術(shù)形式,和以往的數(shù)據(jù)壓縮技術(shù)相比,重復(fù)數(shù)據(jù)刪除技術(shù)在使用的過程中能夠刪除數(shù)據(jù)系統(tǒng)中冗雜的數(shù)據(jù)信息。

按照重復(fù)數(shù)據(jù)刪除操作力度的不同,可以將重復(fù)數(shù)據(jù)刪除具體分為文件級、數(shù)據(jù)塊級、字節(jié)級三種類型的重復(fù)數(shù)據(jù)刪除。

第一,文件級重復(fù)數(shù)據(jù)刪除。重復(fù)數(shù)據(jù)刪除技術(shù)的去重效率和檢測重復(fù)數(shù)據(jù)的粒度存在密切的關(guān)聯(lián),在一般情況下,處理的粒度越精細,刪除的冗余信息也將會越多,數(shù)據(jù)信息存儲效率也會在最大限度上得到提升。文件級的刪除是對需要存儲文件的匹配和查重,在具體研究中以文件粒度作為基本處理對象,在由哈希算法計算得到指紋信息之后,將指紋和已有的文件指紋庫進行匹配分析,在匹配分析之后系統(tǒng)會僅僅保存一個指針來代表文件,如果匹配失敗則會對這個文件進行存儲處理。在應(yīng)用這種方法的時候不需要對文件進行數(shù)據(jù)庫的劃分,在一定程度上降低了CPU和RAM的開銷,具有操作簡單、方便、快捷的特點。第二,數(shù)據(jù)塊級重復(fù)數(shù)據(jù)刪除技術(shù)。數(shù)據(jù)塊級的刪除主要是對存儲的數(shù)據(jù)進行分塊,是存儲唯一性的數(shù)據(jù)段。這類技術(shù)會對文件按照數(shù)據(jù)塊粒度進行劃分,借助哈希函數(shù)來獲得這個數(shù)據(jù)塊的指紋。第三,字節(jié)刪除。字節(jié)級刪除主要是針對字節(jié)進行查重檢測。重復(fù)數(shù)據(jù)刪除技術(shù)憑借自身數(shù)據(jù)縮減的優(yōu)勢能夠?qū)崿F(xiàn)對現(xiàn)有存儲系統(tǒng)的改進和優(yōu)化,進而有效消除冗雜的數(shù)據(jù)信息的,提升整個系統(tǒng)存儲空間的資源利用率。

2 Hadoop平臺關(guān)鍵技術(shù)

2.1 Hadoop平臺的基本介紹

Hadoop是一個在大型集群廉價硬件設(shè)備上運行的分布式計算系統(tǒng),具體由Hadoop Common、HDFS和Map-Reduce組成。其中,Hadoop Common是Hadoop的核心,也是其他子項目產(chǎn)生和發(fā)展的根基,為其他子項目的有效應(yīng)用提供重要工具支持。HDFS具有高伸縮性、高容錯性的優(yōu)勢,在使用的過程中運行用戶部署在一般的PC機上,在無形中節(jié)省了資源。MapReduce分布式編程模型允許開發(fā)人員在不了解底層具體細節(jié)的情況下進行分布開發(fā),繼而輕松組織各類計算機資源,打造分布式信息處理平臺,并應(yīng)用分布式集群計算機系統(tǒng)來實現(xiàn)對大量數(shù)據(jù)信息的處理。

HDFS的處理流程如下:首先,Client生成對象實例,結(jié)合實例打開文件。其次,DistributedFileSystem向Name-Node發(fā)出請求,掌握數(shù)據(jù)模塊基本信息。再次,在獲取數(shù)據(jù)位置信息之后生成對象實例,讀取文件內(nèi)容。Client向DFSInputStream發(fā)出讀取數(shù)據(jù)的的調(diào)用命令。最后,在收到命令指令之后讀取數(shù)據(jù)信息。

HDFS的文件寫入流程如下:首先,應(yīng)用HDFS系統(tǒng)支持下的客戶端開發(fā)庫來向遠程系統(tǒng)發(fā)送RPS請求。其次,NameNode在檢查文件被創(chuàng)立之后要對文件進行單獨記錄,從而使得整個系統(tǒng)避免出現(xiàn)客戶端非正常的情況。接著,在客戶端開始寫入文件的時候開發(fā)庫Clinet會把文件具體劃分為多個類型,將這些文件分別存儲到指定的文件列表中。最后,在DateNode中寫入packet之后返回信息,通過管道將各類信息傳遞到客戶端中。

2.2 MapReduce(MR)的計算

MR能夠為Hadoop平臺上的數(shù)據(jù)處理提供一種并行計算模式,在對數(shù)據(jù)進行具體處理的時候會分為Map和Reduce兩部分。MR的作業(yè)流程如下:首先,用戶結(jié)合接口創(chuàng)建JobClient實例,并向JobTracker請求作業(yè)ID,同時檢查作業(yè)指令文件輸入信息和目錄是否正確,如果正確則將作業(yè)運行所需要的文件信息存儲到指定系統(tǒng)中。其次,作業(yè)初始化處理。應(yīng)用作業(yè)調(diào)度器處理系統(tǒng)中的各類文件信息,創(chuàng)建和JobInProgress實例對應(yīng)的TaskInProgress實例來監(jiān)控和調(diào)度Map任務(wù)。再次,Map和Reduce任務(wù)的執(zhí)行。創(chuàng)建一個TaskInProgress實例監(jiān)控各類調(diào)度任務(wù),將作業(yè)文件從分布式系統(tǒng)中抽離出來復(fù)制到本地目錄上。通過創(chuàng)建的實例執(zhí)行Map的任務(wù)。在Map的任務(wù)完成一部分之后分配Reduce任務(wù)。最后,作業(yè)完成。ReduceTask工作完成之后文件信息被匯總成一個輸出文件,在一系列操作完成之后系統(tǒng)會顯示“完成”。

2.3 HBase

HBase是一種高性能、高可靠性、可伸縮的分布式數(shù)據(jù)信息,在具體操作中,HBse和一般關(guān)系型數(shù)據(jù)庫相比更加適合被應(yīng)用到非結(jié)構(gòu)化的數(shù)據(jù)存儲中。在其技術(shù)的作用下能夠在計算機系統(tǒng)上打造一個大規(guī)模結(jié)構(gòu)化的存儲集散。其特點具體體現(xiàn)在以下幾個方面:第一,表容量大。它的容量大,一個表的容量達到了成千上百萬列。第二,面向列。面向列的存儲和基本權(quán)限受到外界多種因素的限制,在這樣的情況下想要充分發(fā)揮出自身的作用需要打造一個獨立的檢索系統(tǒng)。第三,稀疏。對于空列往往不需要占據(jù)存儲空間,因而表的設(shè)計十分稀疏。

3 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺上的應(yīng)用

3.1 系統(tǒng)架構(gòu)

應(yīng)用C/S架構(gòu)打造重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺上應(yīng)用的基本模型,在具體操作中通過客戶端和服務(wù)器之間的交互來實現(xiàn)文件信息在HDFS中的存儲,每一個模塊的具體功能如下:第一,分塊引擎。分塊引擎負責(zé)應(yīng)用改進的TD算法來對上傳的數(shù)據(jù)塊進行分塊處理,進而對分得的數(shù)據(jù)塊應(yīng)用CubeHash算法計算對應(yīng)的哈希值,最后,將模塊的哈希值、數(shù)據(jù)長度、文件偏移信息量等上傳到服務(wù)器終端。第二,存儲引擎。存儲引擎用來接收從客戶端傳遞來的數(shù)據(jù),具體包含哈希值、偏移量、數(shù)據(jù)塊長度等數(shù)據(jù)信息,結(jié)合數(shù)據(jù)信息的類型將其放置到搜引表中進行匹配處理。第三,元數(shù)據(jù)存儲器。元數(shù)據(jù)存儲器主要用來存儲元數(shù)據(jù)和備份文件。第四,數(shù)據(jù)存儲器。數(shù)據(jù)存儲器用來存儲文件中不重復(fù)的數(shù)據(jù)信息。第五,索引表。索引表被存儲在系統(tǒng)數(shù)據(jù)模塊中,能夠?qū)V?、?shù)據(jù)塊指針數(shù)量進行記錄。

3.2 文件存取操作

第一,文件存儲。和HDFS文件存儲相比需要在數(shù)據(jù)存儲之前進行重復(fù)數(shù)據(jù)刪除操作,即在存儲文件的時候要區(qū)分源數(shù)據(jù)文件、鏈接文件,然后根據(jù)解析來獲得所需要訪問的文件信息。首先,應(yīng)用分塊引擎系統(tǒng)模塊來對系統(tǒng)上傳的數(shù)據(jù)信息進行分塊處理,在對系統(tǒng)信息進行分塊處理之后得到一個大小、長度不等的數(shù)據(jù)塊。其次,將分析獲取的數(shù)據(jù)塊信息以列表或者文件云形式共享到服務(wù)器的移動終端,服務(wù)器終端接收從客戶端上獲取的數(shù)據(jù)信息。再次,讀取文件元數(shù)據(jù)信息,結(jié)合這些信息打造鏈接文件對象、源數(shù)據(jù)文件。最后,讀取數(shù)據(jù)庫信息,在HBase索引中尋找數(shù)據(jù)庫的哈希值,在找到哈希值之后以其中的被指向數(shù)據(jù)塊數(shù)加1;如果沒有找到,需要在非重復(fù)的數(shù)據(jù)塊中添加該數(shù)據(jù)庫列表的偏移數(shù)值,并計算出數(shù)據(jù)塊的邏輯地址。第二,文件讀取。文件的讀取關(guān)鍵是分析和讀取各類鏈接文件,在分析鏈接文件的情況下來得到對應(yīng)的數(shù)據(jù)塊邏輯地址和數(shù)據(jù)庫信息模型,之后按照邏輯地址讀取數(shù)據(jù)塊信息。文件的讀取流程如下:首先,在客戶端系統(tǒng)中輸入所需要訪問的文件的URI;其次,NameNode通過輸入URI讀取和獲取鏈接文件;接下來,解析鏈接文件。根據(jù)解析鏈接文件來獲取數(shù)據(jù)塊邏輯地址的集合。最后,將讀取之后的數(shù)據(jù)塊文件進行拼接。第三,文件的刪除?;贖DFS是一次性存儲數(shù)據(jù)、多次讀取,且之后不能夠隨意修改。因而在執(zhí)行文件刪除操作的時候只需要刪除鏈接文件即可。

3.3 文件存取性能優(yōu)化

第一,提升索引查找速度。在系統(tǒng)數(shù)據(jù)信息數(shù)量不斷增加的情況下,相應(yīng)的數(shù)據(jù)索引記錄表數(shù)量也會增加,在處理繁瑣數(shù)據(jù)信息的過程中會在一定程度上降低索引表達速率。針對這個問題,需要在重復(fù)數(shù)據(jù)刪除系統(tǒng)中應(yīng)用布隆過濾器來提升哈希值的分析速度。布隆過濾器的使用原理如下:在布隆過濾器的應(yīng)用中如果能夠找到對應(yīng)的哈希值,那么則證明哈希值存在于索引表中。在這樣的情況下,需要相關(guān)人員及時查看索引表的信息,在查找索引表信息之后如果無法找到索引的規(guī)律則證明索引表中不存在哈希值。但是從實際使用情況來看,布隆過濾器的使用需要隨著索引表內(nèi)容的更新而進行更新,在這個過程中會損耗大量的資源,且隨著需要處理數(shù)據(jù)信息量的增加,布隆過濾器也會加大,索引工作效率降低。為此,文章在布隆過濾器應(yīng)用基礎(chǔ)上應(yīng)用生成高頻標(biāo)策略來優(yōu)化索引表,詳細的優(yōu)化流程如下所示:首先,應(yīng)用MapReduce對HBase中的索引表中的數(shù)據(jù)進行處理,之后得到鍵值對列表。其次,應(yīng)用得到的鍵值對列表按照從大到小的順序來選擇一個閾值。最后,查看索引表的每一條記錄,將超過閾值的count數(shù)值整合記錄形成高頻表。第二,提升文件讀取速度??蛻舳嗽谠L問系統(tǒng)數(shù)據(jù)信息的時候需要打造相應(yīng)的鏈接文件,在打造鏈接文件之后通過解析文件來獲取文件數(shù)據(jù)塊的組合集成,之后通過邏輯地址來獲取最終的文件信息。在實際操作中為了避免多次seek操作失誤而造成的讀寫性能降低問題,系統(tǒng)應(yīng)用合并數(shù)據(jù)塊邏輯地址思想來把多個小邏輯地址組合成為一個較大的邏輯地址,從而有效減少鏈接文件信息的邏輯地址數(shù)目。

3.4 數(shù)值實驗

通過在Hadoop平臺創(chuàng)造的基于重復(fù)數(shù)據(jù)刪除技術(shù)的存儲系統(tǒng)來對改進算法TDOB進行實驗對比,通過實驗來驗證算法是否準(zhǔn)確。

(1)實驗環(huán)境。第一,硬件。實驗操作應(yīng)用i5處理器,6GB內(nèi)存,500GB的計算機上的三個虛擬機來搭建Hadoop分布式環(huán)境。第二,軟件。實驗室虛擬機是在平臺系統(tǒng)下的,在具體運行操作中不需要額外的通信交換設(shè)備。第三,Hadoop平臺建設(shè)。首先,安裝JDK,確定系統(tǒng)配置環(huán)境變量。其次,修改Hosts文件。在這個文件中包括系統(tǒng)IP地質(zhì)和主機名,通過修改文件目錄能夠?qū)崿F(xiàn)主機名和IP地址的對應(yīng)。最后,安裝SSH并進行無密碼驗證配置。

(2)實驗過程和結(jié)果分析。第一,數(shù)據(jù)集。應(yīng)用兩種數(shù)據(jù)集來檢驗和增進算法的準(zhǔn)確性和有效性。一種數(shù)據(jù)集是從網(wǎng)上直接下載的開源項目源代碼壓縮包,另外一種是用戶電腦中常用的文件。第二,DRabin算法的應(yīng)用分析。和以往的算法相比,這種算法所需要占據(jù)的空間較小,執(zhí)行運算效率較高。本文選擇Rabin的算法和DRabin的方法來對數(shù)據(jù)集中的用戶文件進行分塊處理,數(shù)據(jù)庫的預(yù)期大小是8KB,因而相應(yīng)的通過計算得到的指紋數(shù)值在0-8191之間。在分塊處理操作之前各類文件信息會被納入數(shù)據(jù)庫中,通過輸入和輸出操作來將文件整體讀進到一個和文件大小一樣的字節(jié)數(shù)組中,由此解決了因為文件讀取和時間分塊處理可能出現(xiàn)的干擾問題。經(jīng)過實驗對比發(fā)現(xiàn),DRabin算法和Rabin算法相比,計算所占用的空間相對較小,數(shù)據(jù)信息的執(zhí)行運算速率較高,在使用操作的過程中獲得分塊處理的速度更快。第三,TDOB算法分析。如果所獲得的數(shù)據(jù)塊個數(shù)相同,那么分塊算法的性能和去除重復(fù)率之間呈現(xiàn)出一種正比關(guān)系。算法實驗分析流程如下:首先,把沒有修改過的gcc源代碼通過壓縮文件的形式上傳到Hadoop去重系統(tǒng)中。其次,將修改好的gcc源代碼通過壓縮文件的形式上傳到Hadoop去重系統(tǒng)中。最后,通過查看HDFS修改文件在整個空間系統(tǒng)中所占據(jù)的去重復(fù)比例來對其進行分析,從實際操作情況來看,改進之后的TGOB算法具有更高的去重率。

4 結(jié) 論

綜上所述,在信息技術(shù)的發(fā)展支持下云計算和重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用擁有更為廣闊的發(fā)展空間,Hadoop以其強大的分布計算能力在海量數(shù)據(jù)信息存儲過程中占據(jù)著十分重要的地位,且在發(fā)展的過程中具有投入成本少、可靠性強的特點。但是從實際使用情況來看,這類技術(shù)在信息歸檔的時候會出現(xiàn)大量重復(fù)數(shù)據(jù),數(shù)據(jù)冗余度較高。重復(fù)數(shù)據(jù)刪除技術(shù)能夠?qū)?shù)據(jù)存儲容量進行優(yōu)化,減少存儲系統(tǒng)中的冗余數(shù)據(jù),從而更好地滿足人們對不斷增長數(shù)據(jù)存儲的需求,需要引起相關(guān)人員的注意。

參考文獻:

[1] 俞善海.基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究 [D].上海:華東理工大學(xué),2015.

[2]盧艷艷.基于Hadoop的大數(shù)據(jù)存儲關(guān)鍵技術(shù)研究[D].保定:華北電力大學(xué),2016.

[3]王菊,徐董冬.基于Hadoop平臺的數(shù)據(jù)壓縮技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用,2016(8):94-95.

作者簡介:郭強(1995.12-),男,漢族,河北張家口人,本科,研究方向:計算機科學(xué)與技術(shù)。

探索| 信阳市| 朔州市| 苍山县| 衡阳市| 和龙市| 汉沽区| 潜江市| 额敏县| 上蔡县| 辉南县| 禹城市| 汨罗市| 五峰| 桦川县| 云霄县| 曲阜市| 彭山县| 峨山| 湟中县| 兴城市| 连江县| 淳安县| 清徐县| 武乡县| 体育| 怀柔区| 青海省| 靖西县| 阳江市| 石狮市| 周至县| 临颍县| 迁西县| 驻马店市| 疏勒县| 资溪县| 云浮市| 汉寿县| 寿光市| 周口市|