戚永豐
【關(guān)鍵詞】信息技術(shù) 網(wǎng)絡(luò)備份 重復(fù)數(shù)據(jù)刪除技術(shù)
生活在信息網(wǎng)絡(luò)社會,我們對數(shù)據(jù)的需求越來越高,我們使用計算機(jī)、硬盤等工具儲存了大量的寶貴信息和數(shù)據(jù),一旦數(shù)據(jù)被破壞或者丟失,都將給企業(yè)、單位造成巨大的損失,在一些高可用性環(huán)境和高連續(xù)性環(huán)境中,中斷業(yè)務(wù)、丟失數(shù)據(jù)都將帶來難以估量的經(jīng)濟(jì)損失,社會對數(shù)據(jù)保護(hù)也越來越重視,網(wǎng)絡(luò)備份作為一種應(yīng)用較為普遍的數(shù)據(jù)備份形式,被企業(yè)、公司廣泛應(yīng)用,但是隨著信息爆炸增長和對數(shù)據(jù)存儲的大量需求,網(wǎng)絡(luò)備份面臨著新的挑戰(zhàn)。
1 網(wǎng)絡(luò)備份現(xiàn)狀分析
我們在生產(chǎn)生活中產(chǎn)生的信息數(shù)據(jù),一方面是使用互聯(lián)網(wǎng)產(chǎn)生的信息,另一方面是生產(chǎn)生活和科學(xué)實驗產(chǎn)生的數(shù)據(jù)等,例如飛行動力學(xué)、仿真技術(shù)、科學(xué)計算和虛擬現(xiàn)實等,科學(xué)技術(shù)水平較高的行業(yè)產(chǎn)生的數(shù)據(jù)量更是無法估量,數(shù)據(jù)顯示,全世界在2007年一年產(chǎn)生的信息數(shù)據(jù)多達(dá)2810億GB,全世界人均產(chǎn)生的數(shù)據(jù)量達(dá)到了45GB,并且隨著信息技術(shù)的發(fā)展,每天產(chǎn)生的數(shù)據(jù)量仍然在高速增長。雖然儲存技術(shù)也在隨著信息技術(shù)的發(fā)展不斷發(fā)展,但是仍然很難趕上數(shù)據(jù)信息的產(chǎn)生速度。2007年世界生產(chǎn)的各種儲存工具總共的儲存量為264EB,與數(shù)據(jù)信息產(chǎn)生量相差不大,但是近年來兩者的增長曲線快速分離,儲存量遠(yuǎn)遠(yuǎn)跟不上信息數(shù)據(jù)的增長速度。
對于數(shù)據(jù)存儲來說,要滿足高速增長數(shù)據(jù)存儲需求,一方面要求存儲系統(tǒng)有較好的擴(kuò)展性,另一方面要求存儲系統(tǒng)由魯棒性以確保數(shù)據(jù)信息的安全性,網(wǎng)絡(luò)備份是海量存儲系統(tǒng)的關(guān)鍵的組成部分,可以看到諸如Google等大型網(wǎng)絡(luò)公司都在世界各地建立了多個數(shù)據(jù)中心,將重要數(shù)據(jù)通過網(wǎng)絡(luò)備份存儲在分散的數(shù)據(jù)中心中,一旦發(fā)生災(zāi)難就能使用網(wǎng)絡(luò)備份技術(shù)快速恢復(fù),確保連續(xù)型應(yīng)用系統(tǒng)能夠正常運行。網(wǎng)絡(luò)備份對存儲空間的需求已經(jīng)由幾PB上升到了幾百PB,并且在以非常快的速度增長,現(xiàn)有的網(wǎng)絡(luò)帶寬已經(jīng)很難滿足數(shù)據(jù)信息存儲需求。
2 開發(fā)重復(fù)數(shù)據(jù)刪除技術(shù)的必要性
數(shù)據(jù)信息爆炸性增長,其中關(guān)鍵的影響因素是大量的重復(fù)數(shù)據(jù),例如計算機(jī)文件系統(tǒng)、web對象、郵件附件和數(shù)據(jù)定時備份等,都會產(chǎn)生大量的重復(fù)數(shù)據(jù)。數(shù)據(jù)顯示,將近23%的Html文件都是相同的,48%左右的Html文件內(nèi)容基本相同。傳統(tǒng)數(shù)據(jù)備份方式主要是文件快照、文件定期備份、周期備份和連續(xù)數(shù)據(jù)保護(hù)等,這些技術(shù)也會產(chǎn)生難以估量的重復(fù)數(shù)據(jù)。大量的重復(fù)數(shù)據(jù)造成存儲空間和網(wǎng)絡(luò)帶寬資源緊缺,并且給數(shù)據(jù)管理工作帶來了很大的難度,為了實現(xiàn)資源的優(yōu)化配置,降低數(shù)據(jù)管理的成本和難度,必須著力研究和開發(fā)重復(fù)數(shù)據(jù)刪除技術(shù)。
傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)存在較大的局限性,已經(jīng)無法滿足現(xiàn)今數(shù)據(jù)信息對存儲穩(wěn)定性和容錯率的要求,企業(yè)、公司存儲數(shù)據(jù)要求能夠隨取隨用,但是傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)很難滿足這種需求。對于現(xiàn)有的傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù),其局限性可以從以下幾個方面得以體現(xiàn)。
2.1 全量備份
就是將指定的數(shù)據(jù)全部備份,如果數(shù)據(jù)遭到破壞或者丟失,用全量備份能夠方面的恢復(fù)全部數(shù)據(jù),但是全量備份會占用大量的存儲空間。
2.2 增量備份
一般數(shù)據(jù)備份需要進(jìn)行多次,增量備份就是只備份上一次與這一次備份之間發(fā)生改變數(shù)據(jù),雖然能夠在一定程度上減少存儲空間,但是這種節(jié)省非常有限,并且增量備份的數(shù)據(jù)恢復(fù)時間較長,因為要恢復(fù)數(shù)據(jù)就要恢復(fù)若干個增量備份和一個全量備份,需要耗費大量時間。
2.3 快照技術(shù)
這是在很多恢復(fù)系統(tǒng)和現(xiàn)代備份系統(tǒng)中都廣泛使用的備份技術(shù),這種技術(shù)的優(yōu)點是在備份和恢復(fù)數(shù)據(jù)時,不會對數(shù)據(jù)的完整性產(chǎn)生影響,也能充分保證系統(tǒng)的在線性能??煺?,顧名思義,就是某個時間點的數(shù)據(jù)的鏡像,對于連續(xù)型服務(wù)來講,采用快照的方式備份數(shù)據(jù)將會占用大量的存儲空間,因此很多快照備份系統(tǒng)都會定期刪除過期快照以節(jié)省存儲空間。
3 網(wǎng)絡(luò)備份中的重復(fù)數(shù)據(jù)刪除技術(shù)
網(wǎng)絡(luò)備份中的重復(fù)數(shù)據(jù)刪除技術(shù),主要是將文件分割為小塊,采用特定的算法計算文件小塊的信息指紋,根據(jù)信息指紋的相似度判斷文件內(nèi)容是否相同,如果文件內(nèi)容相同,那么在備份時只需要存儲一部分?jǐn)?shù)據(jù)。
3.1 劃分重復(fù)數(shù)據(jù)
運用重復(fù)數(shù)據(jù)刪除技術(shù)確定重復(fù)的數(shù)據(jù)塊和文件,一般運用的重復(fù)數(shù)據(jù)刪除技術(shù)主要有兩種,即數(shù)據(jù)塊重復(fù)數(shù)據(jù)刪除和文件重復(fù)數(shù)據(jù)刪除。先將文件劃分成若干數(shù)據(jù)塊,用哈希算法計算每個數(shù)據(jù)塊的數(shù)據(jù)指紋,如果這個指紋與指紋索引中的某個指紋不相符,就將這個指紋對應(yīng)的數(shù)據(jù)塊寫入到存儲設(shè)備中,否則就將這個數(shù)據(jù)塊刪除。
3.2 數(shù)據(jù)指紋算法
目前普遍采用哈希算法來計算數(shù)據(jù)指紋,分析文件內(nèi)部是否存在重復(fù)數(shù)據(jù),先對數(shù)據(jù)進(jìn)行哈希得到哈希值,較為流行的哈希函數(shù)算法為SHA1算法和MD5算法,兩種算法生成的哈希值不同,而計算哈希值的速度也不同,應(yīng)該根據(jù)實際情況選擇合適的哈希函數(shù)。
3.3 數(shù)據(jù)塊劃分
一般文件數(shù)據(jù)塊的劃分長度為4K到24K,數(shù)據(jù)分塊主要有CDC分塊和定長切分算法,CDC算法能夠?qū)崿F(xiàn)將文件劃分為不同長度的數(shù)據(jù)塊,而定長切分算法使用簡單方便,但是對于數(shù)據(jù)刪除和數(shù)據(jù)插入等操作敏感性很高,處理數(shù)據(jù)存在效率較低的缺點。
3.4 異地容災(zāi)
網(wǎng)絡(luò)備份一般要建立若干個數(shù)據(jù)中心,建立遠(yuǎn)程災(zāi)備系統(tǒng)需要把數(shù)據(jù)遷移到異地系統(tǒng)中,采用重復(fù)數(shù)據(jù)刪除系統(tǒng),能夠在數(shù)據(jù)傳輸前刪除重復(fù)的數(shù)據(jù),減少數(shù)據(jù)傳輸量,提高傳輸效率。
4 結(jié)束語
綜上,網(wǎng)絡(luò)備份中的重復(fù)數(shù)據(jù)刪除技術(shù)主要是找到數(shù)據(jù)流或者文件中的重復(fù)數(shù)據(jù)并刪除,這樣系統(tǒng)中只會存在一個元數(shù)據(jù)實例,采用重復(fù)數(shù)據(jù)刪除技術(shù),能夠有效節(jié)省備份空間,降低數(shù)據(jù)管理難度,提高管理效率。
參考文獻(xiàn)
[1]冉祿純.一種基于重復(fù)數(shù)據(jù)刪除的網(wǎng)絡(luò)文件備份系統(tǒng)設(shè)計與實現(xiàn)[J].計算機(jī)應(yīng)用與軟件,2014,(10):65.
[2]舒繼武.一種基于重復(fù)數(shù)據(jù)刪除的備份系統(tǒng)[J].計算機(jī)研究與發(fā)展,2012,(07):33.
[3]俞婷.網(wǎng)絡(luò)備份中重復(fù)數(shù)據(jù)消重技術(shù)研究[J].科技創(chuàng)新與應(yīng)用,2016,(04):117.