馬錫坤,楊彩霞,吳艷君
南京軍區(qū)南京總醫(yī)院 信息科,江蘇 南京 210002
數(shù)據(jù)備份是數(shù)據(jù)高可用的最后一道防線,其目的是為了系統(tǒng)數(shù)據(jù)崩潰時(shí)能夠快速恢復(fù)數(shù)據(jù)[1-3]。傳統(tǒng)數(shù)據(jù)備份采用的是磁帶系統(tǒng)。但是,磁帶備份技術(shù)容易出現(xiàn)錯(cuò)誤,恢復(fù)的性能很低,數(shù)據(jù)恢復(fù)操作往往會(huì)因?yàn)榇艓Ы橘|(zhì)損壞的原因而無(wú)法成功執(zhí)行。因此,僅依靠磁帶系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)保護(hù)已經(jīng)不能滿足今天的需求。基于磁盤(pán)備份技術(shù)慢慢發(fā)展并且成熟起來(lái),利用虛擬磁帶庫(kù)作為備份介質(zhì)則是慣用的磁盤(pán)備份形式,而重復(fù)數(shù)據(jù)刪除的新技術(shù)相對(duì)基于磁盤(pán)的數(shù)據(jù)保護(hù)方法又實(shí)現(xiàn)了顯著的改進(jìn)。
在備份系統(tǒng)的最初發(fā)展階段,所有用戶的關(guān)注點(diǎn)全部集中在數(shù)據(jù)備份部分,即數(shù)據(jù)備份是否成功、備份設(shè)備的處理速度是否夠快、存儲(chǔ)介質(zhì)的容量有多大等。隨著數(shù)據(jù)被損壞、丟失的情況越來(lái)越多,相應(yīng)的,使用備份系統(tǒng)恢復(fù)數(shù)據(jù)的頻率正在不斷加大。在這一過(guò)程中,備份系統(tǒng)使用者才開(kāi)始逐漸意識(shí)到一個(gè)更加嚴(yán)峻的問(wèn)題,即備份數(shù)據(jù)的可恢復(fù)性。
磁帶和磁帶驅(qū)動(dòng)器是數(shù)據(jù)備份最常用設(shè)備。傳統(tǒng)的磁帶介質(zhì),隨著時(shí)間的推移、使用次數(shù)的增加,經(jīng)常會(huì)出現(xiàn)由于磁粉脫落等原因?qū)е碌拇艓Ю匣?,?shù)據(jù)無(wú)法讀取。更可怕的是,磁帶介質(zhì)不具備良好的報(bào)警機(jī)制,也就是說(shuō),磁帶即便老化了或者損壞了,除非我們嘗試去讀,否則根本沒(méi)有手段能夠及時(shí)發(fā)現(xiàn)這一故障,從而無(wú)法及時(shí)補(bǔ)救這份數(shù)據(jù)。
隨著磁盤(pán)成本的不斷降低,利用磁盤(pán)作為備份介質(zhì)的趨勢(shì)已經(jīng)越來(lái)越明顯?;诖疟P(pán)備份技術(shù)的核心工作原理是利用磁盤(pán)陣列做底層數(shù)據(jù)存儲(chǔ),通過(guò)虛擬軟件將該磁盤(pán)陣列虛擬為磁帶庫(kù)[4-6]。備份軟件可以按照最習(xí)慣的方式對(duì)其虛擬出的磁帶庫(kù)、磁帶機(jī)、磁帶進(jìn)行管理和分配。作為一個(gè)獨(dú)立設(shè)備,其上的數(shù)據(jù)對(duì)于生產(chǎn)主機(jī)具有完全隔離的免疫機(jī)制,任何在線災(zāi)難均不能威脅備份數(shù)據(jù)。而底層的磁盤(pán)陣列技術(shù),又可以通過(guò)RAID(磁盤(pán)數(shù)組)保護(hù)、熱備份磁盤(pán)、自我告警等機(jī)制對(duì)備份數(shù)據(jù)加以保護(hù),從而提高了備份數(shù)據(jù)的可恢復(fù)性。磁帶備份和磁盤(pán)備份情況對(duì)比,見(jiàn)表1。
表1 磁帶與磁盤(pán)備份情況對(duì)比
備份的解決方案從開(kāi)始,一直在持續(xù)地發(fā)展,其硬件及軟件都在不斷地進(jìn)行著許多改進(jìn)以提高性能。重復(fù)數(shù)據(jù)刪除技術(shù)已經(jīng)逐漸成為一項(xiàng)熱門(mén)技術(shù),旨在刪除冗余的備份數(shù)據(jù)、確保同樣的數(shù)據(jù)信息只被保存1次[7]。磁盤(pán)的重復(fù)數(shù)據(jù)刪除方案是新一代數(shù)據(jù)保護(hù)解決方案,能夠顯著降低存儲(chǔ)的經(jīng)濟(jì)成本,極大地減少了數(shù)據(jù)備份和恢復(fù)時(shí)間,并且使廣域備份在進(jìn)行中得以實(shí)現(xiàn)。新一代虛擬磁帶庫(kù)在替代原有磁帶庫(kù)功能的基礎(chǔ)上,增加了遠(yuǎn)程數(shù)據(jù)復(fù)制、自動(dòng)離線歸檔和容量?jī)?yōu)化(壓縮和重復(fù)數(shù)據(jù)刪除)等高級(jí)功能。
重復(fù)數(shù)據(jù)刪除可以在數(shù)據(jù)備份進(jìn)行的同時(shí)在線應(yīng)用,或在數(shù)據(jù)備份完成后進(jìn)行。重復(fù)數(shù)據(jù)刪除的處理粒度越細(xì),則重復(fù)數(shù)據(jù)刪除的效率越高,其算法不占用備份服務(wù)器主機(jī)CPU、內(nèi)存、硬盤(pán)等資源。重復(fù)數(shù)據(jù)刪除結(jié)合了磁盤(pán)設(shè)備和磁帶設(shè)備兩種存儲(chǔ)的優(yōu)點(diǎn),同時(shí)摒棄了兩者缺點(diǎn),減少了對(duì)存儲(chǔ)容量的需求,以更少的空間存儲(chǔ)更多的數(shù)據(jù)。也就是說(shuō),基于磁盤(pán)的數(shù)據(jù)保護(hù)解決了備份窗口的問(wèn)題,而重復(fù)數(shù)據(jù)刪除技術(shù)解決了備份配置中硬盤(pán)的成本問(wèn)題。
以采用帶重復(fù)數(shù)據(jù)刪除功能的EMC Data Domain設(shè)備為例,對(duì)比重復(fù)數(shù)據(jù)消除存儲(chǔ)與傳統(tǒng)的虛擬磁帶庫(kù)存儲(chǔ)情況,見(jiàn)表2。
表2 重復(fù)數(shù)據(jù)消除存儲(chǔ)與虛擬帶庫(kù)存儲(chǔ)對(duì)比
EMC提供了一體化備份解決方案,以EMC CX4-480為主存儲(chǔ),以EMC Networker作為備份管理系統(tǒng)。以采用帶高效重復(fù)數(shù)據(jù)刪除功能的EMC Data Domain設(shè)備為備份存儲(chǔ)(同時(shí)具備虛擬磁帶庫(kù)VTL功能),提供基于數(shù)據(jù)源端的重復(fù)數(shù)據(jù)消除備份和基于目標(biāo)端的重復(fù)數(shù)據(jù)消除備份,實(shí)現(xiàn)數(shù)據(jù)的在線備份和在線重復(fù)數(shù)據(jù)消除保存。
Data Domain采用容量?jī)?yōu)化技術(shù)使得備份存儲(chǔ)的效率極高。容量?jī)?yōu)化技術(shù)是通過(guò)只保存唯一1份備份鏡像冗余數(shù)據(jù)段來(lái)實(shí)現(xiàn)的。當(dāng)數(shù)據(jù)寫(xiě)入到Data Domain時(shí),數(shù)據(jù)會(huì)被分成可變長(zhǎng)度的數(shù)據(jù)段,也可以說(shuō)一系列字節(jié)。Data Domain實(shí)時(shí)將該數(shù)據(jù)段與已經(jīng)存儲(chǔ)的各數(shù)據(jù)段做比較,這種方式保證每個(gè)唯一獨(dú)特的數(shù)據(jù)段只保留1份[8]。所以Data Domain可以在文件內(nèi)或文件間,甚至是數(shù)據(jù)塊內(nèi)發(fā)現(xiàn)重復(fù)的文件和數(shù)據(jù)段,實(shí)際所需的存儲(chǔ)空間相對(duì)于所保存的數(shù)據(jù)量低1個(gè)數(shù)據(jù)量級(jí)。容量?jī)?yōu)化的好處隨著時(shí)間的推移會(huì)越來(lái)越明顯。
Data Domain把重復(fù)數(shù)據(jù)刪除與高速高效的數(shù)據(jù)壓縮相結(jié)合,在存儲(chǔ)器內(nèi)對(duì)備份數(shù)據(jù)進(jìn)行實(shí)時(shí)壓縮,并且不斷地驗(yàn)證和糾錯(cuò)以確保數(shù)據(jù)的可靠性,極大地降低了數(shù)據(jù)備份的數(shù)量。Data Domain數(shù)據(jù)壓縮采用了全局壓縮技術(shù),其全局壓縮是基于對(duì)數(shù)據(jù)內(nèi)容和重復(fù)模式的研究分析而定的,可以應(yīng)用到任意類(lèi)型的重復(fù)數(shù)據(jù)。全局壓縮算法會(huì)對(duì)所有要存放在Data Domain上的數(shù)據(jù)做分析,而不管數(shù)據(jù)的格式和排列方式如何。通過(guò)采用全局壓縮技術(shù),不管什么樣的數(shù)據(jù)格式,都可以實(shí)現(xiàn)高效率的備份。
備份系統(tǒng)實(shí)現(xiàn)的功能是備份技術(shù)發(fā)展到一定階段的產(chǎn)物。基于Data Domain設(shè)備的備份系統(tǒng)既具備磁帶的經(jīng)濟(jì)性,也具備磁盤(pán)的可用性和速度,同時(shí)還克服了磁帶和傳統(tǒng)磁盤(pán)存儲(chǔ)陣列固有的缺陷。該備份系統(tǒng)具有以下特點(diǎn):一是滿足日漸縮減的備份窗口和不斷增長(zhǎng)的數(shù)據(jù)量需要高性能備份的要求,同時(shí)滿足了日常運(yùn)維數(shù)據(jù)需要高性能恢復(fù)的要求;二是保證備份數(shù)據(jù)的可恢復(fù)性,具備可驗(yàn)證的可恢復(fù)性和高彈性的存儲(chǔ);三是具備易于使用和易于集成到現(xiàn)有標(biāo)準(zhǔn)備份/恢復(fù)環(huán)境的特性,簡(jiǎn)化備份和恢復(fù)的過(guò)程,支持標(biāo)準(zhǔn)接口,讓IT部門(mén)充分利用現(xiàn)有的投資。
[1] 李國(guó)亮.醫(yī)院網(wǎng)絡(luò)數(shù)據(jù)災(zāi)難恢復(fù)與備份[J].中國(guó)醫(yī)療設(shè)備,2011,26(2):87.
[2] 葉俊,劉松林,陳健美,等.我院HIS數(shù)據(jù)備份與容災(zāi)技術(shù)方案[J].中國(guó)醫(yī)療設(shè)備,2008,23(1):37.
[3] 翁盛鑫,黃影.安全數(shù)據(jù)備份系統(tǒng)的建設(shè)[J].醫(yī)療衛(wèi)生裝備,2009,30(11):54-56.
[4] 何耀平,謝梅源.基于虛擬磁帶庫(kù)的醫(yī)院數(shù)據(jù)備份容災(zāi)方案及其實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009(11):122-125.
[5] 張磊.虛擬磁帶庫(kù)在災(zāi)備系統(tǒng)中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng),2007,28(6):1149-1152.
[6] 孫曉東,丁煒良.虛擬磁帶庫(kù)技術(shù)在數(shù)據(jù)備份系統(tǒng)中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī),2004,(12):63-65.
[7] 申彥舒.重復(fù)數(shù)據(jù)刪除技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用[J].圖書(shū)館學(xué)刊,2011,(7):123-125.
[8] 段夢(mèng)博,蔡興旺.基于內(nèi)容的重復(fù)數(shù)據(jù)刪除技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010,6(22):6275-6277.