吳志峰
企業(yè)和政府部門對數(shù)據(jù)的高可靠性和高可用性越來越重視。數(shù)據(jù)丟失,尤其是核心數(shù)據(jù)丟失,很有可能造成整個系統(tǒng)的癱瘓,給企業(yè)帶來無法估量的損失。
導(dǎo)致數(shù)據(jù)丟失的原因很多,包括人為的操作錯誤、軟件缺陷、硬件故障、電腦病毒、黑客攻擊、自然災(zāi)難等。IDC的調(diào)查數(shù)據(jù)顯示,造成企業(yè)數(shù)據(jù)丟失的原因中,44%是物理錯誤,53%是邏輯錯誤,3%是自然災(zāi)難。無論是哪種原因?qū)е碌臄?shù)據(jù)丟失,都可能輕而易舉地摧毀企業(yè)賴以生存的IT系統(tǒng)。
針對企業(yè)數(shù)據(jù)丟失可能造成的嚴重后果,2007年7月頒布的《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007)要求,企業(yè)要根據(jù)RPO(恢復(fù)點目標)和RTO(恢復(fù)時間目標)指標的不同要求,制定不同的容災(zāi)機制,建立不同級別的容災(zāi)系統(tǒng)。
容災(zāi)系統(tǒng)是不是只有硬件廠商推崇的兩地三中心這一種模式?是不是所有的企業(yè)都需要拿出幾百萬元甚至更多,建設(shè)只防范小概率災(zāi)難事件的容災(zāi)系統(tǒng)?答案當然是否定的。事實上,容災(zāi)的要求因不同的企業(yè)、不同的應(yīng)用類型而異,究竟采取什么樣的容災(zāi)措施,應(yīng)該依據(jù)災(zāi)難的程度而定,這樣才能保證最低的整體擁有成本和最大的投資回報率。
不同級別的容災(zāi)要求各異
用戶無論采用什么樣的容災(zāi)方案,災(zāi)難備份都是必須的。建立災(zāi)難備份系統(tǒng)是企業(yè)實現(xiàn)容災(zāi)的第一步。
《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007)明確了信息系統(tǒng)災(zāi)難的概念。一旦信息系統(tǒng)出現(xiàn)了災(zāi)難,就要進行災(zāi)難恢復(fù),而為了進行災(zāi)難恢復(fù),就必須提前進行災(zāi)難備份。
按照《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007)的定義,災(zāi)難備份系統(tǒng)由數(shù)據(jù)備份系統(tǒng)、備用數(shù)據(jù)處理系統(tǒng)和備用網(wǎng)絡(luò)系統(tǒng)三個子系統(tǒng)構(gòu)成,其中最為復(fù)雜的是建立滿足災(zāi)難恢復(fù)要求的數(shù)據(jù)備份系統(tǒng)。
數(shù)據(jù)備份系統(tǒng)的作用是對數(shù)據(jù)進行保護。為防止物理錯誤和邏輯錯誤,滿足RPO、RTO指標和數(shù)據(jù)保留時間的要求,數(shù)據(jù)備份系統(tǒng)普遍采用了復(fù)制技術(shù)、快照技術(shù)及備份技術(shù)。這三項技術(shù)各有利弊,但無論哪一種技術(shù)都不能完全滿足災(zāi)難恢復(fù)的所有目標。因此,企業(yè)在規(guī)劃設(shè)計災(zāi)難備份系統(tǒng)時,應(yīng)該綜合采用上述這些技術(shù)。
尋找適合的容災(zāi)方案
選擇容災(zāi)解決方案,切忌貪大求全,適合的才是最好的。
1~2 級災(zāi)難備份方案 1~2級災(zāi)難備份系統(tǒng)要求每周做備份,但沒有數(shù)據(jù)復(fù)制要求。要滿足上述要求,用戶可以選擇一款具有多副本管理功能的備份軟件。
與傳統(tǒng)備份軟件在多副本管理方面不夠完善、存在很大局限性不同,CommVault Simpana備份/恢復(fù)軟件提供了內(nèi)嵌的災(zāi)難恢復(fù)能力,當災(zāi)難發(fā)生后可以快速而輕易地在某個熱備中心恢復(fù)數(shù)據(jù)。為了改善備份/恢復(fù)的RTO指標,CommVault Simpana備份/恢復(fù)軟件采用自動預(yù)恢復(fù)的策略,在每次備份完成后,把備份數(shù)據(jù)提前恢復(fù)到備用系統(tǒng)上,從而更好地滿足了RTO指標的要求。
3~4級災(zāi)難備份方案 3~4級災(zāi)難備份系統(tǒng)要求每天進行備份,定時進行數(shù)據(jù)復(fù)制,RPO指標要求小于24小時,RTO指標要求小于兩天。要實現(xiàn)這一目標,災(zāi)難備份解決方案除了要具有數(shù)據(jù)復(fù)制和快照功能以外,重復(fù)數(shù)據(jù)刪除功能也是必不可少的。
CommVault Simpana復(fù)制解決方案是一款能滿足3~4級災(zāi)難備份需求、性價比很高的方案,能提高數(shù)據(jù)可用性和存儲、網(wǎng)絡(luò)等資源的利用率,滿足客戶應(yīng)用級容災(zāi)的需求。CommVault Simpana復(fù)制解決方案能很好地利用CommVault領(lǐng)先的重復(fù)數(shù)據(jù)刪除功能,消除來自遠程辦公室的冗余的備份數(shù)據(jù),從而減少數(shù)據(jù)備份量,并將經(jīng)重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)以壓縮格式復(fù)制到中央站點,使得在帶寬有限的廣域網(wǎng)創(chuàng)建災(zāi)難恢復(fù)副本成為可能。
5級災(zāi)難備份方案 5級災(zāi)難備份系統(tǒng)要求實現(xiàn)實時復(fù)制,對RPO、RTO指標的要求比較高。傳統(tǒng)的容災(zāi)方案通常采用昂貴的存儲設(shè)備或卷管理軟件來實現(xiàn),投入非常高,而且對原有系統(tǒng)的改變也很大,需要重新安裝系統(tǒng)或數(shù)據(jù)庫。
CommVault的CDR連續(xù)數(shù)據(jù)復(fù)制方案是一個性價比很高的解決方案。CommVault CDR以近似實時的方式把數(shù)據(jù)從源計算機復(fù)制到目的計算機,保護應(yīng)用數(shù)據(jù)和文件系統(tǒng)。
6級災(zāi)難備份方案 6級災(zāi)難備份系統(tǒng)要求能實時復(fù)制,實現(xiàn)數(shù)據(jù)零丟失,備份場地和設(shè)備要與生產(chǎn)系統(tǒng)完全一致,并且能無縫切換,RTO小于幾分鐘,RPO為零。
要實現(xiàn)上述目標,軟件、硬件和網(wǎng)絡(luò)的投入都相當大,在應(yīng)用數(shù)據(jù)變化比較大的時候尤其如此。用戶要想實現(xiàn)零數(shù)據(jù)丟失,可以采用兩種方式。第一種是基于應(yīng)用軟件的容災(zāi),即通過應(yīng)用軟件同時向兩個中心提交事務(wù),當兩個中心都成功進行事務(wù)處理后,應(yīng)用軟件才確認該事務(wù)提交成功。這種方法的優(yōu)點是對網(wǎng)絡(luò)和存儲的要求不高,最大的缺點是必須隨著應(yīng)用的變化不斷更新應(yīng)用軟件。第二種方式是,在存儲層建立同步的數(shù)據(jù)復(fù)制,要求兩中心有高速、穩(wěn)定的網(wǎng)絡(luò)連接。
CommVault的解決方案也能滿足6級災(zāi)難備份的要求,具體來說,在生產(chǎn)中心和容災(zāi)中心同時進行數(shù)據(jù)備份或快照管理,一旦生產(chǎn)中心或容災(zāi)中心的系統(tǒng)發(fā)生問題或崩潰時,可以利用備份數(shù)據(jù)或快照副本進行快速恢復(fù)。例如,當容災(zāi)中心的數(shù)據(jù)丟失時,如果容災(zāi)中心沒有本地備份數(shù)據(jù),則需要花費很長時間把生產(chǎn)中心的全部數(shù)據(jù)同步到容災(zāi)中心;如果容災(zāi)中心本地有備份數(shù)據(jù),就可以先恢復(fù)本地的備份數(shù)據(jù),再同步差異的生產(chǎn)數(shù)據(jù),花費的時間比較短。
應(yīng)急庫容災(zāi)解決方案是不錯的選擇
不同的行業(yè)、不同的企業(yè)甚至是企業(yè)內(nèi)不同的應(yīng)用系統(tǒng)對容災(zāi)的要求都是不同的。對于電信、金融等行業(yè)大型用戶而言,一些關(guān)鍵的核心業(yè)務(wù)系統(tǒng)的容災(zāi)必須做到瞬間起效,絕對不能讓突如其來的災(zāi)難影響企業(yè)業(yè)務(wù)的正常運營,中斷一秒也不行。但是對一些輔助的系統(tǒng),容災(zāi)的要求相對較低。很多中小企業(yè)雖然也需要容災(zāi)方案。
對于既要求較高的RPO和RTO指標,又無法承擔高昂的容災(zāi)系統(tǒng)建設(shè)費用的用戶來說,建設(shè)應(yīng)急庫是一個比較好的選擇。建設(shè)應(yīng)急容災(zāi)解決方案的目標是提高備份恢復(fù)的RPO和RTO級別,確保數(shù)據(jù)丟失后能在一定時間內(nèi)恢復(fù)。
CommVault首推的應(yīng)急庫并不是容災(zāi)系統(tǒng),只是為了保證數(shù)據(jù)和系統(tǒng)的正常應(yīng)用,但是無法實現(xiàn)自動切換數(shù)據(jù)庫應(yīng)用,RPO的指標也相對較差(只是分鐘級別,而不是秒級別)。應(yīng)急庫能夠幫助企業(yè)在發(fā)生極端災(zāi)難的情況下臨時應(yīng)急;能夠避免用戶生產(chǎn)庫的物理和邏輯故障;方便用戶實現(xiàn)數(shù)據(jù)災(zāi)備系統(tǒng)的驗證和演練;提高傳統(tǒng)應(yīng)急方式(備份恢復(fù))的RPO/RTO級別;利用自動化的手段,實現(xiàn)數(shù)據(jù)庫應(yīng)急。