特約通訊員伍芳菊
如需執(zhí)行災(zāi)難恢復(fù)計劃,請務(wù)必先了解自己的恢復(fù)要求。
在當(dāng)今的環(huán)境下,很多企業(yè)需要保持某種形式的業(yè)務(wù)連續(xù)性計劃,該計劃旨在為企業(yè)提供一種面對突發(fā)事件(比如發(fā)生洪水,地震,或者大范圍的停電,導(dǎo)致主站點(diǎn)業(yè)務(wù)停滯)時可持續(xù)進(jìn)行業(yè)務(wù)操作的辦法。業(yè)務(wù)連續(xù)性計劃涉及信息技術(shù)基礎(chǔ)設(shè)施的故障恢復(fù)和在遠(yuǎn)程站點(diǎn)重新啟動業(yè)務(wù)操作需考慮的人身安全和相關(guān)物理設(shè)施等問題。同時,在偏遠(yuǎn)地區(qū)給工作人員提供合適的工作區(qū)域。
IT基礎(chǔ)設(shè)施恢復(fù),亦稱作災(zāi)難恢復(fù)(DR),針對計算機(jī)設(shè)備(包括服務(wù)器,存儲器等)遇到災(zāi)難故障如何恢復(fù)等問題。DR為業(yè)務(wù)連續(xù)性計劃提供了一個必要的基礎(chǔ),但不能取代其本身。本文討論了創(chuàng)建有效災(zāi)難恢復(fù)計劃的關(guān)鍵因素,適合IT管理者和IT技術(shù)工作者閱讀。
商業(yè)信息對于大多數(shù)企業(yè)來說,就如同王冠上的寶石,雖然大小不一,其意義非同小可。
現(xiàn)今企業(yè)高度計算機(jī)化,商業(yè)信息已被當(dāng)作一種數(shù)據(jù)加以維護(hù),大多數(shù)企業(yè)每天會采取一些措施以保證新數(shù)據(jù)和存檔數(shù)據(jù)隨時更新恢復(fù)。從歷史上來看,本地數(shù)據(jù)保護(hù)是通過某種基于磁帶備份的形式完成的。備份磁帶副本被保存在本地磁盤,可以每天對已丟失文件和數(shù)據(jù)表等資料進(jìn)行恢復(fù)。其中,一部分磁帶副本被定期地遷移到偏遠(yuǎn)站點(diǎn),可以常年保存。即使發(fā)生災(zāi)難事故(可能導(dǎo)致重要網(wǎng)站關(guān)閉),仍可確保數(shù)據(jù)恢復(fù)。一直以來,傳統(tǒng)的DR計劃是把備份磁帶儲存在裝置區(qū)外。當(dāng)某個非主要站點(diǎn)需要重新運(yùn)行業(yè)務(wù)操作程序時,保存在遠(yuǎn)程站點(diǎn)磁帶上的數(shù)據(jù)將會被轉(zhuǎn)移到新的“主站點(diǎn)”,然后手動重建應(yīng)用程序,上面的數(shù)據(jù)被裝載到新的服務(wù)器上,這樣業(yè)務(wù)程序就在新的站點(diǎn)得以處理,直到之前的“主站點(diǎn)”重新聯(lián)機(jī)。以上所描述的就是一系列災(zāi)難恢復(fù)要求。
本文的重點(diǎn)在于讓用戶了解實(shí)施DR計劃的具體要求和意義。先不要去關(guān)注相關(guān)的技術(shù)問題,而是弄清楚自己的具體要求,再開始實(shí)施一項(xiàng)成本雖低但能滿足要求的恢復(fù)計劃。在這之前,用戶需打破“異地的備份磁帶等于災(zāi)難恢復(fù)”這個概念。這樣,才能把具體要求和能滿足該要求的技術(shù)進(jìn)行匹配,以便對癥下藥。
雖然不同企業(yè)有各自的業(yè)務(wù)流程,但是所有流程必定會有一個主次性關(guān)系。一般來說,只要是直接關(guān)系到創(chuàng)造收入或客戶支持的流程均被視為關(guān)鍵流程。
了解災(zāi)難恢復(fù)的時間性,它和業(yè)務(wù)優(yōu)先次序有何關(guān)聯(lián),然后集中注意力關(guān)注有必要存在恢復(fù)計劃的那些領(lǐng)域。企業(yè)既要判斷程序失敗對業(yè)務(wù)的影響,還要判斷影響范圍有多大。
比如,程序一旦失敗是否會直接影響收入?如果是,有沒有解決辦法?解決辦法會不會很復(fù)雜,很繁瑣?部分重要程序丟失可能給業(yè)務(wù)帶來嚴(yán)重的影響,比如可能導(dǎo)致收入損失或者無法支持客戶工作。但是,其它非重要程序即使丟失幾天、幾周,甚至幾個月也不會有什么影響。因此,用戶必須對此進(jìn)行判斷,如果可以確定某些程序不重要,完全不用執(zhí)行任何恢復(fù)計劃,只需列一個業(yè)務(wù)程序主次清單,包括所有主要的業(yè)務(wù)程序區(qū)域,然后勾畫出一張業(yè)務(wù)流程圖及相關(guān)的配套IT基礎(chǔ)設(shè)施圖。最后,只需備一份選項(xiàng)列表,包括應(yīng)用程序,服務(wù)器和能夠支持各個業(yè)務(wù)流程的存儲裝置。行政管理參與關(guān)鍵業(yè)務(wù)流程的優(yōu)先次序的定義對以后的財政預(yù)算是非常有用的。為了讓公司把正確的恢復(fù)計劃放對地方,需對業(yè)務(wù)優(yōu)先次序、相關(guān)流程,以及方案失敗對業(yè)務(wù)產(chǎn)生影響等問題達(dá)成一致意見。
主要業(yè)務(wù)流程一旦被列為優(yōu)先事項(xiàng),就意味著需要第一時間處理。首先,要確定所有候選應(yīng)用程序都具備一定價值,并確保最新的副本作為數(shù)據(jù)在一個或多個遠(yuǎn)程位置保存。從商業(yè)角度來講,恢復(fù)方案應(yīng)盡可能減少恢復(fù)過程中數(shù)據(jù)的丟失,提供簡單、可靠的恢復(fù)辦法,同時恢復(fù)時間盡可能縮短?;謴?fù)效果的衡量指標(biāo)(即滿足恢復(fù)要求和評價每個應(yīng)用環(huán)境的指標(biāo))主要是指恢復(fù)點(diǎn)目標(biāo)(RPO)和恢復(fù)時間目標(biāo)(RTO)。比如RPO是1個小時,就意味著丟失的數(shù)據(jù)不能多于1小時內(nèi)最多的數(shù)據(jù)量,又如RTO是4個小時,則意味著特定的應(yīng)用環(huán)境重新運(yùn)行耗時不能超過4小時。
當(dāng)發(fā)生災(zāi)難事件時,系統(tǒng)很可能既要恢復(fù)應(yīng)用程序,又要恢復(fù)丟失的數(shù)據(jù)資料。很多企業(yè)的服務(wù)器和和應(yīng)用環(huán)境采用了手動重建和恢復(fù)。與僅自動恢復(fù)數(shù)據(jù),然后靠管理員手動恢復(fù)應(yīng)用程序的技術(shù)相比,提供全方位自動應(yīng)用恢復(fù)的災(zāi)難恢復(fù)計劃的RTO更短、更可靠、操作起來更具預(yù)測性,因?yàn)闊o需太多依賴進(jìn)行實(shí)際操作的管理員的技術(shù)。
評價你的設(shè)備位置可能遇到的災(zāi)難類型。如果你所處的位置隨時可能讓你面臨帶來大面積影響的災(zāi)難事件(如洪水,地震,或大面積的斷電),您應(yīng)該根據(jù)DR的最佳指引,也就是將遠(yuǎn)程恢復(fù)站點(diǎn)設(shè)在離主站點(diǎn)至少200英里以外的地方。
如果實(shí)際情況如上所述,那么進(jìn)行復(fù)制技術(shù)操作時所做的每一個決定都會受到影響。復(fù)制技術(shù)分兩種類型:同步復(fù)制和異步復(fù)制。前者的復(fù)制來源和目標(biāo)在數(shù)據(jù)狀態(tài)方面保持一致,如果復(fù)制來源和目標(biāo)相隔30英里以上,由于延遲問題會對生產(chǎn)應(yīng)用程序產(chǎn)生嚴(yán)重的影響。同步復(fù)制有距離限制,所以異步復(fù)制使用更廣泛,因?yàn)楹笳吣芎芎玫亟鉀QDR計劃長距離問題。
異步復(fù)制理論上能使復(fù)制來源和目標(biāo)在任何距離都保持同步,但目標(biāo)偶爾會滯后幾分鐘(這取決于存儲空間大小和網(wǎng)絡(luò)延遲的來源)。盡管如此,異步復(fù)制提供了一種必要的RPO性能,足以滿足災(zāi)難恢復(fù)計劃99.9%的要求。因此,對生產(chǎn)應(yīng)用程序基本上沒有影響。
恢復(fù)分級是一種經(jīng)常用來評估業(yè)務(wù)流程恢復(fù)技術(shù)和相關(guān)要求的方法。不是針對所有主要業(yè)務(wù)流程進(jìn)行評估和單獨(dú)制定恢復(fù)要求,而只是少數(shù)恢復(fù)等級被嚴(yán)格定義。每個等級都有一套與該等級范圍內(nèi)所有應(yīng)用環(huán)境相關(guān)聯(lián)的恢復(fù)性能指標(biāo)。例如,IT管理者通常定義以下三個等級:
等級1 RPO 5分鐘,RTO 1小時
應(yīng)用環(huán)境A,B
等級2 RPO 6小時,RTO 8小時
應(yīng)用環(huán)境C,D,E
等級3 RPO 1天或多于1天,RTO 1 RPO 5分鐘,RTO 1小時
所有其它的應(yīng)用環(huán)境
以上數(shù)字并不是用于提供業(yè)務(wù)建議,因?yàn)榛謴?fù)等級因業(yè)務(wù)內(nèi)容和調(diào)節(jié)指令不同而改變。但是,總體思路還是可以適用的:少數(shù)關(guān)鍵應(yīng)用程序要求的RPO和RTO值很低;另外一些非常重要的程序要求非常嚴(yán)格,不過沒有等級1嚴(yán)格;其它非重要程序,只需一兩天之內(nèi)完成恢復(fù)即可。
一般來說,滿足的恢復(fù)要求越苛刻,恢復(fù)方案的成本越昂貴。如果不用考慮成本因素,大部分終端用戶馬上會反應(yīng):只要恢復(fù)速度夠快,花多少錢我不在乎。事實(shí)上,也許他們根本不需要苛刻的恢復(fù)技術(shù)就能輕松解決問題。但是,要在滿足真正恢復(fù)要求和所需成本之間作出權(quán)衡,企業(yè)有必要對上文提到的步驟1有準(zhǔn)確的理解。
一旦確定RPO/RTO和恢復(fù)可靠性等關(guān)鍵指標(biāo),只需考慮要滿足IT基礎(chǔ)設(shè)施的類型。第一要考慮的是遠(yuǎn)程位置:自己是不是已經(jīng)擁有一個公司網(wǎng)點(diǎn),該網(wǎng)點(diǎn)能否在一個或更多的首要位置用作DR站點(diǎn)?如果企業(yè)不具有這樣一個網(wǎng)點(diǎn),需第一時間想辦法解決。
當(dāng)災(zāi)難事件發(fā)生時,可以從DR服務(wù)提供商那里租用設(shè)備,但必須謹(jǐn)慎為之。還可以選擇新的管理服務(wù)提供商,他們可以在一個大規(guī)模的共享基礎(chǔ)設(shè)施機(jī)構(gòu)(其支持多種租賃服務(wù))提供DR統(tǒng)計或儲蓄資源出租。
部分系統(tǒng)資源可能是專用的,如果主站點(diǎn)的停機(jī)時間超過數(shù)天,實(shí)際業(yè)務(wù)操作就顯得沒那么靈活。但是,對于沒有連接到遠(yuǎn)程站點(diǎn)的小規(guī)模公司而言,選擇管理服務(wù)供應(yīng)商是一個不錯的選擇。而且,如果同時具備一個可以用作遠(yuǎn)程恢復(fù)站點(diǎn)的位置,選擇會更多。
恢復(fù)工具通常會選用磁盤或磁帶。如果每周進(jìn)行1-2次的額外磁帶拷貝,通過地面運(yùn)輸把備份資料輸送到遠(yuǎn)程站點(diǎn)長期儲蓄,那么要達(dá)到的最佳RPO不能超過數(shù)日或一個星期。如果不能滿足要求,可考慮使用磁盤備份。跟磁帶相比,磁盤更適合用作備份和恢復(fù)工具,因?yàn)榇疟P兼容不同速度的數(shù)據(jù),支持隨機(jī)訪問,使用起來更可靠。
使用磁盤時,所有的主要恢復(fù)性能指標(biāo)會獲得很大程度上的提高。同時,磁盤還能提供其它技術(shù),尤其是DR同步復(fù)制技術(shù)和某些恢復(fù)進(jìn)程自動化技術(shù)。
這些技術(shù)可支持DR計劃的實(shí)施,幾分鐘內(nèi)實(shí)現(xiàn)RPOs,并在同樣的時間范圍內(nèi)實(shí)現(xiàn)RTOs.如果用戶打算使用復(fù)制技術(shù),需考慮對網(wǎng)絡(luò)帶寬帶來的潛在影響:要達(dá)到所需恢復(fù)點(diǎn)目標(biāo)(RPO)要求需要多少兆的寬帶?還有大量的WAN優(yōu)化技術(shù)減少了發(fā)送至遠(yuǎn)程站點(diǎn)支持恢復(fù)計劃的數(shù)據(jù)總量。
優(yōu)化技術(shù)包括TCP優(yōu)化、壓縮和其它存儲容量優(yōu)化技術(shù),以及帶寬塑造和其它質(zhì)量的服務(wù)工具。如果確定應(yīng)用程序環(huán)境的輸入/輸出率是要保護(hù)的對象,那么將很容易確定現(xiàn)有的網(wǎng)絡(luò)是否能滿足RPO要求或在增加復(fù)制時是否還需額外購買寬帶。
另外,用戶可能會有這樣的疑問:在本地站點(diǎn)和遠(yuǎn)程站點(diǎn)是不是需要有等效的硬件設(shè)備?使用的技術(shù)能否支持不同環(huán)境?假設(shè)今天大多數(shù)IT商店有很多不同設(shè)備供選擇,選擇使用支持異種環(huán)境的DR方案的成本效益會更高。具備支持異質(zhì)性特性的DR方案不僅有助于保存現(xiàn)有投資,而且以后購買新的服務(wù)器和存儲器可以享受最大限度的選擇自由。
現(xiàn)實(shí)和理論之間總是存在很大區(qū)別。即使已經(jīng)制定慎密的DR計劃,在理論上反復(fù)地推敲過,但要確保該計劃奏效,還必須不定期地對其進(jìn)行測試。由于系統(tǒng)、存貯設(shè)備和軟件不可避免會發(fā)生變動,部署的DR配置會隨時間逐漸削弱其可預(yù)知的執(zhí)行能力。主站點(diǎn)的生產(chǎn)系統(tǒng)只要發(fā)生小變動,就可能會導(dǎo)致遠(yuǎn)程站點(diǎn)的數(shù)據(jù)和系統(tǒng)程序無法恢復(fù)。最糟糕的是,真正的補(bǔ)救工作剛進(jìn)行到一半,非常嚴(yán)密的變更管理可能會論及此“削弱問題”,但是這才是真正的風(fēng)險所在。被復(fù)制的配置可能會很復(fù)雜,牽涉到不同供應(yīng)商提供的硬件和軟件,這些硬件和軟件必須做到同時工作,完美配合,才能順利達(dá)到恢復(fù)目標(biāo)。
雖然大多數(shù)DR管理者可能會排除以上風(fēng)險,但使用手動密集恢復(fù)操作的管理者們,如果不考慮到大量的故障標(biāo)識或故障隔離、以及如何使遠(yuǎn)程站點(diǎn)重新運(yùn)行等問題,那么將對自己的災(zāi)難恢復(fù)執(zhí)行能力沒有太多信心。
許多公司不愿嘗試DR計劃測試有一個很簡單的原因——測試對他們的生產(chǎn)程序環(huán)境具有破壞性,且花費(fèi)很高。尤其當(dāng)使用某種外包DR服務(wù)時,萬一失敗抑或沒能獲取數(shù)據(jù)恢復(fù),還需支付額外的費(fèi)用。假如運(yùn)用自己的基礎(chǔ)設(shè)備部署一個DR解決方案,更新的技術(shù)比如服務(wù)器和存儲虛擬化、持續(xù)數(shù)據(jù)保護(hù)(CDP)、異步復(fù)制,如果把這些技術(shù)跟DR測試自動化結(jié)合使用,有助于解決高破壞性和高成本的問題。虛擬化技術(shù)降低了對遠(yuǎn)程站點(diǎn)的硬件要求,減少了DR部署的總成本。像CDP這類技術(shù)可以保證執(zhí)行DR測試時不會對生產(chǎn)操作系統(tǒng)造成任何影響。
自動化技術(shù)使人們的進(jìn)行恢復(fù)操作的風(fēng)險因素減到最小,而且在減少恢復(fù)工作對管理員的高端技術(shù)依賴方面取得了成功,常規(guī)測試還能幫助企業(yè)進(jìn)行微調(diào)和提高恢復(fù)能力,同時逐步隨著恢復(fù)要求而不斷改善。
計劃書包括支持系統(tǒng)和網(wǎng)絡(luò)操作程序的各種流程,對所有IT管理學(xué)科都適用,而且經(jīng)實(shí)踐證明在IT資源分配和平均恢復(fù)前時間(MTTR)方面操作起來更高效。編寫DR計劃書只是創(chuàng)建可重復(fù)程序的步驟之一,該程序的目的是讓恢復(fù)結(jié)果變得可以預(yù)知。計劃書既包含如何執(zhí)行IT基礎(chǔ)設(shè)施恢復(fù)操作程序,也包含關(guān)于特殊要求和應(yīng)急處理的描述。用戶一旦確定自己的恢復(fù)計劃要求,可以用文件的形式把要求記錄下來,并保存幾份同步更新的副本——本地站點(diǎn)和遠(yuǎn)程站點(diǎn)至少各一份,同時還達(dá)到了以下目的:
·確保不管是誰在做這項(xiàng)恢復(fù)工作,都是遵循同樣的恢復(fù)過程。
·為恢復(fù)計劃隨著時間的推移日益改善做準(zhǔn)備。
俗話說,有備無患,災(zāi)難恢復(fù)計劃如同企業(yè)的日常業(yè)務(wù)保險,可以讓自己在遇到突發(fā)災(zāi)難事件的時候把損失減少到最低。既然災(zāi)難恢復(fù)計劃意義重大,企業(yè)不僅需要擁有一份主要的保險,而且應(yīng)該是適合自己的保險。因此,在進(jìn)行災(zāi)難恢復(fù)計劃之前,務(wù)必了解清楚自己的要求,然后就可以按照本文的五大步驟執(zhí)行恢復(fù)計劃。
參考資料:
1.http://www.inmage.com/
2.http://whitepaper.ctocio.com.cn/