侯玨 張博文
摘要:如今我們正快步邁向“DT(Data Technology)時(shí)代”,大數(shù)據(jù)逐漸受到國家和企業(yè)的高度重視,數(shù)據(jù)安全的問題顯得尤為重要。由此,企業(yè)逐步推進(jìn)數(shù)據(jù)資源中心的異地容災(zāi)方案的設(shè)計(jì)與實(shí)施。該文介紹了基于CDP(Continuous Data Pro-tection,連續(xù)數(shù)據(jù)保護(hù))技術(shù)的應(yīng)用級(jí)容災(zāi)方案和災(zāi)難發(fā)生時(shí)CDP技術(shù)實(shí)施的具體情況。
關(guān)鍵詞:數(shù)據(jù)安全;快照技術(shù);CDP;數(shù)據(jù)備份;容災(zāi)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)19-0015-02
1數(shù)據(jù)安全關(guān)乎企業(yè)的命脈
現(xiàn)在正值21世紀(jì)的第二個(gè)十年,各行各業(yè)中企業(yè)的數(shù)據(jù)以指數(shù)方式增長,我們正由“IT(Information Technology)時(shí)代”大步進(jìn)入“DT(Data Technology)時(shí)代”。大數(shù)據(jù)中數(shù)據(jù)挖掘技術(shù)可以為企業(yè)創(chuàng)造價(jià)值,同時(shí)數(shù)據(jù)安全的問題則突顯其關(guān)乎企業(yè)生存和發(fā)展的命脈。
2015年5月28日上午11時(shí)許,攜程旅行官網(wǎng)網(wǎng)站突然陷入癱瘓,其部分服務(wù)器遭受不明攻擊,直接遭受千萬級(jí)經(jīng)濟(jì)損失,隨后其數(shù)據(jù)庫中某些數(shù)據(jù)被物理刪除,連帶的損失不可估量,再一次給企業(yè)的數(shù)據(jù)安全敲響了警鐘。應(yīng)用容災(zāi)技術(shù)可以避免類似災(zāi)難的重現(xiàn),既能保證企業(yè)數(shù)據(jù)的安全,又能保證業(yè)務(wù)的連續(xù)性。
2容災(zāi)方案的基本要求和目標(biāo)
以筆者所在的企業(yè)為例,該企業(yè)在北京擁有自主建立和運(yùn)維的企業(yè)級(jí)數(shù)據(jù)中心機(jī)房,擁有上百臺(tái)硬件設(shè)備。該數(shù)據(jù)中心機(jī)房同時(shí)接人了中國聯(lián)通和中國電信各20M獨(dú)享專線,經(jīng)過F5鏈路負(fù)載均衡設(shè)備實(shí)現(xiàn)不同用戶依據(jù)其所處網(wǎng)絡(luò)的不同(聯(lián)通或者電信)來自由地選擇最佳的鏈路進(jìn)行訪問。網(wǎng)絡(luò)系統(tǒng)則采用了全千兆以太網(wǎng)技術(shù),配置了企業(yè)級(jí)交換機(jī)作為網(wǎng)絡(luò)核心交換機(jī),實(shí)現(xiàn)了網(wǎng)絡(luò)動(dòng)態(tài)管理和虛擬局域網(wǎng)的功能。而核心網(wǎng)絡(luò)采用的是思科65系列交換機(jī),負(fù)責(zé)全網(wǎng)數(shù)據(jù)的高速無阻塞交換、路由管理、網(wǎng)絡(luò)管理、網(wǎng)絡(luò)服務(wù)和核心數(shù)據(jù)處理等。網(wǎng)絡(luò)安全方面配置思科防火墻,并按業(yè)務(wù)等級(jí)進(jìn)行安全區(qū)域劃分。機(jī)房所用服務(wù)器及存儲(chǔ)全部選用國際領(lǐng)先的IBM、Oracle品牌,并根據(jù)功能需求部署UNIX和Windows Server系統(tǒng)架構(gòu)。應(yīng)用系統(tǒng)數(shù)據(jù)庫采用當(dāng)今世界上最主流的Oracle產(chǎn)品,現(xiàn)有數(shù)據(jù)量已超過20T,預(yù)計(jì)5年內(nèi)數(shù)據(jù)容量可達(dá)50T,日增量至少有20G。該企業(yè)共有20多個(gè)生產(chǎn)系統(tǒng),不同的生產(chǎn)系統(tǒng)分別運(yùn)行在各自獨(dú)立的服務(wù)器上,通過光纖交換機(jī)連接到獨(dú)立的存儲(chǔ)。
為進(jìn)一步提高該企業(yè)數(shù)據(jù)中心的安全可靠運(yùn)行,防止類似“美國911”等災(zāi)難性事故對(duì)核心業(yè)務(wù)產(chǎn)生致命影響,筆者設(shè)計(jì)在距離北京數(shù)據(jù)中心超過2000公里的廣州建立異地容災(zāi)中心。北京數(shù)據(jù)中心作為生產(chǎn)中心提供日常對(duì)外業(yè)務(wù)訪問,廣州數(shù)據(jù)中心作為北京的異地容災(zāi)中心提供極端災(zāi)難情況下的應(yīng)用接管和數(shù)據(jù)恢復(fù)。廣州容災(zāi)中心可以解決生產(chǎn)中心出現(xiàn)硬件物理故障、人為誤操作、病毒攻擊等造成的數(shù)據(jù)丟失、損壞等問題。也可以防止發(fā)生地震、臺(tái)風(fēng)、火災(zāi)、暴力襲擊等造成建筑物倒塌導(dǎo)致嚴(yán)重?fù)p壞機(jī)房設(shè)備。
本文所述異地容災(zāi)方案的主要目標(biāo)有:(1)完善核心關(guān)鍵業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu);(2)建設(shè)異地應(yīng)用級(jí)災(zāi)備中心;(3)部署異地容災(zāi)備份系統(tǒng)網(wǎng)絡(luò)架構(gòu)、服務(wù)器系統(tǒng);(4)實(shí)現(xiàn)本地的應(yīng)急恢復(fù)系統(tǒng)和異地應(yīng)用級(jí)容災(zāi)的雙重保護(hù)。
3異地容災(zāi)技術(shù)概述
異地容災(zāi),顧名思義就是在不同的地域,構(gòu)建一套或者多套相同的應(yīng)用或者數(shù)據(jù)庫,起到災(zāi)難后立刻接管的作用。衡量容災(zāi)技術(shù)有兩個(gè)指標(biāo),分別是RTO和RPO。災(zāi)難來臨時(shí)抗擊數(shù)據(jù)損失量的指標(biāo)為RPO(Recovery Point Objective),以數(shù)據(jù)為出發(fā)點(diǎn),業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。發(fā)生災(zāi)難后,啟動(dòng)容災(zāi)系統(tǒng)完成數(shù)據(jù)恢復(fù)。RPO值越小越好,理論上RPO可以做到為零。
以恢復(fù)數(shù)據(jù)的時(shí)間為出發(fā)點(diǎn)的評(píng)價(jià)指標(biāo)為RTO(RecoveryTime Objective),假如災(zāi)難來臨,從容災(zāi)發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間,同樣是RTO值越小越好。
目前,國際上通用的容災(zāi)系統(tǒng)的評(píng)審標(biāo)準(zhǔn)為SHARE 78,其M028報(bào)告中根據(jù)災(zāi)難恢復(fù)方案依據(jù)對(duì)于數(shù)據(jù)保護(hù)的程度定義為0至6共7個(gè)不同的容災(zāi)級(jí)別,最低級(jí)別是0級(jí),最高級(jí)別是6級(jí),數(shù)據(jù)可以實(shí)現(xiàn)零丟失。這些不同級(jí)別的系統(tǒng)建設(shè),資金投入的差距是十分巨大的。
CDP(持續(xù)數(shù)據(jù)保護(hù))是一種在不影響主要數(shù)據(jù)運(yùn)行的前提下,可以實(shí)現(xiàn)持續(xù)捕捉或跟蹤目標(biāo)數(shù)據(jù)所發(fā)生的任何改變,并且能夠恢復(fù)到此前任意時(shí)間點(diǎn)的方法。即在不影響主要數(shù)據(jù)運(yùn)行的前提下,可以捕獲或者跟蹤數(shù)據(jù)的變化,并將其在生產(chǎn)中心數(shù)據(jù)之外獨(dú)立存放,確保數(shù)據(jù)能夠恢復(fù)至歷史任何時(shí)間點(diǎn)。它是精度極細(xì)的數(shù)據(jù)塊級(jí)別保護(hù)技術(shù),不僅可以將各時(shí)間點(diǎn)數(shù)據(jù)在本地保存實(shí)現(xiàn)備份,也能夠通過智能化的精簡異地傳輸技術(shù)將數(shù)據(jù)傳到異地備份。
4異地容災(zāi)方案設(shè)計(jì)
本方案的建設(shè)與實(shí)施本著實(shí)用性、可靠性、先進(jìn)性、可擴(kuò)展性和經(jīng)濟(jì)性這幾個(gè)原則來主導(dǎo)。遠(yuǎn)程數(shù)據(jù)備份與系統(tǒng)恢復(fù)意義重大,技術(shù)細(xì)節(jié)復(fù)雜,投入的人力物力巨大,任何方面都不能有所疏忽。筆者為該企業(yè)設(shè)計(jì)的CDP容災(zāi)解決方案總體架構(gòu)如圖1所示:
詳細(xì)結(jié)構(gòu)說明如下:
1)北京生產(chǎn)中心部署以CDP容災(zāi)管理器為核心的持續(xù)數(shù)據(jù)保護(hù)系統(tǒng)。連接到FC SAN網(wǎng)絡(luò)中,通過FC連接到生產(chǎn)存儲(chǔ)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)保護(hù),并通過以太網(wǎng)進(jìn)行管理。
2)北京數(shù)據(jù)中心(生產(chǎn)中心)設(shè)置256份快照點(diǎn),廣州數(shù)據(jù)中心容災(zāi)管理器服務(wù)器同樣可配置至少256份快照(Time-Mark),實(shí)現(xiàn)災(zāi)備中心多歷史點(diǎn)的保護(hù),使歷史數(shù)據(jù)得到了雙重保護(hù)。
3)遠(yuǎn)程復(fù)制采用TCP/IP協(xié)議,某一時(shí)刻的復(fù)制策略要根據(jù)生產(chǎn)系統(tǒng)每天具體的數(shù)據(jù)增量還有主次業(yè)務(wù)占用傳輸帶寬率來靈活變化。本方案中的容災(zāi)管理器可以在低帶寬情況下完成所有要求的災(zāi)備功能。
4)廣州容災(zāi)中心構(gòu)建一套支撐系統(tǒng)來實(shí)時(shí)備份北京生產(chǎn)中心的數(shù)據(jù)。廣州容災(zāi)中心部署的主機(jī)系統(tǒng)與生產(chǎn)系統(tǒng)同構(gòu),數(shù)量和性能比生產(chǎn)中心稍低即可,災(zāi)難發(fā)生時(shí)的接管系統(tǒng)部署為X86服務(wù)器,采用虛擬化連接形式確保災(zāi)備中心能夠快速重建數(shù)據(jù)中心應(yīng)用系統(tǒng)環(huán)境,并實(shí)現(xiàn)備份業(yè)務(wù)系統(tǒng)對(duì)工作系統(tǒng)有效替代。
容災(zāi)中心與生產(chǎn)中心實(shí)時(shí)的快照卷能夠保證發(fā)生災(zāi)難后,容災(zāi)中心可以直接掛起使用并保證數(shù)據(jù)庫上一快照點(diǎn)的數(shù)據(jù)。對(duì)于在災(zāi)備中心上一快照點(diǎn)與生產(chǎn)卷的時(shí)間差產(chǎn)生的增量數(shù)據(jù),可以在非繁忙區(qū)通過傳統(tǒng)方式回滾等手段先恢復(fù)到生產(chǎn)卷到正常狀態(tài),并通過業(yè)務(wù)及應(yīng)用手段抓取中間變化部分,并插入到作為生產(chǎn)應(yīng)用的快照卷中,即完成的數(shù)據(jù)合并。這樣的技術(shù)既解決了RPO、RTO在災(zāi)備中心接管的全要求,最大限度地減少拉起時(shí)間和數(shù)據(jù)損失。
5災(zāi)難發(fā)生時(shí)CDP裝置的應(yīng)對(duì)措施
5.1數(shù)據(jù)庫表級(jí)別的丟失或損壞
由于誤操作或病毒入侵等原因,數(shù)據(jù)庫會(huì)出現(xiàn)表的記錄丟失或損壞情況。面對(duì)這種災(zāi)難,需要在主機(jī)上掛載CDP提供的歷史快照,該快照包含完整的記錄條目。然后再使用數(shù)據(jù)庫命令將丟失或損壞的記錄導(dǎo)人到生產(chǎn)數(shù)據(jù)庫中即可。
5.2數(shù)據(jù)庫和應(yīng)用系統(tǒng)的文件丟失或損壞
若是數(shù)據(jù)庫文件丟失或損壞這類邏輯錯(cuò)誤,可以采用提取歷史快照的方法找回歷史數(shù)據(jù)。找到?jīng)]有丟失的時(shí)間點(diǎn)提取快照,并分配給主機(jī),然后在主機(jī)上運(yùn)行掃描命令新增磁盤,完成后啟動(dòng)數(shù)據(jù)庫將需要的表或數(shù)據(jù)庫導(dǎo)出,再導(dǎo)入到原來的數(shù)據(jù)庫即可。如果情況十分緊急,CDP的快照是可讀可寫的,可以直接使用CDP快照磁盤接管業(yè)務(wù)。
1)數(shù)據(jù)庫和應(yīng)用系統(tǒng)無法正常啟動(dòng)
當(dāng)數(shù)據(jù)庫或應(yīng)用系統(tǒng)出現(xiàn)問題無法啟動(dòng)時(shí),可以先使用NSS中的快照進(jìn)行接管。方法是將歷史快照提取出來,然后分配給主機(jī),主機(jī)上運(yùn)行掃描命令新增磁盤,然后啟動(dòng)數(shù)據(jù)庫或應(yīng)用即可。
2)生產(chǎn)存儲(chǔ)發(fā)生故障
當(dāng)生產(chǎn)盤出現(xiàn)故障時(shí),NSS鏡像盤會(huì)自動(dòng)接管業(yè)務(wù),數(shù)據(jù)庫系統(tǒng)根本感知不到中斷和設(shè)備災(zāi)難,實(shí)現(xiàn)了RPO=0和RTO=0的理想。當(dāng)硬盤恢復(fù)時(shí)數(shù)據(jù)會(huì)在陣列中自動(dòng)同步。
3)災(zāi)備中心數(shù)據(jù)驗(yàn)證拉起
當(dāng)發(fā)生自然災(zāi)害等站點(diǎn)級(jí)別的災(zāi)難導(dǎo)致北京生產(chǎn)中心癱瘓的情況下,啟動(dòng)廣州災(zāi)備中心的容災(zāi)系統(tǒng)來恢復(fù)數(shù)據(jù)。廣州災(zāi)備中心只需要啟用災(zāi)備處理服務(wù)器,通過災(zāi)備中心的容災(zāi)管理器獲取最新的生產(chǎn)數(shù)據(jù),并立即啟動(dòng)數(shù)據(jù)庫和應(yīng)用系統(tǒng)進(jìn)行業(yè)務(wù)運(yùn)行,整個(gè)恢復(fù)過程可在短時(shí)間內(nèi)完成。當(dāng)生產(chǎn)中心修復(fù)后,災(zāi)備中心的容災(zāi)管理器能以增量的方式將數(shù)據(jù)同步回生產(chǎn)中心,輕松實(shí)現(xiàn)系統(tǒng)回退。
當(dāng)然,災(zāi)備切換是一系列技術(shù)操作的過程組合,不是單一的技術(shù)動(dòng)作。站點(diǎn)級(jí)災(zāi)難發(fā)生時(shí),災(zāi)難宣告后原數(shù)據(jù)中心的業(yè)務(wù)流切換到災(zāi)備中心。接收業(yè)務(wù)流前,災(zāi)備的應(yīng)用和數(shù)據(jù)庫服務(wù)器需要掛起容災(zāi)管理器可用數(shù)據(jù)(經(jīng)驗(yàn)證機(jī)校驗(yàn)過的可用數(shù)據(jù))對(duì)外服務(wù)。而且,服務(wù)的啟動(dòng)順序有嚴(yán)格的要求。數(shù)據(jù)庫必須先啟動(dòng),之后才能啟動(dòng)應(yīng)用程序;應(yīng)用服務(wù)器接管完成后,才能進(jìn)行網(wǎng)絡(luò)的切換。
總之,企業(yè)數(shù)據(jù)安全意義非凡、責(zé)任重大,應(yīng)主動(dòng)避免數(shù)據(jù)損毀會(huì)給企業(yè)帶來致命損失的風(fēng)險(xiǎn)隱患。容災(zāi)技術(shù)盡管防范的僅僅是小概率事件,也需要未雨綢繆,防患于未然,讓企業(yè)與用戶得以放心地享受“DT時(shí)代”的科技成果,并借著數(shù)據(jù)時(shí)代的東風(fēng)奮勇向前。