文 | 劉躍 宋兵
難以預(yù)料的天災(zāi)與人禍,如火災(zāi)、地震、海嘯等造成信息系統(tǒng)出現(xiàn)損壞或數(shù)據(jù)丟失、無法提供服務(wù)等情況,甚至讓一個(gè)部門或社會(huì)局部停止運(yùn)轉(zhuǎn),造成嚴(yán)重后果。典型的像美國9.11事件發(fā)生一年后,350家曾在世貿(mào)大廈內(nèi)辦公的公司中的200余家,由于信息系統(tǒng)破壞,關(guān)鍵數(shù)據(jù)的丟失,就此關(guān)閉了。面對(duì)災(zāi)難,企業(yè)束手無策嗎?當(dāng)然不是。同樣在世貿(mào)大廈中辦公的摩根斯坦利公司由于建立了數(shù)據(jù)備份和遠(yuǎn)程容災(zāi)系統(tǒng),在前所未有的9.11災(zāi)難中,保護(hù)了公司的重要數(shù)據(jù),在第二天遍及全球的業(yè)務(wù)照常運(yùn)行。
所以,災(zāi)難不能預(yù)測(cè),但是可以預(yù)防,因此建立信息系統(tǒng)的異地容災(zāi)對(duì)企業(yè),特別是對(duì)那些全球覆蓋,二十四小時(shí)不間斷運(yùn)轉(zhuǎn),高度信息化的世界性新聞媒體集團(tuán)來講是非常重要的。
信息系統(tǒng)異地容災(zāi)是指在相隔較遠(yuǎn)的異地,建立兩套或多套功能相同的信息系統(tǒng),互相之間可以進(jìn)行健康狀態(tài)監(jiān)視和功能切換,當(dāng)一處系統(tǒng)因意外(如火災(zāi)、地震等)停止工作時(shí),整個(gè)應(yīng)用系統(tǒng)可以切換到另一套,使得該系統(tǒng)可以繼續(xù)提供服務(wù),保證業(yè)務(wù)的連續(xù)。
從技術(shù)上看,衡量容災(zāi)層次的主要有兩個(gè)指標(biāo):RPO(Recovery Point Object)和RTO(Recovery Time Object);RPO即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量;RTO是恢復(fù)時(shí)間目標(biāo),主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間周期。RPO針對(duì)的是數(shù)據(jù)丟失,而RTO針對(duì)的是服務(wù)丟失,二者沒有必然的關(guān)聯(lián)性。RTO和RPO的確定必須在進(jìn)行風(fēng)險(xiǎn)分析和業(yè)務(wù)影響分析后根據(jù)不同的業(yè)務(wù)需求確定。對(duì)于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會(huì)有所不同。
異地容災(zāi)的備份與恢復(fù)國家標(biāo)準(zhǔn)《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007 )規(guī)定了信息系統(tǒng)災(zāi)難恢復(fù)應(yīng)遵循的基本要求,適用于信息系統(tǒng)災(zāi)難恢復(fù)的規(guī)劃、審批、實(shí)施和管理。并對(duì)災(zāi)難恢復(fù)能力作了6個(gè)等級(jí)的劃分:第1級(jí) 基本支持,第2級(jí) 備用場(chǎng)地支持,第3級(jí) 電子傳輸和部分設(shè)備支持,第4級(jí) 電子傳輸及完整設(shè)備支持,第5級(jí)實(shí)時(shí)數(shù)據(jù)傳輸及完整設(shè)備支持,第6級(jí)數(shù)據(jù)零丟失和遠(yuǎn)程集群支持。
容災(zāi)系統(tǒng)所涉及的恢復(fù)技術(shù)一般包括三種:數(shù)據(jù)恢復(fù)技術(shù)、應(yīng)用恢復(fù)技術(shù)和網(wǎng)絡(luò)恢復(fù)技術(shù)。下面就這三種技術(shù)進(jìn)行簡要分析。
所謂數(shù)據(jù)恢復(fù)技術(shù),是指建立一個(gè)異地的數(shù)據(jù)備份系統(tǒng),作為本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)可用復(fù)制。在本地?cái)?shù)據(jù)或整個(gè)應(yīng)用系統(tǒng)出現(xiàn)災(zāi)難時(shí),確保在異地保存有一份可用的關(guān)鍵業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實(shí)時(shí)復(fù)制,也可以比本地?cái)?shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復(fù)制技術(shù)。按照其實(shí)現(xiàn)的技術(shù)方式來說,主要可以分為同步傳輸方式和異步傳輸方式。同步方式是指數(shù)據(jù)在本地和異地都保存成功后,才會(huì)返回應(yīng)用系統(tǒng)數(shù)據(jù)成功存儲(chǔ)的信息;而異步方式是數(shù)據(jù)只要在本地存儲(chǔ)成功,就返回應(yīng)用系統(tǒng)成功的信息,而數(shù)據(jù)存儲(chǔ)到異地是在后臺(tái)異步完成的。
應(yīng)用容災(zāi)恢復(fù)技術(shù)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng),也可以是互為備份。建立這樣一個(gè)系統(tǒng)是相對(duì)比較復(fù)雜的,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源,以及各種資源之間的良好協(xié)調(diào)。主要的技術(shù)包括負(fù)載均衡、集群技術(shù)。數(shù)據(jù)容災(zāi)是應(yīng)用容災(zāi)的技術(shù),應(yīng)用容災(zāi)是數(shù)據(jù)容災(zāi)的目標(biāo)。
網(wǎng)絡(luò)恢復(fù)技術(shù)一般有:1)4-7層交換機(jī),例如:無中斷的網(wǎng)絡(luò)恢復(fù)需要?jiǎng)討B(tài)網(wǎng)絡(luò)路由重選,來保證應(yīng)用能夠在不中斷最終用戶的情況下轉(zhuǎn)入備用數(shù)據(jù)中心。在SNA環(huán)境下通過APPN(Advanced Peer to Peer Networking)來完成,而在IP環(huán)境下則通過第4-7層轉(zhuǎn)換來完成。通過標(biāo)準(zhǔn)的基于路由器的技術(shù),可以在通用的IP傳輸上使用APPN;2)路由,例如:可以通過APPN和/或標(biāo)準(zhǔn)的路由協(xié)議來完成 (OSPF/EIGRP/BGP-4)在非GDPS 環(huán)境中,APPN應(yīng)用路由在容災(zāi)系統(tǒng)備用路徑可用時(shí),自動(dòng)恢復(fù)網(wǎng)絡(luò)連接。3)2層Reconnect,例如:SNA子網(wǎng)在以太網(wǎng)/SNA中通過ATM/幀中繼/DDN鏈路進(jìn)行互聯(lián),如果發(fā)生鏈路故障,則可以通過手工切換來實(shí)現(xiàn)網(wǎng)絡(luò)恢復(fù)。
綜上所述,在選擇容災(zāi)系統(tǒng)的架構(gòu)時(shí),還要建立多層次的廣域網(wǎng)絡(luò)故障切換機(jī)制。在遠(yuǎn)程的容災(zāi)系統(tǒng)中,要實(shí)現(xiàn)完整的應(yīng)用容災(zāi),既要包含本地系統(tǒng)的安全機(jī)制、遠(yuǎn)程的數(shù)據(jù)復(fù)制機(jī)制,還應(yīng)具有廣域網(wǎng)范圍的遠(yuǎn)程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強(qiáng)大的故障診斷和切換策略制訂機(jī)制,確??焖俚姆磻?yīng)和迅速的業(yè)務(wù)接管。實(shí)際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個(gè)整體,實(shí)現(xiàn)多級(jí)的故障切換和恢復(fù)機(jī)制,確保系統(tǒng)在各個(gè)范圍的可靠和安全。
在信息化高速發(fā)展的今天,信息系統(tǒng)已經(jīng)應(yīng)用到社會(huì)的方方面面,隨著信息系統(tǒng)數(shù)據(jù)量以指數(shù)方式爆發(fā)性增長,數(shù)據(jù)安全的重要性越來越大,各個(gè)組織對(duì)信息系統(tǒng)的依賴也越來越嚴(yán)重,成為組織能否成功的關(guān)鍵。
對(duì)于異地容災(zāi)系統(tǒng)的建立,建議通過分步實(shí)施,逐漸建立一套完善的系統(tǒng)容災(zāi)解決方案:
通過相應(yīng)的備份軟件,對(duì)目前所有的計(jì)算機(jī)系統(tǒng),做好完善的數(shù)據(jù)備份,特別是做好操作系統(tǒng)備份、文件系統(tǒng)備份、數(shù)據(jù)庫系統(tǒng)文件備份、數(shù)據(jù)庫數(shù)據(jù)文件備份、相關(guān)的核心應(yīng)用程序備份;建立好完善的備份/恢復(fù)機(jī)制和遠(yuǎn)程磁帶保管機(jī)制;這也是下一步實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制容災(zāi)的基礎(chǔ),容災(zāi)中心與生產(chǎn)中心的數(shù)據(jù)初始化同步,都是通過備份恢復(fù)方式,實(shí)現(xiàn)一個(gè)同步起點(diǎn)。備份非常重要,可以防止出現(xiàn)一些惡意操作或誤操作等造成的數(shù)據(jù)邏輯錯(cuò)誤。
建立備份系統(tǒng)后,再將備份文件在異地也保存一份,保證出現(xiàn)地理上的不可預(yù)見災(zāi)難時(shí),在異地保存一份完整的數(shù)據(jù)。異地備份中心地理位置的選擇,大的方面需要對(duì)政治、軍事、科技、人口和地質(zhì)環(huán)境等因素加以考慮,還要從企業(yè)或機(jī)構(gòu)的遠(yuǎn)景規(guī)劃,業(yè)務(wù)布局,實(shí)施、維護(hù)便利性等方面考慮。
存儲(chǔ)整合是指通過相關(guān)的產(chǎn)品選擇,將各服務(wù)器的數(shù)據(jù)、或應(yīng)用,通過基于一定的管理及后續(xù),實(shí)現(xiàn)數(shù)據(jù)的快照、鏡像等技術(shù),遷移到外置基于SAN的陣列庫中,通過唯一的管理接口,實(shí)現(xiàn)統(tǒng)一管理,屏蔽不同廠商陣列的差異。為后續(xù)進(jìn)行容災(zāi)管理奠定基礎(chǔ)。
應(yīng)用整合是指通過相應(yīng)的應(yīng)用集群管理軟件,管理所有的應(yīng)用系統(tǒng)狀態(tài)。對(duì)現(xiàn)有的數(shù)據(jù)庫系統(tǒng)Oracle、SQL Server、DB2、中間件等應(yīng)用,實(shí)現(xiàn)雙機(jī)、多機(jī)或是單機(jī)集群管理。操作系統(tǒng)平臺(tái)相同的,可以整合在一起,實(shí)現(xiàn)多機(jī)集群,不同的數(shù)據(jù)庫實(shí)例,只是作為一個(gè)“數(shù)據(jù)庫服務(wù)組”,運(yùn)行在多機(jī)或雙機(jī)中的某一臺(tái)服務(wù)器上,為中間件、其他應(yīng)用建立“應(yīng)用服務(wù)組”,也納入到集群軟件的管理;并且動(dòng)過集權(quán)軟件建立“應(yīng)用服務(wù)組”與“數(shù)據(jù)庫服務(wù)組”或其他“應(yīng)用服務(wù)組”的依賴關(guān)系,實(shí)現(xiàn)對(duì)應(yīng)用啟動(dòng)、關(guān)閉的有序管理。
如果是Oracle RAC的應(yīng)用,則需要集權(quán)軟件支持,因此在選擇集權(quán)管理軟件時(shí)要納入考慮因素,通過RAC的支持使得數(shù)據(jù)庫的 RAC應(yīng)用也在集群軟件的管理之下。
通過第二步的存儲(chǔ)和應(yīng)用整合,使得所有需要容災(zāi)的核心系統(tǒng),全部納入到一個(gè)統(tǒng)一的管理平臺(tái)之下,我們將規(guī)劃好應(yīng)用數(shù)據(jù)的存放方式、數(shù)據(jù)文件的存放地點(diǎn)、日志的存放地點(diǎn),然后統(tǒng)一為這些數(shù)據(jù)指定一定的存儲(chǔ)策略,實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)實(shí)時(shí)復(fù)制。
遠(yuǎn)程數(shù)據(jù)實(shí)時(shí)復(fù)制,達(dá)到了真正的數(shù)據(jù)高可用,任何一個(gè)節(jié)點(diǎn)出現(xiàn)問題時(shí),可以在很短的時(shí)間內(nèi),將應(yīng)用切換到另外一個(gè)節(jié)點(diǎn),實(shí)現(xiàn)業(yè)務(wù)的連續(xù)性。
在數(shù)據(jù)庫復(fù)制初始化完成,相關(guān)應(yīng)用復(fù)制完成,就可以實(shí)現(xiàn)相關(guān)應(yīng)用的“消防演習(xí)”了。這是保證容災(zāi)系統(tǒng)正常工作的最有效的手段。
確定外部DNS服務(wù)器對(duì)本地服務(wù)器與容災(zāi)中心服務(wù)器IP地址的對(duì)應(yīng)關(guān)系,確定DNS 更新的內(nèi)容。切換在某些情況下,也是一個(gè)非常復(fù)雜的過程,因?yàn)樯婕扒袚Q的內(nèi)容還是很多的,包括數(shù)據(jù)庫、應(yīng)用系統(tǒng)、安全系統(tǒng)、中間件等等,所以最好是能夠建立一些自動(dòng)切換的手段,提高切換的效率和可靠。
筆者以某傳媒集團(tuán)的異地容災(zāi)系統(tǒng)建設(shè)過程為例,在此簡單的介紹和分析容災(zāi)系統(tǒng)建設(shè)過程,總結(jié)實(shí)施中的經(jīng)驗(yàn)。
該傳媒集團(tuán)業(yè)務(wù)范圍遍布各大洲,主要業(yè)務(wù)系統(tǒng)數(shù)據(jù)集中存放在總部數(shù)據(jù)中心,數(shù)據(jù)庫為Oracle;應(yīng)用系統(tǒng)為C/S結(jié)構(gòu),終端分布部署在各分支機(jī)構(gòu),通過分支的中間層服務(wù)器和數(shù)據(jù)庫進(jìn)行通信。
項(xiàng)目建設(shè)之前,該集團(tuán)已經(jīng)有非常完善的數(shù)據(jù)備份恢復(fù)機(jī)制,能夠保證數(shù)據(jù)的RPO,但是,因?yàn)樵摷瘓F(tuán)需要一個(gè)不間斷的業(yè)務(wù)保證,而且一旦發(fā)生一些地理上的自然災(zāi)害等導(dǎo)致總部數(shù)據(jù)出現(xiàn)問題的時(shí)候(包括備份數(shù)據(jù)),該集團(tuán)的業(yè)務(wù)將很難恢復(fù)。為此,管理層討論后決策,建設(shè)總部數(shù)據(jù)中心的異地容災(zāi)系統(tǒng),一方面保證數(shù)據(jù)的安全,另一方面,要保證業(yè)務(wù)的連續(xù)。
經(jīng)過對(duì)該集團(tuán)業(yè)務(wù)特點(diǎn)分析,明確系統(tǒng)的異地容災(zāi)需要具有如下能力:
1) 數(shù)據(jù)能夠在“運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”之間達(dá)到接近實(shí)時(shí)的復(fù)制,保障數(shù)據(jù)在上千公里外的異地有一份完全相同的副本,不但要保證數(shù)據(jù)復(fù)制的準(zhǔn)確性、一致性等,更重要的是,兩個(gè)節(jié)點(diǎn)之間要能夠隨時(shí)“互換”,也就是說數(shù)據(jù)可以從“運(yùn)行節(jié)點(diǎn)”復(fù)制到“備份節(jié)點(diǎn)”,當(dāng)運(yùn)行節(jié)點(diǎn)出現(xiàn)問題業(yè)務(wù)切換到“備份節(jié)點(diǎn)”時(shí),數(shù)據(jù)也可以從“備份節(jié)點(diǎn)”復(fù)制到“運(yùn)行節(jié)點(diǎn)”;
2) “運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”都要做好數(shù)據(jù)的備份,防止出現(xiàn)惡意操作或誤操作造成的數(shù)據(jù)邏輯錯(cuò)誤。因?yàn)楫?dāng)“運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”之間數(shù)據(jù)進(jìn)行實(shí)時(shí)復(fù)制時(shí),一旦發(fā)生前端的誤操作,可能會(huì)導(dǎo)致數(shù)據(jù)庫中數(shù)據(jù)的邏輯錯(cuò)誤,如果沒有數(shù)據(jù)的定期備份,錯(cuò)誤的數(shù)據(jù)就很難恢復(fù);
3) 當(dāng)真正發(fā)生災(zāi)難時(shí),系統(tǒng)的運(yùn)行環(huán)境能夠迅速的從“運(yùn)行節(jié)點(diǎn)”切換到“備份節(jié)點(diǎn)”,保證業(yè)務(wù)的連續(xù)性。切換涉及到的數(shù)據(jù)庫、中間件、安全、DNS等各種服務(wù),都需要進(jìn)行平滑、迅速的切換,不能有太多人工干預(yù)的操作;
4) 平時(shí)運(yùn)行中,建立“演練切換機(jī)制”,定期將系統(tǒng)的運(yùn)行環(huán)境在“運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”之間切換,一方面是使資源的利用率更加合理,另一方面也是不斷的對(duì)切換流程進(jìn)行驗(yàn)證完善;
5) 建立并完善“安全系統(tǒng)”等關(guān)鍵支撐平臺(tái)的高可用。在本方案中,DNS服務(wù)器、安全服務(wù)器、應(yīng)用服務(wù)器等;
6) 建立網(wǎng)絡(luò)通道備份機(jī)制,防止因?yàn)榫W(wǎng)絡(luò)出現(xiàn)問題造成系統(tǒng)切換失效。
1) 在“運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”之間建立兩條網(wǎng)絡(luò)傳輸通路,其中一條用作備份,而且在選擇網(wǎng)絡(luò)服務(wù)提供商時(shí),該集團(tuán)選擇了兩家。同時(shí),通過路由技術(shù)建立網(wǎng)絡(luò)的切換機(jī)制,保證在一條物理鏈路出現(xiàn)問題時(shí),能夠快速的切換到另外一條,做到了鏈路冗余,這樣保證了兩個(gè)數(shù)據(jù)中心之間網(wǎng)絡(luò)的高可用,為建立系統(tǒng)的異地容災(zāi)奠定了堅(jiān)實(shí)的基礎(chǔ);
2) “運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”上的Oracle數(shù)據(jù)庫之間采用Quest公司的SharePlex進(jìn)行數(shù)據(jù)的雙向異步準(zhǔn)實(shí)時(shí)同步,確保兩節(jié)點(diǎn)上的數(shù)據(jù)都處于在線可用狀態(tài)。
3) 在進(jìn)行數(shù)據(jù)同步之初,由于對(duì)產(chǎn)品不太熟悉,有些配置不當(dāng)?shù)牡胤剑斐闪藬?shù)據(jù)的少量缺失,后來建立了兩節(jié)點(diǎn)之間數(shù)據(jù)的核對(duì)機(jī)制,發(fā)現(xiàn)錯(cuò)誤后,及時(shí)修正,最終保證了數(shù)據(jù)的一致。
4) 采用SharePlex進(jìn)行數(shù)據(jù)同步時(shí),還需要解決下面的難題:數(shù)據(jù)庫結(jié)構(gòu)的升級(jí),因?yàn)閿?shù)據(jù)庫結(jié)構(gòu)的變化有很多,比如修改主鍵、增加字段、修改字段等等,這些都得需要對(duì)SharePlex進(jìn)行同步的配置,而且同時(shí)需要對(duì)兩個(gè)節(jié)點(diǎn)的數(shù)據(jù)庫都要升級(jí)才能滿足要求。需要建立方便、可靠的升級(jí)機(jī)制,保證了數(shù)據(jù)庫結(jié)構(gòu)升級(jí)的順利進(jìn)行。
5) “運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”的數(shù)據(jù)庫都制定完善的本地備份策略,并嚴(yán)格實(shí)施。該項(xiàng)目中,兩節(jié)點(diǎn)的數(shù)據(jù)備份時(shí)通過兩種手段實(shí)現(xiàn):一種是采用硬盤的鏡像技術(shù)實(shí)現(xiàn)的,這樣不但速度快,而且穩(wěn)定可靠,還可以提供一個(gè)在線可以使用的數(shù)據(jù)庫,但是容量有限;另一種就是采用磁帶備份技術(shù),并定期將磁帶運(yùn)往同城異地,保證備份文件的安全。
6) 在“運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”分別建立CA、SCA和RA服務(wù)器,平時(shí)只使用運(yùn)行節(jié)點(diǎn)的服務(wù),并做好兩節(jié)點(diǎn)之間服務(wù)器上配置信息的同步,當(dāng)運(yùn)行節(jié)點(diǎn)出現(xiàn)問題時(shí),切換到備份節(jié)點(diǎn)。
盡管做了充分準(zhǔn)備,在該項(xiàng)目實(shí)際進(jìn)行中,依然遇到了很多問題,但都通過各種手段研究解決,這充分說明了實(shí)踐出真知。通過這個(gè)項(xiàng)目,總結(jié)一下在實(shí)施異地容災(zāi)項(xiàng)目時(shí)應(yīng)注意的問題。
1) 技術(shù)工具的專業(yè)化
異地容災(zāi)技術(shù)要求高,術(shù)業(yè)有專攻,需要工具、組件專業(yè)化。在選擇數(shù)據(jù)庫復(fù)制軟件時(shí),項(xiàng)目組最先準(zhǔn)備采用數(shù)據(jù)庫軟件附屬的復(fù)制工具,但配置復(fù)雜,難于操作,還遇到一些意想不到的問題。所以,轉(zhuǎn)向考察一些專業(yè)的數(shù)據(jù)復(fù)制工具軟件,通過對(duì)專業(yè)工具軟件測(cè)試比較發(fā)現(xiàn),這些軟件比功能完善,使用方便,提高了數(shù)據(jù)庫復(fù)制的可靠性。
2) 做好數(shù)據(jù)的準(zhǔn)確性比對(duì)
在項(xiàng)目實(shí)施完成,正式開始使用時(shí),一定要注意“運(yùn)行節(jié)點(diǎn)”和“備份節(jié)點(diǎn)”之間數(shù)據(jù)的一致性,最好是提前做好數(shù)據(jù)對(duì)比程序,并由專人負(fù)責(zé)比對(duì),一旦發(fā)現(xiàn)問題,務(wù)必及時(shí)處理。否則,當(dāng)時(shí)間長了以后,數(shù)據(jù)誤差越積越多,最終造成很嚴(yán)重的數(shù)據(jù)準(zhǔn)確性問題,就會(huì)使方案得不償失了。所以,做好數(shù)據(jù)基準(zhǔn)點(diǎn)工作很重要。
3) 編寫必要的切換程序
該項(xiàng)目在實(shí)施之初,對(duì)提高切換的自動(dòng)程度缺乏考慮,造成了切換過程需要很多人工干預(yù)工作,降低了工作效率,更容易引入人為失誤。后來經(jīng)過分析整理,項(xiàng)目組編寫了一個(gè)簡練高效的切換程序,“一鍵”完成切換,自動(dòng)化程度大幅提高。所以,在具體設(shè)計(jì)切換方案時(shí),最好將切換過程標(biāo)準(zhǔn)化、自動(dòng)化,提高切換的效率和穩(wěn)定性。
4) 做好DNS、路由、安全等關(guān)鍵節(jié)點(diǎn)的高可用
異地容災(zāi)系統(tǒng)中,很多切換都是通過DNS服務(wù)器完成重定向的,所以DNS服務(wù)器本身的高可用和容災(zāi)一定要做好,其他的比如安全服務(wù)、路由等也都要做好高可用,保證在系統(tǒng)切換時(shí),這些關(guān)鍵要素要予以充分重視。
5) 成立“異地容災(zāi)委員會(huì)”
在所有的要素中,人是最重要的。在建設(shè)異地容災(zāi)項(xiàng)目時(shí),最重要的因素是“人”,一定要建立相應(yīng)的組織,專門負(fù)責(zé)異地容災(zāi)的管理,包括方案的制定、切換演習(xí)等,最好有高層領(lǐng)導(dǎo)統(tǒng)籌,這樣整項(xiàng)工作才有條不紊,具有效率。
6) 制定完善的切換預(yù)案并定期演練
方案考慮再周全,也要經(jīng)過實(shí)踐的驗(yàn)證。所以在該項(xiàng)目建設(shè)過程中,每個(gè)階段都進(jìn)行多次演練,以驗(yàn)證各個(gè)環(huán)節(jié)的可靠性,發(fā)現(xiàn)問題,解決問題,提高人員操作的熟練性。