劉郁恒+楊龍剛
【摘 要】為了解決移動互聯(lián)網(wǎng)時代業(yè)務(wù)運營支撐系統(tǒng)容災(zāi)支撐能力不足的問題,通過分析業(yè)務(wù)運營支撐系統(tǒng)對雙活容災(zāi)建設(shè)的需求,采用雙活、大二層網(wǎng)絡(luò)架構(gòu)等先進技術(shù),提出了網(wǎng)絡(luò)層雙活、存儲層雙活、數(shù)據(jù)庫層雙活、應(yīng)用層雙活及系統(tǒng)組網(wǎng)高可靠性的雙活容災(zāi)建設(shè)方案,從而有效提升業(yè)務(wù)運營支撐系統(tǒng)的可靠性和健壯性。
【關(guān)鍵詞】業(yè)務(wù)運營支撐系統(tǒng) 雙活并行 容災(zāi) 大二層網(wǎng)絡(luò) DNS集群
Research on Active-Active Disaster Recovery Construction Scheme of Business Operation Support System
[Abstract] In order to solve the problem of the insufficient disaster recovery capacity of the business operations support system in the era of mobile Internet, the requirement of the business operations support system for the active-active disaster recovery construction was analyzed. Advanced techniques of active-active and Large Layer 2 network architecture were adopted to propose a highly reliable active-active disaster recovery construction scheme, in which the active-active is applied to the network layer, storage layer and database layer. It can effectively enhance the reliability and the robustness of the business operations support system.
[Key words]business operation support system active-active in parallel disaster recovery Large Layer 2 networkDNS cluster
1 引言
隨著移動互聯(lián)網(wǎng)時代的快速發(fā)展、信息化的不斷加深和信息量的飛速增長,信息本身已經(jīng)成為企業(yè)生存和競爭的核心價值所在。同時,在云計算和大數(shù)據(jù)技術(shù)的催生下,信息集中度越來越高,隨之而來的風(fēng)險也將不斷升級,這種社會技術(shù)環(huán)境的變化對業(yè)務(wù)運營支撐系統(tǒng)的數(shù)據(jù)災(zāi)難備份能力提出了新的挑戰(zhàn)與機遇。由于地震、颶風(fēng)、暴風(fēng)雪或其他自然災(zāi)害的影響,業(yè)務(wù)運營支撐系統(tǒng)出現(xiàn)重大軟、硬件故障或發(fā)生重大自然災(zāi)害和突發(fā)事件,會造成生產(chǎn)完全中斷且在短時間不能恢復(fù)。
為了應(yīng)對這種災(zāi)難性的突發(fā)事件,可以通過建設(shè)雙活的災(zāi)備系統(tǒng)來滿足業(yè)務(wù)連續(xù)性要求。在災(zāi)備中心對核心生產(chǎn)系統(tǒng)的數(shù)據(jù)進行實時或準(zhǔn)實時的復(fù)制,同時可以建立一個應(yīng)用的運行環(huán)境。當(dāng)災(zāi)難性的突發(fā)事件發(fā)生后,在保證核心業(yè)務(wù)數(shù)據(jù)完整性的基礎(chǔ)之上,可以利用應(yīng)用運行環(huán)境將核心業(yè)務(wù)迅速切換到災(zāi)備系統(tǒng),恢復(fù)關(guān)鍵系統(tǒng)運行,以達到業(yè)務(wù)不中斷的目的。
2 總體架構(gòu)研究
從系統(tǒng)架構(gòu)的角度分析,目前容災(zāi)系統(tǒng)主要有主備、雙中心互備和雙活并行三種建設(shè)方案,如圖1所示。目前采用的前兩種系統(tǒng)架構(gòu)模式的RTO(Recovery Time Objective,恢復(fù)時間目標(biāo))均不為0,容災(zāi)端平時不可用,需要相應(yīng)技術(shù)和流程保證系統(tǒng)切換,而雙活并行模式理論上在災(zāi)難發(fā)生時,可以做到在不影響業(yè)務(wù)的前提下滿足“0”切換要求。
和傳統(tǒng)主備方式不同,完善的業(yè)務(wù)運營支撐系統(tǒng)雙活容災(zāi)解決方案需要對整個系統(tǒng)的架構(gòu)進行深入改造,從網(wǎng)絡(luò)、存儲、數(shù)據(jù)庫和應(yīng)用耦合等方面形成一套完整的建設(shè)方案,如圖2所示。
具體如下:
(1)網(wǎng)絡(luò)層:雙活容災(zāi)系統(tǒng)兩個生產(chǎn)中心之間采用大二層網(wǎng)絡(luò)技術(shù)、光傳輸波分復(fù)用技術(shù)、虛擬化應(yīng)用集群的心跳網(wǎng)絡(luò)及防腦裂技術(shù);
(2)接入層:借助DNS(Domain Name System,域名系統(tǒng))和全局負載均衡技術(shù)實現(xiàn)雙活接入及高可用保障;
(3)應(yīng)用層:應(yīng)用集群技術(shù),彈性、云化部署應(yīng)用;
(4)數(shù)據(jù)庫層:采用數(shù)據(jù)庫集群的高可用、異構(gòu)數(shù)據(jù)庫的復(fù)制能力與技術(shù);
(5)存儲層:存儲的陣列復(fù)制技術(shù)、雙活集群可讀可寫技術(shù)等保障故障切換能力。
3 關(guān)鍵技術(shù)研究
3.1 網(wǎng)絡(luò)層雙活
為保障業(yè)務(wù)運營支撐系統(tǒng)雙活建設(shè)方案的可靠性,本文采用數(shù)據(jù)傳輸鏈路與心跳鏈路分離設(shè)計的原則,通過VLAN(Virtual Local Area Network,虛擬局域網(wǎng))或VRF(Virtual Routing Forwarding,VPN路由轉(zhuǎn)發(fā)表)隔離端到端的流量,同時分配獨立的物理互聯(lián)鏈路,做到業(yè)務(wù)流量與集群心跳流量的隔離。
在跨雙活生產(chǎn)中心進行傳輸時,采用FC(Fibre Channel,光纖通道)鏈路實現(xiàn)雙活中心間的數(shù)據(jù)實時同步,同時承載存儲集群心跳網(wǎng)絡(luò);采用二層以太網(wǎng)絡(luò)實現(xiàn)雙活生產(chǎn)中心間的主機應(yīng)用集群的心跳及同步互聯(lián)鏈路通信。為保證應(yīng)用以及數(shù)據(jù)庫的時延要求,兩個中心之間采用OTN(Optical Transport Network,光傳送網(wǎng))波分設(shè)備來構(gòu)建網(wǎng)絡(luò),兩個中心內(nèi)部的以太網(wǎng)交換機和FC交換機分別同時連接到OTN波分設(shè)備,兩個數(shù)據(jù)中心的OTN波分設(shè)備裸光纖直接級聯(lián),并冗余采用2對光纖,其網(wǎng)絡(luò)拓撲如圖3所示:
3.2 存儲層雙活
存儲層是業(yè)務(wù)運營支撐雙活容災(zāi)系統(tǒng)建設(shè)的核心之一,其雙活技術(shù)在整個架構(gòu)中起到關(guān)鍵作用。目前存儲雙活架構(gòu)按照物理形態(tài),可以分為基于虛擬化網(wǎng)關(guān)和基于磁盤陣列兩種架構(gòu);按照業(yè)務(wù)能力,可以分為A/A(Active/Active,雙活)模式雙活和A/P(Active/Positive,主備)模式雙活。
本文采用跨站點的雙活集群技術(shù)實現(xiàn)存儲層雙活架構(gòu),如圖4所示。集群卷向應(yīng)用服務(wù)器提供無差異的并行訪問,同時處理應(yīng)用服務(wù)器的I/O(Input/Output,輸入/輸出端口)請求;各控制器間互為備份,均衡負載,控制器故障后,其承接的業(yè)務(wù)自動切換到正??刂破鳎员WC系統(tǒng)的可靠性及業(yè)務(wù)的連續(xù)性。集群間的通信支持多種網(wǎng)絡(luò)協(xié)議,可降低組網(wǎng)的復(fù)雜度,提高系統(tǒng)的可靠性。
3.3 數(shù)據(jù)庫層雙活
(1)基于Oracle Extended RAC架構(gòu)實現(xiàn)雙活
Oracle RAC(Oracle Real Application Cluster,真正應(yīng)用集群)作為一種集群數(shù)據(jù)庫技術(shù),以共享存儲為基礎(chǔ),通過共享的存儲資源實現(xiàn)各節(jié)點對數(shù)據(jù)庫的并行訪問,且在單個節(jié)點出現(xiàn)故障時,業(yè)務(wù)能自動切換到正常節(jié)點,從而保證數(shù)據(jù)庫系統(tǒng)的高可用性。Oracle Extended RAC以跨中心共享存儲為基礎(chǔ),通過共享存儲資源和Oracle Clusterware數(shù)據(jù)庫集群管理,實現(xiàn)各個中心節(jié)點對數(shù)據(jù)庫的并行訪問。
本文采用Oracle ASM(Automatic Storage Management,自動存儲管理)存儲卷管理,在兩個生產(chǎn)中心分別部署一套存儲,各提供一套LUN(Logical Unit Number,邏輯單元號)設(shè)備給全部數(shù)據(jù)庫主機,實現(xiàn)數(shù)據(jù)的雙向?qū)崟r復(fù)制,在第3個站點部署用于RAC的第3個投票盤,使用NFS(Network File System,網(wǎng)絡(luò)文件系統(tǒng))的方式掛載到所有數(shù)據(jù)庫主機,各節(jié)點間采用冗余光纖鏈接以保證可靠性,如圖5所示。ASM支持對本地磁盤的優(yōu)先讀取,可避免跨數(shù)據(jù)中心的數(shù)據(jù)讀取,以提高I/O性能并減少網(wǎng)絡(luò)流量。
(2)內(nèi)存數(shù)據(jù)庫雙活技術(shù)實現(xiàn)
內(nèi)存庫將數(shù)據(jù)常駐在內(nèi)存中直接操作,相比從磁盤上訪問極大地提高了應(yīng)用的性能。在業(yè)務(wù)運營支撐系統(tǒng)中,內(nèi)存庫已被廣泛用于實時計費。內(nèi)存庫集群部署主要有HA模式、雙活模式、線性拆分和分布式集群四種模式。本文采用分布式集群模式,具體如圖6所示。
該模式采用分布式內(nèi)存數(shù)據(jù)庫,具備對數(shù)據(jù)自動分布式加載和路由能力,內(nèi)存庫集群自動建立路由表,將數(shù)據(jù)以冗余的方式加載到集群中不同節(jié)點的內(nèi)存庫中,支持多個內(nèi)存庫同時進行讀寫。對外提供統(tǒng)一的訪問接口,數(shù)據(jù)的分布對應(yīng)用完全不透明。支持在線擴展,路由自動調(diào)整,便于維護。
3.4 應(yīng)用層雙活
應(yīng)用層是中間件交易層,主要部署后臺處理邏輯。要實現(xiàn)一個生產(chǎn)中心故障時服務(wù)不中斷的雙活方案,需要在每個生產(chǎn)中心分別部署一套完整的且完全相同的云化服務(wù)和應(yīng)用,平時每個中心均為生產(chǎn),并具備接管全部業(yè)務(wù)的能力。同時對數(shù)據(jù)訪問,所有交易中間件針對每套數(shù)據(jù)庫同時建立多個連接指向跨中心的數(shù)據(jù)庫節(jié)點,確保單中心故障時數(shù)據(jù)庫的高可用。
3.5 組網(wǎng)高可靠性研究
傳統(tǒng)應(yīng)用采用基于IP的配置連接方式,需要分散到很多設(shè)備中進行管理連接關(guān)系,造成IT架構(gòu)復(fù)雜,在配置變更時工作量很大。同時,在業(yè)務(wù)運營支撐系統(tǒng)應(yīng)急容災(zāi)切換時,需要涉及大量系統(tǒng)配置變更,造成切換時間過長、可靠性低等問題。而引入DNS可以有效地提高業(yè)務(wù)運營支撐系統(tǒng)的可靠性。
本文采用負載均衡器,基于大二層網(wǎng)絡(luò)構(gòu)建跨中心的DNS集群?;赩RRP(Virtual Router Redundancy Protocol,虛擬路由冗余協(xié)議)協(xié)議,實現(xiàn)實時切換和業(yè)務(wù)運營支撐系統(tǒng)連接關(guān)系的集中化管理維護。在兩個中心分別部署了兩臺負載均衡設(shè)備,其中容災(zāi)端的兩臺負載均衡和生產(chǎn)端的其中一臺負載均衡形成一個VRRP組,VRRP組的虛地址是提供DNS服務(wù)的IP地址,該跨站點集群作為主用DNS,另一臺容災(zāi)生產(chǎn)中心的負載均衡設(shè)備作為單獨的備用DNS服務(wù)器。DNS集群通過浮動IP提供DNS解析服務(wù),平時浮動IP位于A中心主用設(shè)備。當(dāng)A中心主用設(shè)備出現(xiàn)故障時,服務(wù)由A中心另一臺備用設(shè)備接管;當(dāng)A中心兩臺設(shè)備不可用或中心網(wǎng)絡(luò)無法訪問時,B中心的備用設(shè)備接管服務(wù),從而實現(xiàn)跨中心的負載均衡冗余,如圖7所示。
4 結(jié)束語
本文通過大二層網(wǎng)絡(luò)架構(gòu)等先進技術(shù)的應(yīng)用,對網(wǎng)絡(luò)層雙活、存儲層雙活、數(shù)據(jù)庫層雙活、應(yīng)用層雙活及組網(wǎng)高可靠等雙活關(guān)鍵技術(shù)進行研究,實現(xiàn)了一套業(yè)務(wù)運營支撐系統(tǒng)雙活容災(zāi)建設(shè)方案,為系統(tǒng)提供了風(fēng)險預(yù)防機制和災(zāi)難恢復(fù)措施,在確保數(shù)據(jù)安全的基礎(chǔ)上提高業(yè)務(wù)連續(xù)運行能力,降低企業(yè)運營風(fēng)險,將業(yè)務(wù)損失降低到可接受的程度,以提升服務(wù)質(zhì)量和服務(wù)水平,增強企業(yè)競爭力。但該建設(shè)方案也存在一定的局限性,如未考慮兩個生產(chǎn)中心處理能力不對等、存儲差異對數(shù)據(jù)同步的影響等。因此,業(yè)務(wù)運營支撐系統(tǒng)雙活容災(zāi)建設(shè)方案還有很大的研究空間,未來將通過全面深入的研究使建設(shè)方案更完善、可靠。
參考文獻:
[1] 王樹鵬,云曉春,余翔湛,等. 容災(zāi)的理論與關(guān)鍵技術(shù)分析[J]. 計算機工程與應(yīng)用, 2004(28): 54-58.
[2] 李宏偉,肖偉. 存儲虛擬化技術(shù)在雙活數(shù)據(jù)中心中的應(yīng)用[J]. 郵電設(shè)計技術(shù), 2013(9): 9-13.
[3] 朱智達. “分布式雙活”模式在校園數(shù)據(jù)備份中的應(yīng)用研究[J]. 電腦與電信, 2013(9): 61-62.
[4] 廖鋒,喻朝新,張國祥. 關(guān)于利用虛擬化技術(shù)實現(xiàn)業(yè)務(wù)支撐系統(tǒng)容災(zāi)保障的思路探討[J]. 數(shù)據(jù)通信, 2013(1): 38-41.
[5] 孫罡. 云數(shù)據(jù)中心——資源管理與調(diào)度技術(shù)[M]. 北京: 科學(xué)出版社, 2016.
[6] 康楠. 數(shù)據(jù)中心系統(tǒng)工程及應(yīng)用[M]. 北京: 人民郵電出版社, 2013.
[7] 俞科峰. 中國電信多媒體智能客服系統(tǒng)的研究與實現(xiàn)[J]. 移動通信, 2015,39(1): 91-96.
[8] 吳禮樂. 基于雙活容災(zāi)存儲技術(shù)的云計算數(shù)據(jù)中心的設(shè)計及應(yīng)用[J]. 電子設(shè)計工程, 2015(6): 190-192.
[9] 李雪鋒. 多校區(qū)數(shù)據(jù)中心雙活容災(zāi)方案研究[J]. 中國教育信息化, 2015(9): 59-61.
[10] 王云芳. 云計算資源池容災(zāi)中心建設(shè)解決方案研究[J]. 互聯(lián)網(wǎng)天地, 2015(2): 1-7.