李鈺婷
智慧水務(wù)是智慧地球、智慧城市的重要組成部分,主要通過使用科技手段,配合儀器儀表、采集終端等設(shè)備,對水務(wù)信息進行采集、傳輸、處理、存儲、分析,在全面提升水務(wù)管理效率的同時,實現(xiàn)更全面的感知、更自動的控制、更及時的應(yīng)對、更主動的服務(wù)和更科學的決策。
陜西省水務(wù)集團智慧水務(wù)項目是基于大數(shù)據(jù)、云計算、數(shù)據(jù)挖掘以及物聯(lián)網(wǎng)等先進技術(shù),整合供水、水電開發(fā)、污水處理等多個業(yè)務(wù)信息系統(tǒng),部署范圍覆蓋全省的大型信息化建設(shè)項目??h級業(yè)務(wù)系統(tǒng)的數(shù)據(jù)均實時傳送至集團總部數(shù)據(jù)中心統(tǒng)一處理、存儲,因此數(shù)據(jù)中心存儲了海量的業(yè)務(wù)數(shù)據(jù),這些核心數(shù)據(jù)無疑是企業(yè)重要的數(shù)據(jù)資產(chǎn)。
由于無法完全避免硬件故障、人為誤操作、系統(tǒng)程序錯誤,病毒入侵,以及自然災害帶來的系統(tǒng)停機或數(shù)據(jù)丟失,為了保護核心數(shù)據(jù),在遭遇災害時能保證信息系統(tǒng)的正常運行,那么智慧水務(wù)信息化建設(shè)中容災備份方案的設(shè)計就必不可少。下面從容災技術(shù)和備份技術(shù)兩個方面來分析適用于該項目實際建設(shè)的技術(shù)方案。
容災技術(shù)主要有數(shù)據(jù)級容災和應(yīng)用級容災。數(shù)據(jù)級容災是指在異地建立一個數(shù)據(jù)系統(tǒng),其中保存一份與本地數(shù)據(jù)完全一致的可用數(shù)據(jù)。應(yīng)用級容災是指,在數(shù)據(jù)容災的基礎(chǔ)上,在異地建立一套完整的與本地業(yè)務(wù)系統(tǒng)功能完全一致的備份應(yīng)用系統(tǒng),在發(fā)生災難的情況下,異地備份業(yè)務(wù)系統(tǒng)能夠迅速地接管業(yè)務(wù)運行??紤]到集團總部的智慧水務(wù)大數(shù)據(jù)平臺上同時運行著供水、污水、水電等各個業(yè)務(wù)系統(tǒng),本地平臺一旦發(fā)生災難性事故,集團絕大部分業(yè)務(wù)系統(tǒng)的運營都將受到影響。因此本項目的容災備份方案中應(yīng)選擇應(yīng)用級容災技術(shù),涉及具體的實現(xiàn)技術(shù)主要有負載均衡、集群技術(shù)。
備份方式有本地備份和異地備份。本地備份的優(yōu)點是速度快、維護方便,缺點是一旦發(fā)生重大災難,無法保證本地備份系統(tǒng)中的數(shù)據(jù)和應(yīng)用系統(tǒng)仍可用。而異地備份,是將備份系統(tǒng)部署在與本地同時發(fā)生重大災難概率極低的異地,這樣即使本地發(fā)生災難,也可以順利的從異地備份中恢復數(shù)據(jù)。結(jié)合集團的實際情況,可選擇本地備份與異地備份相結(jié)合的方式。各縣級業(yè)務(wù)系統(tǒng)在各縣本地部署有數(shù)據(jù)庫,作為各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的本地備份。智慧水務(wù)大數(shù)據(jù)平臺接收各業(yè)務(wù)系統(tǒng)數(shù)據(jù),作為各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的異地備份。同時可通過考察選擇一合適地點,部署智慧水務(wù)大數(shù)據(jù)平臺的異地備份系統(tǒng),進一步保障平臺數(shù)據(jù)的安全及業(yè)務(wù)系統(tǒng)的不間斷運行。
遠程鏡像技術(shù)用于在本地數(shù)據(jù)中心和異地數(shù)據(jù)中心之間備份數(shù)據(jù),包括同步復制和異步復制兩種方式。同步復制技術(shù),是指通過遠程鏡像軟件,將本地數(shù)據(jù)以完全同步的方式復制到異地,每一本地的I/O事務(wù)均需等待遠程復制的完成確認信息。異步復制技術(shù),則是保證在更新異地存儲的數(shù)據(jù)前,完成本地存儲系統(tǒng)的操作,由本地存儲系統(tǒng)提供I/O操作完成確認信息??紤]到同步復制技術(shù)對應(yīng)用系統(tǒng)I/O性能影響較大,且異地備份系統(tǒng)與本地數(shù)據(jù)中心需距離300 km以上,因此智慧水務(wù)的本地數(shù)據(jù)中心與異地備份數(shù)據(jù)中心之間采用異步復制技術(shù)是比較理想的方式,兼顧性能要求的同時,又滿足了對數(shù)據(jù)可靠性的要求。
遠程鏡像技術(shù)還可與快照技術(shù)結(jié)合起來實現(xiàn)遠程備份,即通過鏡像把數(shù)據(jù)備份到異地存儲系統(tǒng)中,再用快照技術(shù)把異地存儲系統(tǒng)中的數(shù)據(jù)備份到異地的磁帶庫、光盤庫中。在正常業(yè)務(wù)進行的同時,通過軟件對要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,同時快速拷貝,獲得當前業(yè)務(wù)數(shù)據(jù)的完整備份。智慧水務(wù)的容災備份建設(shè),可通過在異地數(shù)據(jù)中心的磁盤陣列系統(tǒng)中配置快照的方式,實現(xiàn)數(shù)據(jù)的自動備份,以及在線數(shù)據(jù)的恢復,并可利用備份數(shù)據(jù)完成報表生成等功能。
結(jié)合陜西省水務(wù)集團的實際情況,制定 “一主一備一輔”,實現(xiàn)“雙活”的應(yīng)用級容災備份方案,具體網(wǎng)絡(luò)拓撲圖見圖1。
圖1 異地容災備份網(wǎng)絡(luò)拓撲圖
考慮到集團在延安設(shè)有分公司,延安距離西安超過了300 km,且不在同一地震帶,也不在同一江河流域,符合異地容災備份的地理條件,故在集團延安分公司機房設(shè)立異地備份數(shù)據(jù)系統(tǒng)。
在西安總部機房DMZ區(qū)和延安機房分別部署數(shù)據(jù)庫系統(tǒng),系統(tǒng)設(shè)置為集群模式。本地數(shù)據(jù)庫系統(tǒng)與異地數(shù)據(jù)庫系統(tǒng)均處于活動狀態(tài),本地數(shù)據(jù)庫系統(tǒng)主要提供數(shù)據(jù)處理、查詢及存儲的功能,備份數(shù)據(jù)庫啟用自動生成日志、報表等功能,提高了備份數(shù)據(jù)庫系統(tǒng)的使用率。一旦本地數(shù)據(jù)庫系統(tǒng)出現(xiàn)宕機等故障,異地的備份數(shù)據(jù)系統(tǒng)仍能提供數(shù)據(jù)處理、查詢及存儲等完整功能,且可以通過備份數(shù)據(jù)系統(tǒng)恢復本地數(shù)據(jù)。經(jīng)調(diào)研神州數(shù)碼數(shù)據(jù)庫一體機符合上述要求,可實現(xiàn)“雙活”效果,因此實際項目中在本地和異地數(shù)據(jù)中心各部署了一臺神州數(shù)碼數(shù)據(jù)庫一體機。
在西安總部機房DMZ區(qū)和延安機房分別部署軟、硬件配置均相同的平臺級業(yè)務(wù)支撐系統(tǒng),本地業(yè)務(wù)支撐系統(tǒng)正常情況下處于主用狀態(tài),而異地業(yè)務(wù)支撐系統(tǒng)處于備用狀態(tài)。一旦本地數(shù)據(jù)中心出現(xiàn)重大災難,異地的備份數(shù)據(jù)中心可自動接管相關(guān)業(yè)務(wù)。
本地數(shù)據(jù)庫系統(tǒng)與異地備份數(shù)據(jù)庫系統(tǒng)之間,采用異步復制技術(shù),將本地數(shù)據(jù)庫系統(tǒng)接收到的數(shù)據(jù),復制到異地數(shù)據(jù)庫系統(tǒng)中。當本地數(shù)據(jù)庫系統(tǒng)與異地備份數(shù)據(jù)庫系統(tǒng)之間的鏈路出現(xiàn)故障,無法通信時,本地數(shù)據(jù)庫將會對已傳輸?shù)臄?shù)據(jù)節(jié)點進行標記,然后一直保持對網(wǎng)絡(luò)連通性的探測,一旦恢復通信,本地數(shù)據(jù)庫將會從標記節(jié)點開始向異地備份數(shù)據(jù)庫傳輸數(shù)據(jù)。為了解決本地數(shù)據(jù)系統(tǒng)與異地備份系統(tǒng)網(wǎng)絡(luò)鏈路故障期間,本地數(shù)據(jù)庫同時發(fā)生故障的特殊情形,盡可能地保證本地數(shù)據(jù)與異地備份數(shù)據(jù)的一致性,在本地DMZ區(qū)另行部署一臺輕量級實時更新數(shù)據(jù)庫,僅保存最近兩天的更新數(shù)據(jù)。數(shù)據(jù)傳輸至本地數(shù)據(jù)系統(tǒng)時,將同時傳輸給本地更新數(shù)據(jù)庫與異地備份數(shù)據(jù)庫。這樣,在網(wǎng)絡(luò)出現(xiàn)故障時,即使本地數(shù)據(jù)庫同時出現(xiàn)故障,隨后也能通過本地實時更新數(shù)據(jù)庫恢復完整的數(shù)據(jù)。
異地備份數(shù)據(jù)中心部署有磁盤陣列系統(tǒng),配置快照功能。自動從備份數(shù)據(jù)庫系統(tǒng)往磁盤陣列系統(tǒng)復制當天更新的數(shù)據(jù)。每隔一個月,對全部的數(shù)據(jù)做一個完整快照。當發(fā)生災難,需要恢復本地數(shù)據(jù)庫或備份數(shù)據(jù)庫的數(shù)據(jù)時,可使用快照的在線恢復功能,快速恢復所需數(shù)據(jù)??煺占夹g(shù)極大地減輕了運維壓力以及災后恢復的效率。磁盤陣列采用RAID5模式,在所有磁盤上交叉地存取數(shù)據(jù)及奇偶校驗信息,當一個磁盤發(fā)生損壞后,可從其他硬盤上存儲的數(shù)據(jù)恢復出故障盤的內(nèi)容,不會影響數(shù)據(jù)的完整性,從而進一步保證了數(shù)據(jù)的安全。
本地及異地的所有數(shù)據(jù)庫服務(wù)器和業(yè)務(wù)支撐平臺設(shè)備,均采用雙鏈路冗余方式與交換機或防火墻進行連接。在服務(wù)器或平臺設(shè)備的兩個連接端口上做端口聚合,將兩條鏈路虛擬為一條鏈路,配置一個IP地址,這樣一條鏈路出現(xiàn)故障的情況下,通過另一條鏈路仍可進行訪問。
通過采用RAID5磁盤陣列、“一主一備一輔”方案及異步復制技術(shù),部署異地容災備份數(shù)據(jù)系統(tǒng)和備份業(yè)務(wù)支撐系統(tǒng),目前集團智慧水務(wù)業(yè)務(wù)系統(tǒng)已具備數(shù)據(jù)級、數(shù)據(jù)庫級、應(yīng)用級,共三個層級容災備份,保證了數(shù)據(jù)的安全及核心業(yè)務(wù)的連續(xù)性,可提供7*24小時業(yè)務(wù)不間斷運行,整個備份系統(tǒng)具有高容災性和可擴展性。