摘要:近幾年,無(wú)論是機(jī)場(chǎng)還是空域隨著航班量的增加愈來(lái)愈繁忙,而對(duì)國(guó)內(nèi)外民用航空飛行安全保障能力的要求也更加具體化,本文簡(jiǎn)要分析民航弱電系統(tǒng)的具體災(zāi)備方案。
關(guān)鍵詞:民航;弱電系統(tǒng);災(zāi)備方案
1 災(zāi)備環(huán)境建設(shè)意義
隨著科學(xué)技術(shù)的發(fā)展,像IBM的HACMP高可用集群多處理技術(shù),容錯(cuò)服務(wù)器等可以在局域網(wǎng)范圍內(nèi)解決大部分的硬件和軟件引起的系統(tǒng)不可用問(wèn)題,但是由地震、洪水、火災(zāi)、戰(zhàn)爭(zhēng)等天災(zāi)人禍或由于軟硬件故障而使生產(chǎn)環(huán)境整體無(wú)法正常工作等情況所造成的損失依然可以輕而易舉地摧毀機(jī)場(chǎng)的IT系統(tǒng)。所以,建立災(zāi)備環(huán)境便成了機(jī)場(chǎng)必然的選擇。為了能在生產(chǎn)環(huán)境產(chǎn)生故障后,災(zāi)備環(huán)境能快速上線運(yùn)行,支持機(jī)場(chǎng)正常進(jìn)行生產(chǎn)運(yùn)營(yíng),需要①主機(jī):操作系統(tǒng)運(yùn)行正常,業(yè)務(wù)系統(tǒng)部署正常,能迅速啟用業(yè)務(wù)系統(tǒng)。②業(yè)務(wù)數(shù)據(jù):通過(guò)存儲(chǔ)災(zāi)備技術(shù)實(shí)時(shí)將生產(chǎn)環(huán)境的業(yè)務(wù)數(shù)據(jù)同步到災(zāi)備環(huán)境的存儲(chǔ)系統(tǒng)。③網(wǎng)絡(luò):能透明地為用戶提供業(yè)務(wù)系統(tǒng)服務(wù)。達(dá)到以上三點(diǎn),那么,災(zāi)備環(huán)境可以在生產(chǎn)環(huán)境故障后迅速上線,并且不丟失數(shù)據(jù)。
2 民航弱電系統(tǒng)災(zāi)備方案
2.1 數(shù)據(jù)災(zāi)備
通常說(shuō)來(lái),對(duì)于災(zāi)難恢復(fù)方案建議用戶建立兩個(gè)應(yīng)用環(huán)境,生產(chǎn)環(huán)境和災(zāi)備環(huán)境。正常情況下,應(yīng)用運(yùn)行在生產(chǎn)環(huán)境的計(jì)算機(jī)系統(tǒng)上,數(shù)據(jù)也存放在生產(chǎn)環(huán)境的存儲(chǔ)系統(tǒng)中。當(dāng)生產(chǎn)環(huán)境由于斷電,火災(zāi)甚至地震等災(zāi)難無(wú)法工作時(shí),則立即采取一系列相關(guān)措施,將網(wǎng)絡(luò)、應(yīng)用切換至災(zāi)備環(huán)境,并且利用災(zāi)備環(huán)境計(jì)算機(jī)系統(tǒng)重新啟動(dòng)應(yīng)用系統(tǒng)。
傳統(tǒng)的磁帶備份方式一般采取定點(diǎn)備份,而當(dāng)系統(tǒng)崩潰時(shí)。距最近一次備份時(shí)間之間的數(shù)據(jù)將全部丟失,無(wú)法恢復(fù)。而且磁盤備份恢復(fù)時(shí)間比較長(zhǎng)。由于速度慢,缺乏實(shí)時(shí)性,無(wú)法滿足用戶大數(shù)據(jù)量數(shù)據(jù)恢復(fù)及數(shù)據(jù)庫(kù)連續(xù)性,實(shí)時(shí)性的要求。
而現(xiàn)在流行的災(zāi)難恢復(fù)方案主要是采用實(shí)時(shí)的數(shù)據(jù)備份的方式。它的主要原理是通過(guò)通信線路,實(shí)時(shí)地將生產(chǎn)環(huán)境更新數(shù)據(jù)拷貝至災(zāi)備環(huán)境存儲(chǔ)系統(tǒng)中,保證數(shù)據(jù)的實(shí)時(shí)一致性。當(dāng)生產(chǎn)環(huán)境無(wú)法工作時(shí),備份中心可以立即接管業(yè)務(wù),并且確保數(shù)據(jù)的最大完整性。
2.2 應(yīng)用災(zāi)備
災(zāi)備環(huán)境中的主機(jī),處于“就緒”狀態(tài),操作系統(tǒng)運(yùn)行正常,應(yīng)用軟件與生產(chǎn)環(huán)境保持一致性。一旦生產(chǎn)環(huán)境發(fā)生災(zāi)難性故障,災(zāi)備環(huán)境中的主機(jī),啟動(dòng)應(yīng)用程序,就能快速上線,為機(jī)場(chǎng)的生產(chǎn)運(yùn)營(yíng)提供信息系統(tǒng)的支撐。應(yīng)用切換是指生產(chǎn)環(huán)境由于發(fā)生災(zāi)難而癱瘓時(shí),可由災(zāi)備環(huán)境的備用服務(wù)器提供業(yè)務(wù)接管,確保業(yè)務(wù)運(yùn)行的高連續(xù)性。
2.2.1 實(shí)現(xiàn)應(yīng)用切換的前提條件
數(shù)據(jù)已經(jīng)從生產(chǎn)環(huán)境同步到災(zāi)備環(huán)境;災(zāi)備環(huán)境配置與生產(chǎn)環(huán)境對(duì)應(yīng)的應(yīng)用軟件服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器和中間件服務(wù)器等,且運(yùn)行正常;災(zāi)備環(huán)境網(wǎng)絡(luò)運(yùn)行正常或能夠?qū)崿F(xiàn)正常切換。
2.2.2 應(yīng)用切換技術(shù)
(1)雙活數(shù)據(jù)庫(kù)技術(shù)
部分?jǐn)?shù)據(jù)庫(kù)復(fù)制容災(zāi)軟件,能夠?qū)崿F(xiàn)生產(chǎn)中心和災(zāi)備環(huán)境數(shù)據(jù)庫(kù)雙活,即災(zāi)備環(huán)境的備份數(shù)據(jù)庫(kù)也處于Open狀態(tài),客戶端可對(duì)災(zāi)備數(shù)據(jù)庫(kù)進(jìn)行只讀訪問(wèn)。生產(chǎn)環(huán)境和災(zāi)備環(huán)境數(shù)據(jù)庫(kù)保持雙活,可提高災(zāi)備環(huán)境的資源利用率,分擔(dān)生產(chǎn)環(huán)境的業(yè)務(wù)負(fù)擔(dān),在發(fā)生災(zāi)難時(shí),自然也可以實(shí)現(xiàn)應(yīng)用和業(yè)務(wù)的接管。
這種方式的缺點(diǎn)之一是只適合于特定的數(shù)據(jù)庫(kù)應(yīng)用,不適合文件系統(tǒng)等應(yīng)用,有一定的局限性。
(2)遠(yuǎn)程集群技術(shù)
遠(yuǎn)程集群是指通過(guò)在生產(chǎn)中心和災(zāi)備環(huán)境的應(yīng)用服務(wù)器上安裝遠(yuǎn)程集群軟件(例如Veritas Storage Foundation中的GCO組件),實(shí)現(xiàn)跨廣域的多服務(wù)器狀態(tài)的監(jiān)控,當(dāng)發(fā)生災(zāi)難時(shí),實(shí)現(xiàn)應(yīng)用服務(wù)器的自動(dòng)切換。
這種方式的主要弊端在于,多種潛在因素(例如集群服務(wù)器心跳線中斷、網(wǎng)絡(luò)短時(shí)間中斷、應(yīng)用服務(wù)器響應(yīng)不及時(shí)等)容易導(dǎo)致在生產(chǎn)中心實(shí)際運(yùn)行正常情況下進(jìn)行誤切換,運(yùn)行風(fēng)險(xiǎn)高。我們知道,災(zāi)備環(huán)境的應(yīng)用接管是一個(gè)管理和決策的過(guò)程,需要人為參與,無(wú)法完全交給機(jī)器和軟件來(lái)替代完成的。
其次,對(duì)于存在多應(yīng)用情況下,采用自動(dòng)切換,可能導(dǎo)致部分應(yīng)用出現(xiàn)故障時(shí)切換,由災(zāi)備環(huán)境接管,而其它應(yīng)用在數(shù)據(jù)中心運(yùn)行正常,沒(méi)有切換,最終產(chǎn)生兩個(gè)數(shù)據(jù)中心同時(shí)運(yùn)行,造成數(shù)據(jù)混亂。
另外,需要注意的是,即使實(shí)現(xiàn)了應(yīng)用服務(wù)器(或者數(shù)據(jù)庫(kù)服務(wù)器)的自動(dòng)切換,也并不等同于應(yīng)用的自動(dòng)切換。一般來(lái)說(shuō),一個(gè)應(yīng)用由應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器構(gòu)成,前者提供前端客戶端的直接讀寫請(qǐng)求,并通過(guò)數(shù)據(jù)庫(kù)服務(wù)器進(jìn)行真實(shí)的讀寫操作,應(yīng)用服務(wù)器本身并不進(jìn)行數(shù)據(jù)存儲(chǔ)操作,而數(shù)據(jù)庫(kù)服務(wù)器才是真正和存儲(chǔ)系統(tǒng)打交道的服務(wù)器。采用集群技術(shù),能夠?qū)崿F(xiàn)應(yīng)用服務(wù)器或數(shù)據(jù)庫(kù)服務(wù)器的自動(dòng)切換,但是應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器之間往往存在著依賴關(guān)系,它們之間連接關(guān)系的建立,一般無(wú)法自動(dòng)完成,因此也無(wú)法實(shí)現(xiàn)真正的應(yīng)用自動(dòng)切換。
(3)手動(dòng)切換方式
手動(dòng)切換方式實(shí)現(xiàn)較簡(jiǎn)單,總體成本低,適用范圍廣,而且較可靠。采用這種方式時(shí),災(zāi)備環(huán)境部署與生產(chǎn)環(huán)境相對(duì)應(yīng)的應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器,安裝相應(yīng)軟件。在正常情況下,災(zāi)備環(huán)境服務(wù)器可選擇不運(yùn)行或者處于就緒狀態(tài)但對(duì)外不可訪問(wèn);發(fā)生災(zāi)難時(shí),可在人為決策后,將災(zāi)備環(huán)境服務(wù)器啟動(dòng)或恢復(fù)對(duì)外訪問(wèn),實(shí)現(xiàn)業(yè)務(wù)的快速切換。
通過(guò)對(duì)以上應(yīng)用切換技術(shù)的分析,建議首選手動(dòng)切換方式,針對(duì)個(gè)別核心數(shù)據(jù)庫(kù)應(yīng)用,也可選擇數(shù)據(jù)庫(kù)雙活技術(shù),提高災(zāi)備環(huán)境的利用率。
3 容災(zāi)系統(tǒng)的管理
3.1 組織機(jī)構(gòu)
容災(zāi)備份系統(tǒng)需要由專門機(jī)構(gòu)(指定現(xiàn)有相關(guān)部門或者設(shè)立新機(jī)構(gòu))負(fù)責(zé)日常的管理、維護(hù)、以及災(zāi)難發(fā)生后的系統(tǒng)恢復(fù)等工作。該機(jī)構(gòu)的主要職責(zé)、職能主要包括:
(1)備份系統(tǒng)的日常維護(hù)工作,確保當(dāng)前備份系統(tǒng)是正常、有效的、以及數(shù)據(jù)備份的完整性、一致性;
(2)測(cè)試及研究工作。測(cè)試工作包括對(duì)當(dāng)前備份系統(tǒng)、備份數(shù)據(jù)有效性、可用性的測(cè)試、以及對(duì)應(yīng)用軟件的升級(jí)測(cè)試等;研究與容災(zāi)備份相關(guān)的技術(shù)方案優(yōu)化以及相關(guān)制度、規(guī)程的完善;
(3)日常管理、協(xié)調(diào)職能。負(fù)責(zé)本部門的日常管理工作,并負(fù)責(zé)與主用中心、以及相關(guān)方面的協(xié)調(diào)工作;
(4)災(zāi)難發(fā)生后的系統(tǒng)恢復(fù)以及生產(chǎn)組織職能。
3.2 管理制度和操作規(guī)程
容災(zāi)備份系統(tǒng)的管理、維護(hù)、系統(tǒng)恢復(fù)、生產(chǎn)組織等需要完善的管理制度和嚴(yán)密的操作規(guī)程予以約束、規(guī)范,以確保備份系統(tǒng)的可用性和生產(chǎn)恢復(fù)的有效性。
在建設(shè)容災(zāi)備份系統(tǒng)的同時(shí),應(yīng)結(jié)合自身情況建立并不斷完善相關(guān)的管理制度、操作規(guī)程,其中包括:容災(zāi)備份工作的領(lǐng)導(dǎo)與組織分工;容災(zāi)備份中心機(jī)構(gòu)的職能、職責(zé);人員崗位責(zé)任制度;日常維護(hù)管理制度和操作規(guī)程;測(cè)試管理制度;(包括備份系統(tǒng)有效性測(cè)試、應(yīng)用軟件升級(jí)測(cè)試等)災(zāi)難/故障的監(jiān)測(cè)與分析、報(bào)告制度、以及審批流程規(guī)定;系統(tǒng)恢復(fù)/切換的操作流程和規(guī)范;備份系統(tǒng)恢復(fù)運(yùn)行后的生產(chǎn)組織制度;(其中應(yīng)包含數(shù)據(jù)的安全與備份)主用系統(tǒng)重新恢復(fù)工作的管理與組織制度。
3.3 災(zāi)難的預(yù)防
系統(tǒng)技術(shù)設(shè)計(jì)方案的不斷優(yōu)化,在不斷提升系統(tǒng)自身安全可靠性的同時(shí),使系統(tǒng)和數(shù)據(jù)備份的實(shí)施、管理、操作更簡(jiǎn)便、運(yùn)行更可靠;容災(zāi)備份策略和技術(shù)方案的不斷完善,不斷提高備份數(shù)據(jù)的一致性、完整性,縮短系統(tǒng)運(yùn)行中斷的時(shí)間;相關(guān)管理制度、操作流程和規(guī)程的不斷完善、改進(jìn);努力減少系統(tǒng)的安全隱患;可能也包括備份系統(tǒng)機(jī)房地點(diǎn)的合理選擇等。
4 結(jié)語(yǔ)
總而言之,維護(hù)民航弱電系統(tǒng)的安全性、完整性及可用性是民航各部門的職責(zé),民航管理部門必然認(rèn)真做好災(zāi)備系統(tǒng)建設(shè)工作,以備不測(cè)之需。
參考文獻(xiàn)
[1]陶佩.基于Oracle DataGuard技術(shù)的航空情報(bào)系統(tǒng)設(shè)計(jì)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013.
[2]劉玥.淺談CNMS災(zāi)備系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].軍民兩用技術(shù)與產(chǎn)品,2017.07.
作者簡(jiǎn)介:李穎,1984,男,漢族,四川,本科,助理工程師,研究方向:民航軟件開發(fā)與測(cè)試。
(作者單位:民航成都信息技術(shù)有限公司)