韓愛華
容災技術在醫(yī)院信息化建設中的應用研究
韓愛華①
目的:探索建立醫(yī)院信息系統(tǒng)(HIS)核心業(yè)務系統(tǒng)應用級別的容災架構與模式。方法:從容災相關概念與技術指標、容災的目標與分類、容災規(guī)范、容災技術與關鍵技術分析以及容災系統(tǒng)建設方案與選擇入手,通過容災技術與容災系統(tǒng)的深入研究,從低級到高級設計出多種醫(yī)院信息系統(tǒng)容災架構與模式。結果:選擇適合的容災模式,可以達到容災應用要求,做到數(shù)據(jù)0丟失、服務0中斷、業(yè)務0間斷。結論:一地兩中心的“2+2”模式在現(xiàn)實中具有實現(xiàn)成本低、容災級別高、實用的優(yōu)點,值得推廣應用。
容災;全冗余;園區(qū)級容災;一地兩中心;“2+2”模式
[First-author's address]Department of Equipment Management, Lanshan People’s Hospital, Linyi 276001, China.
隨著信息技術的發(fā)展,信息化的應用越來越廣泛,各行業(yè)對信息技術的依賴性越來越強,信息服務和數(shù)據(jù)已成為賴以生存的生命源泉。對醫(yī)院來講,其業(yè)務具有數(shù)據(jù)量大、類型復雜和事務并發(fā)多、實時性強、緊密相關生命與健康的特殊性,任何人為或自然因素所導致的應用中斷、數(shù)據(jù)丟失,都可能造成醫(yī)院巨大的經(jīng)濟和名譽損失甚至產(chǎn)生嚴重的法律后果。因此,醫(yī)院信息系統(tǒng)不但應具有防止單點故障的高可用系統(tǒng),還需具備應對災難發(fā)生的容災能力,以保障業(yè)務的連續(xù)性和提升業(yè)務體系的安全度,容災建設已成為醫(yī)院信息安全管理工作的重中之重[1]。
1.1 災難(Disaster)
所謂災難,通常是指引起關鍵業(yè)務的信息服務中斷、業(yè)務功能停頓或服務水平不可接受、達到特定時間的突發(fā)性事件。典型的災難事件是自然災難,如火災、地震等;還有業(yè)務運營所需服務的中斷,如硬件故障、軟件錯誤、網(wǎng)絡中斷和電力故障等;人為的因素如操作員錯誤、破壞、植入有害代碼和恐怖襲擊;與IT系統(tǒng)相關的計劃外宕機也可視作災難[2]。
1.2 容災(disaster recovery,DR)
容災是指在各種災難事件發(fā)生后,通過特定的容災機制防止用戶業(yè)務系統(tǒng)遭受各種災難的破壞,在可以容忍的時間內(nèi)恢復業(yè)務系統(tǒng)的正常運行,最大限度地保障計算機信息系統(tǒng)提供正常的應用服務和保障業(yè)務的連續(xù)性[3-4]。
1.3 容災系統(tǒng)(disaster recovery system, DRS)
容災系統(tǒng)是指在相隔較遠的“異地”,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)發(fā)生災難事件時,整個應用和業(yè)務系統(tǒng)可以切換到另一處,使得該業(yè)務系統(tǒng)功能可以繼續(xù)正常工作,即利用地理上的分離來保證系統(tǒng)和數(shù)據(jù)對災難事件的抵御能力。
1.4 容災系統(tǒng)技術指標[5]
恢復時間目標(recovery time objective, RTO):是指所能容忍的業(yè)務停止服務的最長時間。RTO針對的是服務丟失,系統(tǒng)服務的緊迫性要求越高,RTO的值越小。
數(shù)據(jù)恢復點目標(recovery point objective, RPO):是指代表了當災難發(fā)生時能夠容忍丟失的數(shù)據(jù)量。RPO針對的是數(shù)據(jù)丟失,系統(tǒng)容忍丟失的數(shù)據(jù)量越小,RPO的值越小。
網(wǎng)絡恢復目標(network recovery objective, NRO):是指災難發(fā)生后的網(wǎng)絡恢復時間,即用戶在災難后可以連接到災備中心的時間。
2.1 容災的目標
容災的實質(zhì)是確保永不停頓的業(yè)務運營,容災系統(tǒng)的核心在于使用各種技術和管理手段將災難的影響化解。一是保證業(yè)務數(shù)據(jù)的安全,即“數(shù)據(jù)不丟失”;二是保證業(yè)務的連續(xù)性,即“應用不間斷”。真正意義上的容災,必須具備同時保證數(shù)據(jù)不丟失和應用不間斷的能力,這也是容災的最基本的目標[6]。
2.2 容災分類
容災分為3類:數(shù)據(jù)容災、應用容災和業(yè)務容災[7]。對應3個級別:數(shù)據(jù)級別、應用級別和業(yè)務級別。從對用戶整個業(yè)務連續(xù)性的保障程度來看,它們的高可用級別也逐漸提高。數(shù)據(jù)容災是抗御災難的基礎保障;應用容災是容災系統(tǒng)建設的目標;業(yè)務容災是最高級別容災。
(1)數(shù)據(jù)層容災。是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個實時復制。在本地數(shù)據(jù)及整個應用系統(tǒng)出現(xiàn)災難時,系統(tǒng)至少在異地保存有一份可用的關鍵業(yè)務數(shù)據(jù)。數(shù)據(jù)級別容災的關注點在于數(shù)據(jù),即災難發(fā)生后可以確保用戶原有的數(shù)據(jù)不會丟失或者遭到破壞。
(2)應用層容災。是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng),它們可以是互為備份,在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。應用級容災系統(tǒng)不僅需要一份可用的數(shù)據(jù)復制,還要有包括網(wǎng)絡、主機、應用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào),以保證提供不間斷的應用服務。
(3)業(yè)務級別容災。除了為IT業(yè)務系統(tǒng)提供容災,還包括一系列非IT系統(tǒng),如電話、辦公地點等。當一場大的災難發(fā)生時,用戶原有的辦公場所都會受到破壞,除了數(shù)據(jù)和應用系統(tǒng),更需要一個備份的工作場所能夠正常的開展業(yè)務。
3.1 國際標準SHARE 78
根據(jù)Anaheim制定的國際標準SHARE 78的定義,容災備份中心自動異地遠程恢復任務被定義有7種層次從低到高:層次0-本地數(shù)據(jù)備份與恢復;層次1-批量存取訪問方式;層次2-批量存取訪問方式+熱備份地點;層次3-電子鏈接;層次4-工作狀態(tài)的備份地點;層次5-雙重在線存儲;層次6-零數(shù)據(jù)丟失。
3.2 《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007)
根據(jù)國務院制定的《信息系統(tǒng)災難恢復規(guī)范》,災難恢復從高到底分為6級:6級-數(shù)據(jù)零丟失和遠程集群支持;5級-實時數(shù)據(jù)傳輸及完整設備支持;4級-電子傳輸及完整設備支持;3級-電子傳輸和部分設備支持;2級-備用場地支持;1級-基本支持。
4.1 容災關鍵技術分析
容災涉及到多種技術[8]:如集群、存儲區(qū)域網(wǎng)絡(storage area network, SAN)、存儲多路徑(multipathing)、備份、恢復、快照、鏡像、遠程復制技術、持續(xù)數(shù)據(jù)保護技術(continuous data protection, CDP)、虛擬化技術[9]等。
一種技術能減少或防止某些類型的災難的影響。每種技術解決問題的側重不同,如存儲快照技術用來防范應用邏輯錯誤以及人為失誤帶來的存儲數(shù)據(jù)不可用風險;鏡像技術側重防范磁盤或磁盤陣列失效帶來的存儲系統(tǒng)不可用風險;存儲多路徑技術,用來防范因光纖故障或者板卡端口故障帶來的存儲不可用風險;數(shù)據(jù)復制技術用來防范災難事件帶來的數(shù)據(jù)損毀風險;備份、恢復軟件提供裸設備級的快速恢復能力;HA群集軟件,可以讓備份系統(tǒng)迅速接管不可用的應用系統(tǒng);SAN技術可以方便實現(xiàn)數(shù)據(jù)保護、數(shù)據(jù)遷移、災難恢復、構建數(shù)據(jù)倉庫;CDP技術能夠捕捉到一切文件級或數(shù)據(jù)塊級別的數(shù)據(jù)寫改動,并提供記錄所有歷史數(shù)據(jù)狀態(tài)的動態(tài)恢復日志,使得恢復到任意時刻的數(shù)據(jù)成為可能;存儲虛擬化技術,可用于解決存儲設備復雜多樣、操作系統(tǒng)復雜、對容災級別要求較高的難題。
4.2 容災技術方案
容災技術方案分為基于應用的容災方案、基于主機的容災方案和基于存儲(包括虛擬存儲技術)等,這些方案各有其適用的范圍,適用于不同的災難保護需要。比較通用的和實用的容災技術方案主要有兩類,基于主機的跨陣列數(shù)據(jù)鏡像容災方案和基于磁盤系統(tǒng)的數(shù)據(jù)復制的容災方案。
4.3 容災方案選擇
不同的用戶、不同的業(yè)務系統(tǒng)、不同應用對容災的要求不同,要求不同的容災服務等級,需要根據(jù)具體的實際需求來選擇合適的容災方案。選擇容災方案時要充分考慮現(xiàn)狀、容災要求和容災級別以及資金投入、異地容災中心的管理;還要考察方案在技術上是否成熟、穩(wěn)定、可靠,性能和靈活性是否滿足要求,是否有成功案例等等。
5.1 一地一中心的“2+1”模式
目前絕大多數(shù)醫(yī)院都采用了傳統(tǒng)的群集技術[10],實現(xiàn)了“2+1”的“雙機熱備份”模式,這種基于共享磁盤陣列[11]的集群解決方案在應對服務器故障方面效果顯著,但存在著一個非常明顯的缺陷,那就是作為存儲數(shù)據(jù)的磁盤陣列是一個“單點”。任何單點故障都可能對業(yè)務產(chǎn)生災難性影響,數(shù)據(jù)中心存儲數(shù)據(jù)的磁盤陣列故障同樣如此。因此,這種模式僅僅是一種服務器高可用方案,容災能力非常有限。
5.2 一地兩中心或兩地兩中心的“2+2”模式[12]
在“2+1”群集模式的基礎上,增加一臺磁盤陣列,將一臺服務器定義為一個“運算節(jié)點”,將一臺磁盤陣列定義為一個“存儲節(jié)點”,所謂“2+2”的意思是“兩個運算節(jié)點+兩個存儲節(jié)點”。采用先進的光纖SAN架構,并采用管理軟件(如Symantec Storage Foundation)實現(xiàn)2臺磁盤陣列之間的鏡像關系,每一次I/O的寫入都分別通過2條主機通道到達2臺磁盤陣列的控制器,并當2個I/O都返回正確的結果之后,操作才算完成。所以,2臺磁盤陣列中的數(shù)據(jù)完全保持實時同步,不用擔心任何的數(shù)據(jù)一致性問題。數(shù)據(jù)復制采用同步傳輸?shù)姆绞交蛘弋惒絺鬏敺绞?,同步傳輸方式最遠距離在50 km內(nèi),超過50 km采用異步方式傳輸。
當生產(chǎn)中心的磁盤系統(tǒng)發(fā)生故障時,由于容災中心的磁盤是它的鏡像,操作系統(tǒng)會自動隔離生產(chǎn)中心的磁盤,轉而對容災中心的數(shù)據(jù)通過SAN網(wǎng)絡直接進行訪問,不需要有任何針對業(yè)務系統(tǒng)的動作。就是說,生產(chǎn)中心磁盤系統(tǒng)的災難,對業(yè)務系統(tǒng)是透明的,應用和數(shù)據(jù)庫不會因為生產(chǎn)中心磁盤系統(tǒng)的故障而停止;同時也避免了數(shù)據(jù)庫損壞及數(shù)據(jù)一致性風險。
這種解決方案實現(xiàn)了最少硬件的全冗余鏈接,無任何單點故障,系統(tǒng)中任意一個組件的損壞都不會影響系統(tǒng)的正常運行,鏡像的存儲節(jié)點為系統(tǒng)的關鍵在線業(yè)務數(shù)據(jù)提供了雙重保障,實現(xiàn)了數(shù)據(jù)和應用的高級容災。
兩個節(jié)點可以分別部署在兩地(異地),成為異地兩地兩中心模式;亦可分別部署在同城不同的兩地機房,構建“同城兩地兩中心容災模式”,適合于具有分院的醫(yī)院集團;亦可部署在醫(yī)院內(nèi)不同的建筑內(nèi),如門診樓和住院樓,構建一地兩中心架構,也就是當前非常熱門的“園區(qū)級容災”模式,適用于沒有分院的醫(yī)院[13]。這幾種模式下,其中一地或者其中一棟樓發(fā)生災難性的事故(如火災等),醫(yī)院的業(yè)務和應用仍然能夠繼續(xù)正常運行,不會有任何數(shù)據(jù)丟失的情況發(fā)生(如圖1所示)。
圖1 2+2容災示意圖
另外這個“2+2”的架構具有非常好的可擴展性,不僅可以“2+2”,還可以做到“N+2”,甚至“N+N”,把醫(yī)院的所有信息系統(tǒng)進行整合,有效減少硬件投資、提高系統(tǒng)可維護性。
5.3 同城-異地(遠程)的兩地三中心模式[14]
兩地三中心模式分為3種方式:①在同城異園區(qū)建立災備中心,然后遠程異地災備中心實現(xiàn)對同城異園區(qū)災備中心的備份;②在同城同園區(qū)建立災備中心,然后異地災備中心實現(xiàn)對同城同園區(qū)災備中心的備份;③同城災備中心與遠程異地災備中心分別獨立為生產(chǎn)中心實施備份。當生產(chǎn)中心出現(xiàn)嚴重故障時,可通過同城災備中心實現(xiàn)對業(yè)務的迅速接管,而出現(xiàn)區(qū)域性重大災難時,可通過生產(chǎn)中心的遠程異地災備中心實現(xiàn)業(yè)務的恢復。這種模式因為建設和管理成本太高,在醫(yī)院應用不多。
容災建設是一項系統(tǒng)工程,需要IT技術、管理、政策法規(guī)共同配合。全系統(tǒng)的容災建設工程復雜、成本高昂、管理壓力大。當前的解決方案大部分都是面對HIS核心業(yè)務系統(tǒng),保證數(shù)據(jù)的完整和應用的連續(xù),其他重要系統(tǒng)只是進行數(shù)據(jù)異地備份。隨著HIT的不斷發(fā)展,特別是虛擬主機、虛擬計算、虛擬桌面、虛擬存儲等虛擬化技術[15]和云計算、云存儲[16]技術等的融合,容災技術和應用有著廣泛的前景。參考文獻
[1]ChadL,Michael H.Componentsof disastertolerant computing:analysis of disaster recovery, IT application downtime andexecutive visibility[J].International Journal of Business Information Systems,2008,3(3):317-331.
[2]葉斌.兩種適用醫(yī)院信息系統(tǒng)容災與數(shù)據(jù)備份的方案[J].中國醫(yī)療設備,2011,26(5):132-133.
[3]張紅.醫(yī)院信息化背景下數(shù)據(jù)容災的對策[J].醫(yī)療裝備,2011,24(3):37-39.
[4]王占明,黃志中.醫(yī)院數(shù)據(jù)中心與容災中心架構設計及實踐應用[J].醫(yī)療衛(wèi)生裝備,2011,32(10):56-58.
[5]劉其成,鄭緯民,陳康.虛擬化技術在容災系統(tǒng)中的應用[J].小型微型計算機系統(tǒng),2010,31(10):1954-1958.
[6]翁錦陽,何萍,朱鐵兵.大型醫(yī)院信息系統(tǒng)的容災設計和應用[J].中國醫(yī)療設備,2011,26(1):59-60,168.
[7]郭江博.構建容災系統(tǒng)防范網(wǎng)絡安全問題研究[J].中國信息界,2011(4):55-56.
[8]郝樂.數(shù)據(jù)容災技術研究[J].電子科技,2011,24(3):20-21.
[9]康瀟文,楊英杰,杜鑫.虛擬存儲技術在容災系統(tǒng)中的應用[J].計算機工程,2010,35(21):36-38,41.
[10]趙艷,朱立峰.基于復制的醫(yī)院信息系統(tǒng)數(shù)據(jù)庫災難恢復方案[J].中國數(shù)字醫(yī)學,2008,3(1):48-51.
[11]何鵬,吳青.醫(yī)院信息系統(tǒng)數(shù)據(jù)遠程容災方案設計分析[J].中外醫(yī)療,2010(13):150-151.
[12]姜文,胡順福.實現(xiàn)醫(yī)院信息系統(tǒng)高可用性設計[J].中國醫(yī)療器械雜志,2008,32(1):62-63,67.
[13]傅征,梁銘會.數(shù)字醫(yī)學概論[M].北京:人民衛(wèi)生出版社,2009.
[14]范建華,趙文.容災備份異地架構在“不可抗力因素”下的應用研究[J].陜西理工學院學報(自然科學版),2011,27(1):54-59,66.
[15]謝乍晴,陳章清.虛擬化技術在構建數(shù)字化醫(yī)院中的應用[J].醫(yī)學信息學雜志,2011,32(9):28-30.
[16]祝建武.云存儲在企業(yè)容災備份中全新模式探析[J].現(xiàn)代商貿(mào)工業(yè),2011(3):268-269.
Application of disaster recovery technology in establishment of hospital informatization
HAN Ai-hua
Objective: To explore how to establish application level disaster recovery framework and mode based on HIS core system in hospital. Methods: The author researched correlative conception, technique data, target and classification, standard, technique and key technical analysis as well as system development scheme and choice of disaster recovery, and thoroughly studied disaster recovery technology and disaster recovery system, and designed all kinds of disaster recovery framework and mode of hospital information system. Results: Selecting proper disaster recovery mode could meet disaster recovery application requirements, and there was no data lose and no service break and no professional work interruption. Conclusion: A ground of "2+2" mode of two centers has the advantage of low cost, high level of disaster recovery, practicality in the reality, and it was worthy of being widely used.
Disaster recovery; Fully redundant system; Disaster recovery of Park level; One ground of two centers; "2+2" mode
1672-8270(2012)08-0019-04
TN915.08
A
韓愛華,女,(1969- ),本科學歷,主管技師。臨沂市蘭山區(qū)人民醫(yī)院設備科,從事生物醫(yī)學工程與計算機醫(yī)學應用研究。
2012-04-02
①臨沂市蘭山區(qū)人民醫(yī)院設備科 山東 臨沂 276001
China Medical Equipment,2012,9(8):19-22.