陳濤
(南京醫(yī)科大學(xué)附屬南京醫(yī)院(南京市第一醫(yī)院)信息中心,江蘇 南京 210006)
醫(yī)院數(shù)字技術(shù)發(fā)展過程中,不同種類的系統(tǒng)架構(gòu)演變迅速發(fā)展,醫(yī)院信息系統(tǒng)應(yīng)具備非常可靠的災(zāi)備能力,完善的醫(yī)院信息系統(tǒng)應(yīng)具有完善、可靠的數(shù)據(jù)備份機制和從災(zāi)難中快速恢復(fù)的能力[1]。云架構(gòu)的災(zāi)備設(shè)計是目前的流行理念,然而傳統(tǒng)的災(zāi)備架構(gòu)體系并不適用于云架構(gòu)。目前,醫(yī)院災(zāi)備系統(tǒng)架構(gòu)不斷地由分散式向集中式發(fā)展,這使得以往災(zāi)備軟件與快速擴展的災(zāi)備體系建設(shè)格格不入。傳統(tǒng)災(zāi)備系統(tǒng)中,執(zhí)行醫(yī)院的基礎(chǔ)數(shù)據(jù)遷移業(yè)務(wù)常常比較困難。災(zāi)難發(fā)生時協(xié)調(diào)停機困難,災(zāi)備數(shù)據(jù)備份驗證周期長,基礎(chǔ)數(shù)據(jù)環(huán)境重建耗時費力等問題,都阻礙了醫(yī)院數(shù)據(jù)災(zāi)備體系建設(shè)數(shù)字化轉(zhuǎn)型的步伐。災(zāi)難恢復(fù)是指災(zāi)難發(fā)生后,系統(tǒng)恢復(fù)正常運行的能力,而容災(zāi)指災(zāi)難發(fā)生時保持系統(tǒng)不間斷運行的能力[2]。醫(yī)院新的數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)亟需應(yīng)用。
具體需求包含以下幾個方面:①根據(jù)目前的實際需求,新的醫(yī)院數(shù)據(jù)災(zāi)備系統(tǒng)設(shè)備配制應(yīng)不少于4 個千兆網(wǎng)口,包含兩個物理主機服務(wù)器進行相關(guān)業(yè)務(wù)應(yīng)急,系統(tǒng)在客戶端上應(yīng)可用Web 管理界面進行統(tǒng)一管理。②系統(tǒng)應(yīng)該能夠監(jiān)測被保護服務(wù)器的CPU、內(nèi)存、網(wǎng)絡(luò)等性能指標,對數(shù)據(jù)庫、中間層等其他應(yīng)用服務(wù)器數(shù)據(jù)擁有監(jiān)控其運行情況的功能。災(zāi)備應(yīng)急系統(tǒng)應(yīng)能夠模擬不同用戶的訪問方式,有效地對各種應(yīng)用服務(wù)提供運行安全監(jiān)控。系統(tǒng)應(yīng)該支持用戶根據(jù)自身需要自定義數(shù)據(jù)庫,并提供基于事件的統(tǒng)計報表和圖表,且能夠針對這些事件提供短信通知功能。數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)針對所備份的所有系統(tǒng)可能出現(xiàn)的各種狀況進行日志統(tǒng)計,遇到錯誤事件發(fā)出事件報警等。③在數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)環(huán)境配置上,能夠?qū)⑨t(yī)院信息系統(tǒng)數(shù)據(jù)的基礎(chǔ)環(huán)境和數(shù)據(jù)存儲對象實現(xiàn)虛擬化隔離,災(zāi)備系統(tǒng)以虛擬機映像文件的方式進行存儲,保持與實際映像數(shù)據(jù)實時同步,保持業(yè)務(wù)驅(qū)動環(huán)境實時P2V 轉(zhuǎn)換。④信息數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該支持二層、三層網(wǎng)絡(luò)的接入,支持VPN 的接入,支持NAT 和橋接組網(wǎng),支持虛擬子網(wǎng)管理等。⑤當信息系統(tǒng)數(shù)據(jù)業(yè)務(wù)服務(wù)器發(fā)生故障時,災(zāi)備應(yīng)急系統(tǒng)要能夠提供及時有效應(yīng)急接管,應(yīng)能夠在不同故障發(fā)生時提供應(yīng)急接管,比如人為原因的誤刪數(shù)據(jù)、數(shù)據(jù)服務(wù)器硬盤損壞造成的數(shù)據(jù)文件損壞丟失等。當災(zāi)備應(yīng)急管理系統(tǒng)接管醫(yī)院信息系統(tǒng)時,要能夠滿足災(zāi)備管理系統(tǒng)無需對醫(yī)院信息系統(tǒng)配置進行任何修改,包括IP、MAC 地址,軟件端的配置,系統(tǒng)口令等。信息數(shù)據(jù)災(zāi)備系統(tǒng)要有快照節(jié)點功能,能從快照設(shè)置的任意時間點啟動接管程序。⑥信息數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)能夠支持多個獨立的賬號管理模式,能夠?qū)崿F(xiàn)整機業(yè)務(wù)級一體化備份且僅備份有效的數(shù)據(jù)塊。系統(tǒng)設(shè)備應(yīng)能夠模擬機房內(nèi)任何信息系統(tǒng)服務(wù)器的應(yīng)用環(huán)境,在整個仿真過程中,數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)能夠?qū)π畔⑾到y(tǒng)平臺作業(yè)和信息日常業(yè)務(wù)無任何影響。⑦數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)要能夠支持各種單機環(huán)境以及主備集群的應(yīng)急接管,共享磁盤、本地磁盤以及多路徑軟件環(huán)境同樣要兼容適用。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)底層框架應(yīng)該基于超融合架構(gòu),超融合架構(gòu)的諸多特點要能夠體現(xiàn)在系統(tǒng)中。比如能夠支持系統(tǒng)的橫向擴展,用戶能夠根據(jù)實際需要進行擴展,以節(jié)省成本。設(shè)備資源及存儲的橫向擴展也使得壓力分擔到每一個節(jié)點上,這就解決了單點性能問題。
新的數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備一定的應(yīng)急接管功能和仿真測試功能,所以系統(tǒng)應(yīng)該由客戶端Web 管理功能、管控平臺、監(jiān)控預(yù)警、恢復(fù)功能、接管功能、遷移功能、仿真功能、快照管理以及存儲節(jié)點九部分組成。
構(gòu)架基于B/S,用戶在客戶端通過Web 網(wǎng)頁方式進行整個災(zāi)備應(yīng)急系統(tǒng)的管理與操作。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)具備獨立物理服務(wù)器實體,架構(gòu)于醫(yī)院信息中心機房,負責各種物理主機和虛擬主機的鏡像化復(fù)制,能夠?qū)υ葱畔⑾到y(tǒng)服務(wù)器的各項運行數(shù)據(jù)進行實時的捕捉,并存入自身虛擬化存儲池。
該功能作用于監(jiān)控災(zāi)備應(yīng)急系統(tǒng)的實體服務(wù)器資源情況,包括硬件資源、軟件資源以及業(yè)務(wù)的可用狀態(tài)等。當災(zāi)備應(yīng)急系統(tǒng)出現(xiàn)問題時,監(jiān)控預(yù)警功能即可觸發(fā)告警,通過短信方式通知用戶,讓用戶能及時了解掌握災(zāi)備系統(tǒng)問題。
該功能是讓災(zāi)備應(yīng)急系統(tǒng)能通過快照掛載的方式,把備份數(shù)據(jù)卷有效地掛載給源信息系統(tǒng)數(shù)據(jù)服務(wù)器,以實現(xiàn)瞬間恢復(fù)數(shù)據(jù)的能力。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)在日常的數(shù)據(jù)備份過程中,數(shù)據(jù)傳輸需要分發(fā)處理,這就需要擁有足夠的存儲能力和空間。存儲節(jié)點則對此提供了基礎(chǔ)保障。
接管功能用于應(yīng)急接管,當災(zāi)備應(yīng)急系統(tǒng)檢測前端應(yīng)用服務(wù)的業(yè)務(wù)發(fā)生故障時,接管系統(tǒng)則通過最近同步的業(yè)務(wù)節(jié)點,啟動應(yīng)急業(yè)務(wù)接管功能,并且虛擬服務(wù)器信息數(shù)據(jù)和原信息數(shù)據(jù)服務(wù)器相同。應(yīng)急接管功能除了自動接管外,也可以手動接管,最大限度地保證業(yè)務(wù)正常運行。
遷移功能用于離線遷移主業(yè)務(wù)數(shù)據(jù)服務(wù)器數(shù)據(jù),平時對源數(shù)據(jù)服務(wù)器進行在線備份,在源機離線時能恢復(fù)數(shù)據(jù)到異構(gòu)平臺上,進行整機的數(shù)據(jù)遷移。
該功能負責系統(tǒng)環(huán)境的測試和數(shù)據(jù)的仿真模擬,這對于業(yè)務(wù)需要、業(yè)務(wù)數(shù)據(jù)開發(fā)以及業(yè)務(wù)培訓(xùn)等都有著極大幫助。
快照管理功能可以根據(jù)系統(tǒng)所設(shè)置的數(shù)據(jù)備份策略而自動生成數(shù)據(jù)時間節(jié)點快照,各個快照節(jié)點互相獨立,且是云鏡像。在快照系統(tǒng)下的用戶可以根據(jù)不同的時間節(jié)點,產(chǎn)生應(yīng)急演練的虛擬機,以此來測試源機服務(wù)器數(shù)據(jù),驗證正確性。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的數(shù)據(jù)備份,應(yīng)該包括數(shù)據(jù)捕獲、數(shù)據(jù)恢復(fù)、應(yīng)急接管以及仿真測試四個環(huán)節(jié)部分。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備把源機數(shù)據(jù)服務(wù)器的操作系統(tǒng)、服務(wù)器上的各種應(yīng)用以及數(shù)據(jù)數(shù)據(jù)打包成云鏡像文件的能力,這樣系統(tǒng)可以通過全量或者增量的方式去鏡像化復(fù)制到自身的災(zāi)備系統(tǒng)中。
數(shù)據(jù)恢復(fù)應(yīng)該分為兩種方式,瞬時恢復(fù)和不間斷恢復(fù)。瞬時恢復(fù)可以基于任意不同的快照時間節(jié)點,通過TCP 協(xié)議,進行分區(qū)的掛載,在這個過程中,不需要去移動原始數(shù)據(jù),相對應(yīng)的時間快照節(jié)點信息也不會改變。不間斷恢復(fù)是指當源機數(shù)據(jù)服務(wù)器數(shù)據(jù)發(fā)生異常時,災(zāi)備應(yīng)急系統(tǒng)先通過接管系統(tǒng)進行及時、有效的業(yè)務(wù)接管,不間斷日常數(shù)據(jù)業(yè)務(wù)的正常運行,當源機數(shù)據(jù)服務(wù)器恢復(fù)正常后,災(zāi)備應(yīng)急系統(tǒng)進行增量數(shù)據(jù)的回傳,同時應(yīng)急虛機保持在線運行。
當源機數(shù)據(jù)服務(wù)器發(fā)生異常時或者用戶想根據(jù)實際需要測試備份數(shù)據(jù)準確性時,用戶要能在數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)中生成應(yīng)急接管虛擬化服務(wù)器,對源機的業(yè)務(wù)進行一鍵接管,以此來保證源機數(shù)據(jù)的連續(xù)性。
數(shù)據(jù)備份的環(huán)節(jié)必須要有仿真測試這個流程部分。綜上所述,災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備與源機實時同步的時間節(jié)點備份策略,在這些不同的快照時間節(jié)點上,必須要能生成跟源機數(shù)據(jù)業(yè)務(wù)環(huán)境隔離的仿真測試環(huán)境,在這個環(huán)境下,對備份的數(shù)據(jù)進行驗證。驗證完成后,可刪除仿真環(huán)境,確保數(shù)據(jù)災(zāi)備系統(tǒng)的流暢運行。
用戶管理是每個系統(tǒng)都應(yīng)具備的功能。用戶管理權(quán)限的明確劃分,可以確保數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的操作安全性以及操作規(guī)范性。不同的用戶管理權(quán)限,可以相互監(jiān)督制約,以確保系統(tǒng)的安全穩(wěn)定運行。數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該支持系統(tǒng)管理員、審查管理員、系統(tǒng)存儲管理員、應(yīng)急系統(tǒng)管理員四個角色:①系統(tǒng)管理員。負責數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的日常維護與管理工作,對整個系統(tǒng)進行統(tǒng)籌管理,這包括數(shù)據(jù)備份查看、應(yīng)急演練功能的測試、數(shù)據(jù)的恢復(fù)、計算節(jié)點存儲節(jié)點的隨時監(jiān)測以及系統(tǒng)運行日志告警查看等。②審查管理員。負責數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的運行日志的審查。③系統(tǒng)存儲管理員。負責數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的存儲恢復(fù)等權(quán)限。④應(yīng)急系統(tǒng)管理員。負責在數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)中進行應(yīng)急演練等權(quán)限部分。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備詳細的系統(tǒng)的日志報表。日志報表記錄著系統(tǒng)中所有用戶的操作及系統(tǒng)運行問題,這能夠確保所有用戶在系統(tǒng)中操作都有記錄監(jiān)管,因人為操作原因而引起的系統(tǒng)故障,能夠根據(jù)日志報表及時查出原因,或者系統(tǒng)自身運行出現(xiàn)的錯誤,通過系統(tǒng)運行日志報表可以及時修復(fù)改進。日志類型包括:①數(shù)據(jù)備份日志,記錄數(shù)據(jù)備份相關(guān)信息;②警告日志,記錄系統(tǒng)告警信息;③應(yīng)急數(shù)據(jù)日志,記錄系統(tǒng)中應(yīng)急接管操作信息;④存儲及恢復(fù)日志,記錄系統(tǒng)的數(shù)據(jù)恢復(fù)以及系統(tǒng)存儲的信息。
目前,人類社會比以往任何時候都更加依賴于計算機系統(tǒng),計算機系統(tǒng)在迅猛發(fā)展提供技術(shù)基礎(chǔ)架構(gòu)的同時,由于用戶業(yè)務(wù)處理的高度集中以及不可預(yù)見的故障和災(zāi)難,導(dǎo)致整個系統(tǒng)存在災(zāi)難性破壞的隱患,有可能成為整體系統(tǒng)中的單故障點[3]。信息數(shù)據(jù)災(zāi)備系統(tǒng)成為醫(yī)院信息工作中不可或缺的部分。新型、完善的信息數(shù)據(jù)災(zāi)備系統(tǒng)可使醫(yī)院在信息化的運行中事半功倍、穩(wěn)定運行。