王 剛
(陜西省漢中市郵政局,陜西 漢中 723000)
商業(yè)銀行金融信息系統(tǒng)已全部完成了邏輯大集中,系統(tǒng)運(yùn)行的穩(wěn)定性和高可用性至關(guān)重要。根據(jù)人民銀行和銀監(jiān)局統(tǒng)計(jì)造成金融信息系統(tǒng)故障的主要方面是硬件問(wèn)題占40%、軟件問(wèn)題占30%、人為因素占20%、環(huán)境因素占10%。因此,穩(wěn)定性和高可用性設(shè)計(jì)應(yīng)盡可能地考慮到上述因素。金融信息系統(tǒng)的穩(wěn)定性和可用性將取決于內(nèi)部的應(yīng)用系統(tǒng)、主機(jī)、存儲(chǔ)、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)和基礎(chǔ)設(shè)施環(huán)境等。穩(wěn)定性策略和高可用性設(shè)計(jì)是確保系統(tǒng)穩(wěn)定運(yùn)行和故障快速恢復(fù)的關(guān)鍵。
銀行金融信息系統(tǒng)在應(yīng)用軟件架構(gòu)設(shè)計(jì)中應(yīng)從渠道層、渠道管理層、業(yè)務(wù)處理層等不同層面通過(guò)多種措施和策略的綜合設(shè)計(jì)來(lái)提高應(yīng)用系統(tǒng)的高可用性和穩(wěn)定性[1]。
應(yīng)用軟件負(fù)載均衡通過(guò)多個(gè)層次上不同的負(fù)載均衡策略一起實(shí)現(xiàn)整體的負(fù)載均衡,設(shè)計(jì)思路是將大量的并發(fā)訪(fǎng)問(wèn)分擔(dān)到多臺(tái)節(jié)點(diǎn)設(shè)備上分別處理,從而提高服務(wù)響應(yīng)速度,避免服務(wù)請(qǐng)求集中于單一節(jié)點(diǎn)導(dǎo)致?lián)砣?/p>
應(yīng)用軟件構(gòu)建在面向服務(wù)的架構(gòu)、設(shè)計(jì)思想上,應(yīng)用服務(wù)具有較高的可靈活部署性。通過(guò)這種靈活性,結(jié)合系統(tǒng)基礎(chǔ)設(shè)施的規(guī)劃、部署可以實(shí)現(xiàn)應(yīng)用軟件的失效備援。失效備援是在應(yīng)用管理框架中實(shí)現(xiàn)應(yīng)用服務(wù)的冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時(shí)將服務(wù)請(qǐng)求切換到相應(yīng)的冗余服務(wù)設(shè)備。
流量控制是通過(guò)應(yīng)用軟件對(duì)系統(tǒng)實(shí)施控制的功能。流量控制基于系統(tǒng)邏輯架構(gòu),依據(jù)系統(tǒng)、子系統(tǒng)、渠道等不同層面的交易流量、交易狀態(tài)和確定的控制策略、控制規(guī)則,對(duì)系統(tǒng)實(shí)施控制[2]。 應(yīng)用系統(tǒng)具有的功能:(1)流量數(shù)據(jù)采集;(2)流量值計(jì)算;(3)交易流量控制;(4)渠道流量控制;(5)控制策略及規(guī)則管理。
在應(yīng)用軟件系統(tǒng)發(fā)生故障時(shí),通過(guò)故障隔離把故障造成的危害控制在最小范圍內(nèi),提高系統(tǒng)對(duì)外服務(wù)的整體能力。應(yīng)用系統(tǒng)故障隔離具有的功能:(1)按渠道的故障隔離;(2)按子系統(tǒng)的故障隔離;(3)支持異常服務(wù)的故障隔離;(4)按交易的故障隔離。
在柜面網(wǎng)點(diǎn)前置系統(tǒng)側(cè),應(yīng)采用硬件負(fù)載均衡器對(duì)網(wǎng)點(diǎn)終端連接到網(wǎng)點(diǎn)前置的負(fù)載均衡,利用負(fù)載均衡器的連接狀態(tài)檢查和負(fù)載均衡策略可以靈活地調(diào)整終端的連接指向,屏蔽因網(wǎng)點(diǎn)前置機(jī)故障導(dǎo)致的終端操作異常,提高網(wǎng)點(diǎn)前置系統(tǒng)的可用性。
主機(jī)系統(tǒng)作為各應(yīng)用系統(tǒng)的運(yùn)行平臺(tái),其可用性和穩(wěn)定性是業(yè)務(wù)系統(tǒng)能夠持續(xù)、穩(wěn)定運(yùn)行的前提。其高可用性和穩(wěn)定性可從以下幾方面加以保障。
主機(jī)采用高度冗余設(shè)計(jì),可充分保障自身的運(yùn)行可靠性。主機(jī)采用多種容錯(cuò)技術(shù),可有效提升自身的可靠性。
為確保主機(jī)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)主機(jī)的所有關(guān)鍵部件均采用冗余配置,以消除主機(jī)自身的單點(diǎn)故障,其中包括:(1)配置熱插拔N+1或N+N冗余電源、風(fēng)扇;(2)配置冗余系統(tǒng)盤(pán),并通過(guò)操作系統(tǒng)進(jìn)行系統(tǒng)盤(pán)的RAID1鏡像保護(hù);(3)配置冗余網(wǎng)卡,并采用多網(wǎng)卡綁定技術(shù),實(shí)現(xiàn)多網(wǎng)卡間的自動(dòng)冗余和流量的負(fù)載均衡;(4)配置冗余光纖通道HBA卡和InfinibandHCA卡,通過(guò)多路徑軟件來(lái)實(shí)現(xiàn)多HBA/HCA卡的自動(dòng)冗余;(5)配置冗余的主機(jī)管理處理器,能夠在線(xiàn)配置、管理主機(jī)并監(jiān)控主機(jī)狀態(tài),同時(shí)支持透明接管和在線(xiàn)更換管理處理器。
在主機(jī)設(shè)計(jì)上采用電氣隔離的動(dòng)態(tài)硬件分區(qū)技術(shù),同時(shí)各分區(qū)采用相互獨(dú)立、冗余的I/O配置以實(shí)現(xiàn)自身的高可靠性。硬件分區(qū)技術(shù)在優(yōu)化主機(jī)資源利用的同時(shí),可在同一主機(jī)硬件內(nèi)全面隔離分區(qū)故障。如果一個(gè)分區(qū)中的操作系統(tǒng)、軟件或甚至是硬件出現(xiàn)問(wèn)題,運(yùn)行在其他分區(qū)中的操作系統(tǒng)和軟件均不受影響。通過(guò)各分區(qū)相互獨(dú)立的I/O接入數(shù)據(jù)網(wǎng)絡(luò)、心跳網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò),從而確保主機(jī)系統(tǒng)整體的高可用性。
主機(jī)系統(tǒng)的可恢復(fù)性從一定程度決定了系統(tǒng)出現(xiàn)故障時(shí)是否能夠自動(dòng)修復(fù)和快速恢復(fù),應(yīng)通過(guò)主機(jī)系統(tǒng)的備份與容災(zāi)設(shè)計(jì)來(lái)確保其高可恢復(fù)性。主要包括:(1)對(duì)主機(jī)系統(tǒng)盤(pán)將定期進(jìn)行自動(dòng)化克隆備份;(2)銀行金融信息系統(tǒng)應(yīng)采用兩地三中心+同址備援的容災(zāi)體系設(shè)計(jì)。即同城容災(zāi)、異地容災(zāi)、同址備援。
通過(guò)上述設(shè)計(jì),主機(jī)系統(tǒng)中將不會(huì)存在單點(diǎn)故障隱患,保證了主機(jī)系統(tǒng)的穩(wěn)定性;同時(shí),主機(jī)能夠在線(xiàn)進(jìn)行故障硬件更換、在線(xiàn)擴(kuò)充、不停機(jī)進(jìn)行軟件和補(bǔ)丁升級(jí),有效避免了主機(jī)的計(jì)劃內(nèi)停機(jī)。
數(shù)據(jù)是所有應(yīng)用系統(tǒng)運(yùn)行的基礎(chǔ),而儲(chǔ)存這些數(shù)據(jù)的存儲(chǔ)系統(tǒng)的可用性與穩(wěn)定性對(duì)于整個(gè)系統(tǒng)來(lái)說(shuō)至關(guān)重要。存儲(chǔ)系統(tǒng)的可用性和穩(wěn)定性需要從以下幾方面加以保障。
無(wú)論是高端存儲(chǔ)還是中低端存儲(chǔ)應(yīng)采用高度冗余的高可靠結(jié)構(gòu)設(shè)計(jì),充分保障自身的運(yùn)行可靠性,如:中低端存儲(chǔ)的共享總線(xiàn)或交換總線(xiàn)、高端存儲(chǔ)的交換矩陣和直連矩陣、多存儲(chǔ)控制器架構(gòu)、冗余后端磁盤(pán)路徑/雙端口物理磁盤(pán)等;同時(shí),存儲(chǔ)可采用高速緩存鏡像寫(xiě)保護(hù)、多個(gè)前端主機(jī)端口并行訪(fǎng)問(wèn)、高速緩存電池后備保護(hù)等措施。
為確保存儲(chǔ)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)存儲(chǔ)的所有關(guān)鍵部件應(yīng)采用冗余配置,以消除存儲(chǔ)自身的單點(diǎn)故障,其中包括:(1)配置N+1冗余存儲(chǔ)控制器,避免因控制器故障造成存儲(chǔ)無(wú)法訪(fǎng)問(wèn);(2)每個(gè)控制器上均配置多個(gè)主機(jī)接口,同時(shí)分別連接不同的光纖交換機(jī),構(gòu)成全冗余的存儲(chǔ)網(wǎng)絡(luò)環(huán)境;(3)內(nèi)部磁盤(pán)均配置為雙端口企業(yè)級(jí)磁盤(pán),兩個(gè)端口分別連接后端的存儲(chǔ)控制器,以確保后端磁盤(pán)訪(fǎng)問(wèn)路徑的可達(dá)性;(4)在根據(jù)容量需求和RAID方式進(jìn)行磁盤(pán)配置的同時(shí),在存儲(chǔ)中為應(yīng)用按需配置全局熱備盤(pán),進(jìn)一步加強(qiáng)存儲(chǔ)的可用性。
在存儲(chǔ)系統(tǒng)中,需要依據(jù)各應(yīng)用系統(tǒng)的容量和性能需求來(lái)分配存儲(chǔ)資源,同時(shí)根據(jù)應(yīng)用數(shù)據(jù)所需的安全可靠性等級(jí)來(lái)定義其磁盤(pán)組的RAID保護(hù)級(jí)別。對(duì)于關(guān)鍵數(shù)據(jù)和重要數(shù)據(jù),應(yīng)采用RAID0+1進(jìn)行保護(hù),對(duì)于次重要數(shù)據(jù)可采用RAID6或RAID5進(jìn)行保護(hù)。
存儲(chǔ)系統(tǒng)的可恢復(fù)能力將直接體現(xiàn)在數(shù)據(jù)的可持續(xù)應(yīng)用方面,需要通過(guò)數(shù)據(jù)備份與存儲(chǔ)容災(zāi)設(shè)計(jì)來(lái)確保存儲(chǔ)的高可恢復(fù)性。主要包括:(1)系統(tǒng)的全國(guó)數(shù)據(jù)中心和災(zāi)備中心應(yīng)采用自動(dòng)化備份管理工具對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行定時(shí)、按策略的自動(dòng)D2D(磁盤(pán)到磁盤(pán))備份,并實(shí)現(xiàn)D2D2T(磁盤(pán)到磁盤(pán),再到磁帶)多重備份,從而確保數(shù)據(jù)的高可用性。在存儲(chǔ)的數(shù)據(jù)發(fā)生丟失時(shí),通過(guò)備份管理工具按故障時(shí)間點(diǎn)進(jìn)行數(shù)據(jù)恢復(fù);(2)銀行金融信息系統(tǒng)應(yīng)采用兩地三中心+同址備援的容災(zāi)體系設(shè)計(jì)。即同城容災(zāi)、異地容災(zāi)、同址備援[3]。
為了避免數(shù)據(jù)庫(kù)主機(jī)、數(shù)據(jù)庫(kù)存儲(chǔ)或數(shù)據(jù)庫(kù)邏輯錯(cuò)誤等引起的數(shù)據(jù)庫(kù)故障,應(yīng)保障數(shù)據(jù)庫(kù)提供7*24小時(shí)的對(duì)外服務(wù),Oracle提供了一個(gè)高可用性、高可靠性和高可擴(kuò)展性的數(shù)據(jù)庫(kù)環(huán)境。Oracle數(shù)據(jù)庫(kù)提供數(shù)據(jù)庫(kù)集群RAC(Real Application Cluster)、Data Guard、 自 動(dòng) 存 儲(chǔ) 管 理 ASM (Automaic Storage Management) 故障組鏡像、 閃回技術(shù) Flashback、Stream、RMAN快速備份和恢復(fù)等技術(shù)來(lái)保障數(shù)據(jù)庫(kù)的高可用性和穩(wěn)定性等功能[4]。應(yīng)充分采用Oracle數(shù)據(jù)庫(kù)技術(shù)保證高系統(tǒng)的穩(wěn)定性和可用性。
邏輯集中系統(tǒng)從網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)連接和訪(fǎng)問(wèn)策略等幾個(gè)方面對(duì)網(wǎng)絡(luò)進(jìn)行了全面的容錯(cuò)保障設(shè)計(jì),使網(wǎng)絡(luò)系統(tǒng)可提供實(shí)時(shí)的、不間斷的網(wǎng)絡(luò)訪(fǎng)問(wèn)服務(wù),滿(mǎn)足其所承載的邏輯集中系統(tǒng)的高可用和持續(xù)穩(wěn)定的運(yùn)行要求。
全國(guó)數(shù)據(jù)中心應(yīng)按照業(yè)務(wù)安全級(jí)別進(jìn)行網(wǎng)絡(luò)安全域劃分,用防火墻、網(wǎng)閘等設(shè)備完成的網(wǎng)絡(luò)隔離;采用VPN、SSL等保證通訊安全和數(shù)據(jù)傳輸安全。提出了“網(wǎng)絡(luò)隔離、數(shù)據(jù)落地”的安全原則,即按照業(yè)務(wù)特征、安全要求、風(fēng)險(xiǎn)大小將網(wǎng)絡(luò)隔離成多個(gè)不同的安全域,采用訪(fǎng)問(wèn)控制、路由隔斷、防火墻等技術(shù)措施進(jìn)行“網(wǎng)絡(luò)隔離”,將金融核心系統(tǒng)部署在安全級(jí)別最高的安全域中,拒絕直接訪(fǎng)問(wèn),所有進(jìn)出該域的數(shù)據(jù)都要存檔備查、所有對(duì)系統(tǒng)的訪(fǎng)問(wèn)都要登記日志備查,做到“數(shù)據(jù)落地”。
依照此原則,邏輯集中系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)必須按照系統(tǒng)所實(shí)現(xiàn)功能和安全防護(hù)需求的不同進(jìn)行區(qū)域劃分。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中,通過(guò)功能區(qū)域的劃分可充分提高各區(qū)域之間的獨(dú)立性,強(qiáng)化區(qū)域安全性,隔離網(wǎng)絡(luò)故障且便于分級(jí)管理;同時(shí),模塊化的區(qū)域劃分可提高各區(qū)域的可用性,屏蔽各區(qū)域間的差異性,將各區(qū)域間的相互影響降到最?。淮送?,區(qū)域劃分可以使網(wǎng)絡(luò)層次化更加清晰,復(fù)雜度降低,同時(shí)也便于各功能區(qū)域的內(nèi)部縱向擴(kuò)充(Scaleup)和網(wǎng)絡(luò)系統(tǒng)整體的橫向可擴(kuò)展性(Scaleout)。將網(wǎng)絡(luò)系統(tǒng)按功能應(yīng)用進(jìn)行模塊化區(qū)域的劃分,形成性能更高、安全性和擴(kuò)展性更強(qiáng)的層次化、模塊化的并行結(jié)構(gòu),并通過(guò)區(qū)域間的故障隔離機(jī)制來(lái)提升網(wǎng)絡(luò)系統(tǒng)總體的可靠性和運(yùn)行穩(wěn)定性[5]。
金融信息系統(tǒng)設(shè)備級(jí)的穩(wěn)定性和可靠性主要是通過(guò)冗余的備份設(shè)備和模塊來(lái)實(shí)現(xiàn)的。設(shè)備的備份特別是核心設(shè)備的備份對(duì)網(wǎng)絡(luò)的可靠運(yùn)行是非常必要的,設(shè)備的備份要求多臺(tái)互為備份的設(shè)備在硬件和軟件(操作系統(tǒng)和配置參數(shù))兩方面均必須一致和對(duì)稱(chēng)。因此,對(duì)網(wǎng)絡(luò)中的關(guān)鍵設(shè)備,如各級(jí)平臺(tái)的核心交換機(jī)、路由器等設(shè)備,原則上都要采取雙機(jī)熱備或負(fù)載均衡方式,并要求有冗余電源、風(fēng)扇、端口和線(xiàn)路,啟用設(shè)備保護(hù)機(jī)制提高設(shè)備的可靠性。按照系統(tǒng)7*24的高可用服務(wù)需求,在系統(tǒng)建設(shè)時(shí)要進(jìn)行冗余設(shè)備和冗余線(xiàn)路的建設(shè),在網(wǎng)絡(luò)設(shè)計(jì)時(shí)要滿(mǎn)足當(dāng)進(jìn)行設(shè)備停機(jī)維護(hù)、配置變更、軟硬件升級(jí)等操作時(shí)不能影響業(yè)務(wù)系統(tǒng)的運(yùn)行。
網(wǎng)絡(luò)層面的穩(wěn)定性和可靠性要對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行冗余設(shè)計(jì),包括物理的冗余和相關(guān)協(xié)議的配置和優(yōu)化。原則包括:(1)使用網(wǎng)絡(luò)設(shè)備本身的故障檢測(cè)和恢復(fù)機(jī)制來(lái)提供更快速和可預(yù)測(cè)的故障恢復(fù)時(shí)間,而不是采用設(shè)備之間的協(xié)商機(jī)制;(2)在網(wǎng)絡(luò)系統(tǒng)中靈活部署多方位的故障檢測(cè)和恢復(fù)機(jī)制;(3)確保網(wǎng)絡(luò)設(shè)計(jì)能抵抗抖動(dòng)和故障的蔓延,例如配置路由匯總等來(lái)確保故障影響的范圍最小。
機(jī)房的電源、制冷散熱等基礎(chǔ)設(shè)施環(huán)境是支撐硬件設(shè)備穩(wěn)定運(yùn)行的前提和基礎(chǔ)。為確保系統(tǒng)硬件設(shè)備的運(yùn)行穩(wěn)定性,對(duì)于機(jī)房的基礎(chǔ)設(shè)施環(huán)境應(yīng)提供高可用性方面的保障。
大部分銀行的全國(guó)數(shù)據(jù)中心機(jī)房采用了高可靠的雙路雙總線(xiàn)(2N)UPS為機(jī)房?jī)?nèi)設(shè)備供電,同時(shí)配備了發(fā)電機(jī)(2+1組柴油機(jī))提供應(yīng)急后備保護(hù);在同城災(zāi)備中心也采用了并聯(lián)冗余(N+1)的UPS進(jìn)行供電。因此,在UPS容量足夠的前提下,現(xiàn)有機(jī)房的電力基礎(chǔ)設(shè)施環(huán)境完全能夠保障系統(tǒng)硬件設(shè)備的穩(wěn)定、可靠運(yùn)行。
6.2.1 機(jī)房制冷散熱控制
全國(guó)數(shù)據(jù)中心和同城災(zāi)備中心的機(jī)房空調(diào)應(yīng)采用冗余配置模式,并提供了30%-50%的冗余。在部分空調(diào)設(shè)備損壞的情況下,仍可有效控制機(jī)房?jī)?nèi)的溫度。在系統(tǒng)的實(shí)際部署中,可進(jìn)一步通過(guò)機(jī)房制冷散熱與布局優(yōu)化設(shè)計(jì)來(lái)優(yōu)化機(jī)房空間布局,節(jié)省空間并避免產(chǎn)生局部“熱點(diǎn)”,同時(shí)最大化的降低散熱產(chǎn)生的能源消耗。
6.2.2 機(jī)房濕度控制
非正常范圍內(nèi)的相對(duì)濕度,不僅影響設(shè)備的穩(wěn)定性、可靠性和壽命,而且會(huì)對(duì)人員造成生理?yè)p害。通常,數(shù)據(jù)中心環(huán)境的最佳相對(duì)濕度范圍是45%~50%。為了避免濕度過(guò)高或過(guò)低造成設(shè)備故障,全國(guó)數(shù)據(jù)中心和同城災(zāi)備中心機(jī)房的相對(duì)濕度應(yīng)采用機(jī)房除濕機(jī)或機(jī)房加濕器等方式控制在B級(jí) (40%-70%)的正常范圍內(nèi)。
為避免因環(huán)境異常變化產(chǎn)生的設(shè)備故障隱患,在全國(guó)數(shù)據(jù)中心和同城災(zāi)備中心機(jī)房應(yīng)對(duì)機(jī)房溫度、濕度、UPS、配電等方面進(jìn)行實(shí)時(shí)監(jiān)測(cè),從而及時(shí)發(fā)現(xiàn)、快速解決機(jī)房運(yùn)行環(huán)境中的問(wèn)題。
本文遵循軟件工程的原則,對(duì)銀行金融信息系統(tǒng)的應(yīng)用系統(tǒng)、主機(jī)、存儲(chǔ)、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)和基礎(chǔ)設(shè)施等進(jìn)行分析研究,提出了保障信息系統(tǒng)高穩(wěn)定性和可靠性的技術(shù)措施。在金融信息系統(tǒng)投入運(yùn)行后,需要可靠的售后服務(wù)體系、專(zhuān)業(yè)的服務(wù)團(tuán)隊(duì)和高質(zhì)量的運(yùn)維管理流程的支撐[6],以提高運(yùn)維工作效率,提升客戶(hù)滿(mǎn)意度。
[1] 王剛,馮雨明.商行信息系統(tǒng)應(yīng)用軟件架構(gòu)研究[J].金融科技時(shí)代,2013(10):100-104.
[2] 王珍珍.網(wǎng)絡(luò)控制系統(tǒng)的穩(wěn)定與控制[D].江南大學(xué),2008:6-17.
[3] 王剛.商業(yè)銀行容災(zāi)系統(tǒng)建設(shè)方案[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013(11):70-73.
[4] 林樹(shù)澤,歷鐵帥.ORACLE數(shù)據(jù)庫(kù)管理之道[M].北京,清華大學(xué)出版社,2012:73-97.
[5] 王稼祥.國(guó)家審計(jì)署辦公自動(dòng)化系統(tǒng)穩(wěn)定性的實(shí)現(xiàn)[D].大連理工學(xué)院,2009:42-46.
[6] 王剛,周靖華.商業(yè)銀行信息系統(tǒng)開(kāi)發(fā)項(xiàng)目質(zhì)量管理的研究[J].福建電腦,2013,29(5):55-58.