謝洪波
【摘要】 從技術(shù)支撐和精細(xì)化管理兩個(gè)方面,對(duì)網(wǎng)上支付系統(tǒng)的應(yīng)急響應(yīng)及恢復(fù)預(yù)案進(jìn)行分析研究,建立應(yīng)急保障和恢復(fù)工作機(jī)制,保證應(yīng)急工作迅速、高效、有序地進(jìn)行,滿足突發(fā)事件下在線支付系統(tǒng)及其承載的數(shù)據(jù)業(yè)務(wù)保障和恢復(fù)工作的需要,提高對(duì)緊急事件快速反應(yīng)和抗風(fēng)險(xiǎn)的綜合能力。
【關(guān)鍵詞】 在線支付系統(tǒng) 應(yīng)急響應(yīng) 災(zāi)難恢復(fù) 應(yīng)急預(yù)案
網(wǎng)上支付是通過第三方提供的與銀行之間的支付接口進(jìn)行的即時(shí)支付方式。網(wǎng)上支付方式方便快捷,極大的節(jié)省了交易的開銷,因此越來越成為電子商務(wù)中不可或缺的重要環(huán)節(jié)。近年來隨著電子商務(wù)的蓬勃發(fā)展,網(wǎng)上支付系統(tǒng)的穩(wěn)定和安全成了首要問題。如果出現(xiàn)了故障,勢(shì)必引起網(wǎng)上交易業(yè)務(wù)中斷、信息阻隔,可能導(dǎo)致交易的局部甚至整體癱瘓。因此,有必須研究并編制重大故障應(yīng)急響應(yīng)及恢復(fù)預(yù)案,建立應(yīng)急響應(yīng)和恢復(fù)機(jī)制。這是平臺(tái)運(yùn)行維護(hù)和運(yùn)營(yíng)支撐工作的重要內(nèi)容,其價(jià)值在故障發(fā)生之后的恢復(fù)工作中體現(xiàn)出來。
一、應(yīng)急預(yù)案編制
1.1制定應(yīng)急響應(yīng)方針
故障發(fā)生時(shí),以恢復(fù)業(yè)務(wù)為第一要?jiǎng)?wù)原則。應(yīng)采取各種措施盡可能先快速恢復(fù)業(yè)務(wù),后再進(jìn)一步追溯原因,解決具體故障。根據(jù)業(yè)務(wù)的重要性、緊急程度和故障時(shí)長(zhǎng),升級(jí)事故,逐層上報(bào)。
1.2建立應(yīng)急響應(yīng)組織
應(yīng)急響應(yīng)組織的人員主要由公司內(nèi)部運(yùn)維人員組成,也包括供應(yīng)商、代維商人員等外部支撐人員。應(yīng)規(guī)定應(yīng)急組織中所有相關(guān)人員的角色和職責(zé),并指定第一責(zé)任人和備份人選。對(duì)應(yīng)急組織架構(gòu)中的人員建立響應(yīng)方法和考核機(jī)制,明確考核指標(biāo)。
1)應(yīng)急領(lǐng)導(dǎo)小組。職責(zé):負(fù)責(zé)應(yīng)急預(yù)案執(zhí)行的總體指揮和協(xié)調(diào),對(duì)重大應(yīng)急措施進(jìn)行決策,組織重大事件的應(yīng)急處置和上報(bào)。輸出物或指標(biāo):決策、上報(bào)。指標(biāo)值:不定時(shí)。
2)應(yīng)急業(yè)務(wù)小組。職責(zé):包括市場(chǎng)、客服、運(yùn)營(yíng)、產(chǎn)品部門的人員。負(fù)責(zé)業(yè)務(wù)驗(yàn)證、應(yīng)急業(yè)務(wù)處理;產(chǎn)品公告和合作伙伴告知;根據(jù)內(nèi)部通報(bào)內(nèi)容,對(duì)外擇詞公告。輸出物或指標(biāo):渠道掛公告、客服應(yīng)急、服務(wù)群的通知。指標(biāo)值:每1小時(shí)。
3)技術(shù)統(tǒng)籌人員。職責(zé):負(fù)責(zé)把技術(shù)部?jī)?nèi)部信息向公司管理層/部門領(lǐng)導(dǎo)發(fā)布;負(fù)責(zé)傳導(dǎo)領(lǐng)導(dǎo)層面指示信息;負(fù)責(zé)協(xié)調(diào)各種資源;負(fù)責(zé)把技術(shù)部?jī)?nèi)部信息及處理情況向外發(fā)布。輸出物或指標(biāo):信息公布時(shí)間間隔;公布階段性產(chǎn)出物。指標(biāo)值:每30分鐘信息通告,每階段情況匯報(bào)。
4)故障分析崗。職責(zé):現(xiàn)場(chǎng)運(yùn)維專家或支撐專家,負(fù)責(zé)現(xiàn)場(chǎng)操作指揮,向信息公布組反饋進(jìn)度,技術(shù)方案制訂。輸出物或指標(biāo):階段性產(chǎn)出物。指標(biāo)值:每階段情況匯報(bào)。
5)技術(shù)執(zhí)行人員。職責(zé):包括技術(shù)部應(yīng)用組、網(wǎng)絡(luò)組、主機(jī)組、數(shù)據(jù)庫(kù)組的技術(shù)人員。負(fù)責(zé)故障實(shí)際操作,方案編寫。輸出物或指標(biāo):嚴(yán)格按方案既定指令及時(shí)間操作;異常情況及時(shí)上報(bào)。指標(biāo)值:輸出操作結(jié)果;操作實(shí)施后過程記錄。
1.3明確應(yīng)急處置流程
應(yīng)急處置流程包括以下三個(gè)階段:故障報(bào)告階段、故障處理階段、故障恢復(fù)后階段。1)事件報(bào)告。相關(guān)技術(shù)人員主動(dòng)通過監(jiān)控告警、巡檢等手段發(fā)現(xiàn)或接到客戶/商戶反饋不能正常使用平臺(tái)等故障事件,及時(shí)進(jìn)行故障定位和排除,如果未能及時(shí)解決,達(dá)到預(yù)案所定義的重大故障事件后,立即向故障分析崗報(bào)告。2)影響評(píng)估和現(xiàn)場(chǎng)響應(yīng)。接到事件報(bào)告時(shí),故障分析崗詢問了解并詳細(xì)記錄故障最開始時(shí)間、故障影響范圍和影響范圍擴(kuò)散情況,并立即協(xié)調(diào)組織各專業(yè)組技術(shù)人員初步核實(shí)平臺(tái)故障原因、業(yè)務(wù)受影響狀況、緊急程度等情況。3)停止交易。在全部業(yè)務(wù)受影響的情況下,啟動(dòng)停止交易流程。4)故障原因分析定位。各技術(shù)專業(yè)組查看平臺(tái)相關(guān)的基礎(chǔ)設(shè)施和應(yīng)用的運(yùn)行狀態(tài);根據(jù)故障現(xiàn)象、狀態(tài),故障分析崗召集各專業(yè)組在1小時(shí)內(nèi)分析定位出故障原因,并制訂恢復(fù)方案,報(bào)應(yīng)急技術(shù)指揮小組審批。對(duì)于事件原因和影響清晰、處置措施明確的事件(如供電系統(tǒng)故障,外系統(tǒng)不可用等),由應(yīng)急技術(shù)指揮小組授權(quán)應(yīng)急執(zhí)行人員按照預(yù)定技術(shù)恢復(fù)預(yù)案進(jìn)行處置。5)技術(shù)恢復(fù)。如可以實(shí)施問題隔離,則隔離問題,首先恢復(fù)系統(tǒng)運(yùn)行;根據(jù)影響評(píng)估情況,借助廠商支持,按照預(yù)先制定的技術(shù)恢復(fù)預(yù)案,或者緊急制定問題解決具體技術(shù)方案,解決問題,徹底恢復(fù)系統(tǒng)。6)情況上報(bào)和信息通報(bào)。根據(jù)業(yè)務(wù)受影響情況和處理進(jìn)展,開展情況上報(bào)、信息通報(bào)和發(fā)布工作。7)恢復(fù)后工作。平臺(tái)徹底恢復(fù)運(yùn)行后,需要開展通告、上報(bào)、總結(jié)等后續(xù)工作。8)事后清算。平臺(tái)徹底恢復(fù)運(yùn)行后,開展事后清算工作。
1.4制定應(yīng)急場(chǎng)景操作規(guī)程
對(duì)各類故障進(jìn)行分類和分析,制定各種應(yīng)急場(chǎng)景下的排障步驟和具體恢復(fù)方法。
二、應(yīng)急預(yù)案培訓(xùn)和演練
對(duì)相關(guān)人員進(jìn)行應(yīng)急預(yù)案內(nèi)容的培訓(xùn),并通過現(xiàn)場(chǎng)推演的方式,論證應(yīng)急響應(yīng)及恢復(fù)預(yù)案的可行性,優(yōu)化完善在線支付平臺(tái)的重大故障處理流程,使相關(guān)人員掌握平臺(tái)的應(yīng)急處理流程,檢驗(yàn)在重大故障突發(fā)時(shí)反應(yīng)是否快速,應(yīng)急措施是否合理,工作是否到位。
三、總結(jié)
應(yīng)急預(yù)案不是一成不變的,而是不斷完善的過程,要根據(jù)業(yè)務(wù)變化持續(xù)更新,保持與生產(chǎn)環(huán)境一致性;要根據(jù)運(yùn)維經(jīng)驗(yàn)不斷優(yōu)化和完善,增強(qiáng)針對(duì)性和可行性;要定期組織演練提高應(yīng)急處置能力。