田國(guó)偉
隨著數(shù)字化改革的不斷創(chuàng)新與推進(jìn),以單個(gè)體傳統(tǒng)的業(yè)務(wù)系統(tǒng)為對(duì)象的小運(yùn)維方式已經(jīng)不能適應(yīng)數(shù)字化改革的推進(jìn)步伐,跨層級(jí)、跨地域、跨系統(tǒng)、跨部門(mén)、跨業(yè)務(wù)等多跨協(xié)同場(chǎng)景越來(lái)越復(fù)雜,從平臺(tái)衍生出來(lái)的應(yīng)用越來(lái)越豐富,運(yùn)維需要保障的范圍隨之?dāng)U大,“大運(yùn)維”應(yīng)運(yùn)而生。所謂“大運(yùn)維”,即整體運(yùn)維,包含由多個(gè)系統(tǒng)組成的整體大平臺(tái)及平臺(tái)上衍生的各類應(yīng)用的整體運(yùn)維,是對(duì)整體成效負(fù)責(zé)的全生命周期的運(yùn)維。以浙江 “互聯(lián)網(wǎng)+政務(wù)服務(wù)”平臺(tái)為例,該平臺(tái)由50+子系統(tǒng)協(xié)同組成,背后是20+服務(wù)開(kāi)發(fā)廠家,而由平臺(tái)上衍生出的各類三方應(yīng)用1000+,各系統(tǒng)之間存在復(fù)雜的多跨鏈路和接口調(diào)用關(guān)系,具有統(tǒng)一化、標(biāo)準(zhǔn)化、規(guī)范化的大運(yùn)維體系保障尤為重要。
面對(duì)多廠家多業(yè)務(wù)系統(tǒng)組合而成的大平臺(tái),不同的系統(tǒng)架構(gòu),不同的開(kāi)發(fā)語(yǔ)言,參差不齊的人員技能的現(xiàn)狀,對(duì)外需整體輸出一套穩(wěn)定的平臺(tái)服務(wù)于政府的整體數(shù)字化改革,如何保障日常運(yùn)維工作的順利進(jìn)行、監(jiān)測(cè)線上各系統(tǒng)的運(yùn)行狀況、保障整體系統(tǒng)的穩(wěn)定運(yùn)行及突發(fā)事件的處置以及為線上各系統(tǒng)的穩(wěn)定運(yùn)行提供可靠的數(shù)據(jù)支撐等是大運(yùn)維面臨的挑戰(zhàn)。
大運(yùn)維要站在全局視角統(tǒng)籌運(yùn)維的整體工作,制定統(tǒng)一的運(yùn)維規(guī)范、流程和制度;明確運(yùn)維責(zé)任和邊界;建立完善的運(yùn)維協(xié)同機(jī)制,將整體大平臺(tái)的運(yùn)維工作連成網(wǎng);統(tǒng)一運(yùn)維管理工具,支撐各項(xiàng)運(yùn)維工作,沉淀運(yùn)維數(shù)據(jù);通過(guò)綜合匯聚多樣化的運(yùn)維運(yùn)行數(shù)據(jù),即時(shí)感知和預(yù)警各系統(tǒng)的運(yùn)行狀況,從而保障整體平臺(tái)的穩(wěn)定運(yùn)行。
大運(yùn)維的總體目標(biāo)定義為“安全、穩(wěn)定、高效”,整體系統(tǒng)無(wú)中高危安全風(fēng)險(xiǎn),無(wú)數(shù)據(jù)信息泄露;整體系統(tǒng)服務(wù)達(dá)到規(guī)定的服務(wù)可用度(SLA);整體系統(tǒng)服務(wù)資源申請(qǐng)規(guī)范,使用合理有效。
為實(shí)現(xiàn)運(yùn)維的整體總目標(biāo),需要制定一套完善的大運(yùn)維體系做好保障支撐,并不斷在實(shí)踐中打磨和總結(jié)完善這套體系,才能有效地支撐整體平臺(tái)的運(yùn)維服務(wù)。整體大運(yùn)維體系包含了四大部分。
(一) 運(yùn)維核心體系制定
整體定義四個(gè)核心體系。
1. 指標(biāo)體系:整體大運(yùn)維從穩(wěn)定、安全、高效三個(gè)層面定義運(yùn)維指標(biāo),穩(wěn)定分為可用性、可運(yùn)維性、可管理性三個(gè)方面,可用性從故障數(shù)量(按照P1-P4進(jìn)行故障分類)及故障影響時(shí)長(zhǎng)定義整體服務(wù)可用性SLA指標(biāo);可運(yùn)維性從故障發(fā)生的監(jiān)控覆蓋度、監(jiān)控有效性及監(jiān)控報(bào)警響應(yīng)時(shí)長(zhǎng)定義指標(biāo);可管理性從變更工單覆蓋度及巡檢覆蓋度定義指標(biāo);安全分為安全態(tài)勢(shì)、安全能力兩個(gè)方面,安全態(tài)勢(shì)從系統(tǒng)安全事件數(shù)、安全防護(hù)數(shù)定義指標(biāo),安全能力從安全檢查覆蓋度、安全監(jiān)控覆蓋度、風(fēng)險(xiǎn)隱含改進(jìn)率、時(shí)間處理達(dá)標(biāo)率來(lái)定義指標(biāo);高效從基礎(chǔ)資源實(shí)際資源最大和平均百分比占用率來(lái)定義指標(biāo),CPU利用率不低于30%,內(nèi)存利用率不低于40%,磁盤(pán)利用率不低于50%。
2. 工作體系:整體定義運(yùn)維工作體系,定義運(yùn)維管理組、運(yùn)維工作組、運(yùn)維安全組、運(yùn)維執(zhí)行組等并規(guī)范各組織職責(zé)和人員;運(yùn)維管理組由省局分管領(lǐng)導(dǎo)、部門(mén)負(fù)責(zé)人,集成單位領(lǐng)導(dǎo)和集成單位技術(shù)負(fù)責(zé)人組成,負(fù)責(zé)制訂運(yùn)維工作規(guī)劃;審核并發(fā)布運(yùn)維相關(guān)制度,進(jìn)行重大運(yùn)維事項(xiàng)決策,對(duì)集成單位運(yùn)維工作進(jìn)行考核評(píng)估;運(yùn)維工作組由省局項(xiàng)目負(fù)責(zé)人、集成單位運(yùn)維負(fù)責(zé)人組成,負(fù)責(zé)制定運(yùn)維工作計(jì)劃,統(tǒng)籌落實(shí)運(yùn)維工作方案,協(xié)調(diào)整體運(yùn)維管理工作;依據(jù)相關(guān)溝通機(jī)制,定期就運(yùn)維相關(guān)工作進(jìn)展向運(yùn)維管理組匯報(bào);不定期對(duì)信息系統(tǒng)運(yùn)維人員、日常運(yùn)維工作、系統(tǒng)架構(gòu)穩(wěn)定性、安全風(fēng)險(xiǎn)等開(kāi)展監(jiān)督檢查;運(yùn)維安全組由省局安全負(fù)責(zé)人、集成單位安全運(yùn)維負(fù)責(zé)人組成,負(fù)責(zé)信息系統(tǒng)安全運(yùn) 維管理工作,提出安全運(yùn)維工作規(guī)范和制度,并推進(jìn)安全運(yùn)維工作的執(zhí)行。
3. 規(guī)范體系:整體從人員、資源、安全、故障、變更、巡檢、重保、監(jiān)控、考核等多項(xiàng)定義運(yùn)維管理規(guī)范,提升運(yùn)維質(zhì)量和效率,保障系統(tǒng)的穩(wěn)定性和安全性,對(duì)所有業(yè)務(wù)系統(tǒng)進(jìn)行指導(dǎo)和督查作用。
4. 考核體系:整體根據(jù)各系統(tǒng)場(chǎng)景,制定運(yùn)維考核細(xì)則,考核從監(jiān)控報(bào)警、系統(tǒng)故障、服務(wù)支持三個(gè)層面綜合評(píng)價(jià)運(yùn)維服務(wù)質(zhì)量,在監(jiān)控報(bào)警方面,按照發(fā)生故障的監(jiān)控覆蓋度,監(jiān)控有效性及故障響應(yīng)時(shí)長(zhǎng)是否達(dá)標(biāo)作為考核重點(diǎn);在系統(tǒng)故障方面,按照事前梳理好的業(yè)務(wù)場(chǎng)景和核心系統(tǒng)定義,根據(jù)故障發(fā)生的時(shí)長(zhǎng)和故障實(shí)際的影響范圍進(jìn)行故障等級(jí)判斷,設(shè)定P1-P4四個(gè)等級(jí),其中P1等級(jí)最高影響范圍最大,根據(jù)全年服務(wù)可用度進(jìn)行故障時(shí)長(zhǎng)拆分,對(duì)超出故障允許時(shí)長(zhǎng)外的情況進(jìn)行考核;在服務(wù)支持方面,分為運(yùn)維類工單問(wèn)題閉環(huán)率、駐場(chǎng)人員考勤、人員服務(wù)態(tài)度、歸屬自身系統(tǒng)的資源使用率是否達(dá)標(biāo)、線上操作是否存在違規(guī)操作、核心接口請(qǐng)求率是否達(dá)標(biāo)、數(shù)據(jù)庫(kù)慢查詢治理及安全風(fēng)險(xiǎn)問(wèn)題是否及時(shí)修復(fù)為考核重點(diǎn),定期考核通報(bào)、晾曬,同時(shí)根據(jù)考核成績(jī)進(jìn)行約談、獎(jiǎng)懲,對(duì)年度考核不達(dá)標(biāo)低于最低分?jǐn)?shù)線的服務(wù)開(kāi)發(fā)單位啟動(dòng)退出機(jī)制。
(二)運(yùn)維保障團(tuán)隊(duì)組建
根據(jù)業(yè)務(wù)屬性組建運(yùn)維專項(xiàng)人員保障,對(duì)所有服務(wù)安排7X24值班監(jiān)控人員,第一時(shí)間發(fā)現(xiàn)和通告報(bào)警信息,提升故障及時(shí)響應(yīng)率和縮減故障影響時(shí)長(zhǎng);對(duì)所有終端用戶反饋的問(wèn)題安排客戶服務(wù)人員,積極響應(yīng)和歸類下發(fā)反饋的問(wèn)題,建立問(wèn)題閉環(huán)和回訪機(jī)制,提升客戶服務(wù)滿意度;對(duì)所有接入到總平臺(tái)的應(yīng)用安排技術(shù)支持人員,提供技術(shù)對(duì)接服務(wù),規(guī)范應(yīng)用的接入標(biāo)準(zhǔn);對(duì)所有應(yīng)用系統(tǒng)安排運(yùn)維人員,做好日常系統(tǒng)服務(wù)保障;對(duì)整體平臺(tái)安排運(yùn)維開(kāi)發(fā)人員,規(guī)劃設(shè)計(jì)和開(kāi)發(fā)統(tǒng)一運(yùn)維管理平臺(tái),為整體大運(yùn)維提供運(yùn)維工具支撐;對(duì)所有系統(tǒng)安排安全運(yùn)維人員,建立運(yùn)維安全規(guī)范,提升系統(tǒng)、數(shù)據(jù)安全保障能力;對(duì)所有接入總平臺(tái)的系統(tǒng)廠家安排運(yùn)維管理人員,管理日常廠家運(yùn)維工作,審查系統(tǒng)風(fēng)險(xiǎn),提升系統(tǒng)穩(wěn)定性。
(三)運(yùn)維管理平臺(tái)籌建
統(tǒng)籌規(guī)劃設(shè)計(jì)和開(kāi)發(fā)統(tǒng)一應(yīng)用運(yùn)維管理平臺(tái),平臺(tái)作為運(yùn)維管理統(tǒng)一入口,實(shí)現(xiàn)各類運(yùn)維數(shù)據(jù)的快速查詢,對(duì)所有線上的運(yùn)維數(shù)據(jù)進(jìn)行實(shí)時(shí)的匯總、統(tǒng)計(jì)和分析,為線上穩(wěn)定性的運(yùn)行提供可靠的數(shù)據(jù)支撐,通過(guò)平臺(tái)實(shí)現(xiàn)。
1. 運(yùn)維平臺(tái)統(tǒng)一化:通過(guò)和統(tǒng)一應(yīng)用運(yùn)維管理平臺(tái)的對(duì)接,實(shí)現(xiàn)各項(xiàng)目系統(tǒng)運(yùn)維過(guò)程中涉及的多套系統(tǒng)、平臺(tái)、工具等統(tǒng)一入口化,一個(gè)賬號(hào)可查詢到多套系統(tǒng)多個(gè)平臺(tái)的運(yùn)維數(shù)據(jù),實(shí)現(xiàn)運(yùn)維管理統(tǒng)一、易用。
2. 運(yùn)維服務(wù)標(biāo)準(zhǔn)化:通過(guò)平臺(tái)的對(duì)接,實(shí)現(xiàn)各類審批流程標(biāo)準(zhǔn)化、在線化,將復(fù)雜的各類運(yùn)維流程規(guī)范進(jìn)行標(biāo)準(zhǔn)化對(duì)接和輸出,實(shí)現(xiàn)運(yùn)維整體流程標(biāo)準(zhǔn)、可用。
3. 運(yùn)維數(shù)據(jù)可視化:通過(guò)和各類平臺(tái)、工具的對(duì)接,將線上的運(yùn)維數(shù)據(jù)進(jìn)行實(shí)時(shí)匯總展示分析,把不直觀的運(yùn)維數(shù)據(jù)通過(guò)圖形等方式將運(yùn)維數(shù)據(jù)實(shí)時(shí)呈現(xiàn),實(shí)現(xiàn)運(yùn)維整體數(shù)據(jù)透明、可視。
4. 運(yùn)維監(jiān)測(cè)自動(dòng)化:通過(guò)和各業(yè)務(wù)系統(tǒng)的后臺(tái)對(duì)接或人工配置等方式,實(shí)現(xiàn)對(duì)線上各系統(tǒng)的站點(diǎn)、頁(yè)面、接口、在線事項(xiàng)等信息按照指定的規(guī)則進(jìn)行服務(wù)自動(dòng)化7X24監(jiān)測(cè),根據(jù)不同的后臺(tái)規(guī)則進(jìn)行告警分類并自動(dòng)下發(fā)到相關(guān)負(fù)責(zé)人,實(shí)現(xiàn)報(bào)警信息及時(shí)、有效。
5. 運(yùn)維服務(wù)可管理化:通過(guò)線上運(yùn)維數(shù)據(jù)的實(shí)時(shí)匯總分析,對(duì)線上數(shù)據(jù)進(jìn)行可視化分析后,對(duì)整體運(yùn)維的穩(wěn)定性和可用性提供數(shù)據(jù)支撐,提前發(fā)現(xiàn)線上問(wèn)題,為運(yùn)維提供可靠的數(shù)據(jù)支撐、判斷。
(四)運(yùn)維技術(shù)保障強(qiáng)化
定期對(duì)線上系統(tǒng)開(kāi)展運(yùn)維事前、事中、事后全流程服務(wù)審查保障。
1. 事前運(yùn)維體檢:大運(yùn)維管理單位通過(guò)定期的系統(tǒng)穩(wěn)定性審查,對(duì)全業(yè)務(wù)系統(tǒng)的服務(wù)開(kāi)展事前運(yùn)維體檢,重點(diǎn)加強(qiáng)對(duì)系統(tǒng)資源使用、服務(wù)網(wǎng)絡(luò)調(diào)用、上下游依賴關(guān)系調(diào)用、系統(tǒng)性能評(píng)估、服務(wù)部署架構(gòu)合理性、服務(wù)配置優(yōu)化等評(píng)估審查;在監(jiān)控方面,加強(qiáng)對(duì)基礎(chǔ)資源、網(wǎng)絡(luò)請(qǐng)求、接口請(qǐng)求、服務(wù)主動(dòng)監(jiān)測(cè)等報(bào)警信息的完善,提前發(fā)現(xiàn)和預(yù)警線上問(wèn)題;在日常巡檢方面,建立完善的巡檢制度和巡檢范圍,對(duì)核心服務(wù)或核心功能進(jìn)行定期巡查,提前預(yù)防問(wèn)題的發(fā)生,針對(duì)重大活動(dòng),提前制定完善的服務(wù)重保方案及應(yīng)急響應(yīng),組織協(xié)調(diào)人員進(jìn)行7X24服務(wù)保障。運(yùn)維服務(wù)開(kāi)發(fā)單位進(jìn)行運(yùn)維資產(chǎn)信息歸屬認(rèn)領(lǐng),配置服務(wù)監(jiān)控報(bào)警,執(zhí)行線上變更方案申請(qǐng),進(jìn)行服務(wù)日常巡檢及故障線上應(yīng)急演練。
2. 事中應(yīng)急處置:大運(yùn)維管理單位根據(jù)日常制定的應(yīng)急預(yù)案啟動(dòng)應(yīng)急響應(yīng)機(jī)制,拉通干系人,協(xié)助對(duì)故障進(jìn)行快速問(wèn)題排查定位和恢復(fù),并在故障處置過(guò)程中定期做故障通告。運(yùn)維服務(wù)單位進(jìn)行監(jiān)控報(bào)警排查分析,根據(jù)故障場(chǎng)景進(jìn)行應(yīng)急預(yù)案啟動(dòng),進(jìn)行服務(wù)快速恢復(fù)。
3. 事后故障復(fù)盤(pán):大運(yùn)維管理單位對(duì)故障發(fā)生的故障詳細(xì)描述、故障排查過(guò)程、故障影響范圍進(jìn)行討論復(fù)盤(pán),制定故障的臨時(shí)和長(zhǎng)期解決方案,根據(jù)故障等級(jí)定義,對(duì)故障進(jìn)行定級(jí)定責(zé),輸出完整性行運(yùn)維報(bào)告。運(yùn)維服務(wù)開(kāi)發(fā)單位執(zhí)行故障修復(fù)計(jì)劃。
在整體大運(yùn)維的服務(wù)過(guò)程中,根據(jù)已發(fā)生的故障不斷定期進(jìn)行經(jīng)驗(yàn)總結(jié),提煉故障原因,并對(duì)故障的原因進(jìn)行分類,定期對(duì)服務(wù)開(kāi)發(fā)單位人員進(jìn)行運(yùn)維故障總結(jié)會(huì),對(duì)全項(xiàng)目系統(tǒng)進(jìn)行舉一反三排查檢測(cè),避免類似故障的發(fā)生。
今年2月,浙江全面開(kāi)啟數(shù)字化改革。數(shù)字浙江技術(shù)運(yùn)營(yíng)有限公司在浙江省大數(shù)據(jù)發(fā)展管理局的領(lǐng)導(dǎo)下,建設(shè)了“大運(yùn)維”體系。通過(guò)“大運(yùn)維”體系化的建設(shè)與實(shí)踐推進(jìn),圍繞浙江一體化智能化公共數(shù)據(jù)平臺(tái),頒布關(guān)于信息系統(tǒng)的運(yùn)維管理規(guī)范12項(xiàng),有效指導(dǎo)了運(yùn)維的全流程服務(wù)過(guò)程,實(shí)現(xiàn)了運(yùn)維流程審批全在線化。納入大運(yùn)維的體系管理后,全方位梳理審查系統(tǒng)風(fēng)險(xiǎn)問(wèn)題,對(duì)系統(tǒng)運(yùn)維部署方案、服務(wù)系統(tǒng)存在的單點(diǎn)問(wèn)題、性能問(wèn)題、架構(gòu)設(shè)計(jì)問(wèn)題、服務(wù)配置參數(shù)優(yōu)化問(wèn)題、系統(tǒng)內(nèi)核參數(shù)問(wèn)題、服務(wù)監(jiān)控預(yù)警問(wèn)題、日志分析等問(wèn)題進(jìn)行集中審查評(píng)估整改。經(jīng)過(guò)體系化的治理后,穩(wěn)定性提升明顯,提前主動(dòng)發(fā)現(xiàn)和推進(jìn)各業(yè)務(wù)系統(tǒng)安全風(fēng)險(xiǎn)1000+,全年各類運(yùn)維在線流程審批2600+,整體服務(wù)可用度全年同季度對(duì)比,故障總數(shù)量下降66%,故障總時(shí)長(zhǎng)下降78%,為浙江數(shù)字化改革提供了可靠的運(yùn)維保障。
隨著新技術(shù)日新月異的發(fā)展,大運(yùn)維體系也要在保障的前提下不斷地做創(chuàng)新和探索,從傳統(tǒng)的運(yùn)維方式上做變革轉(zhuǎn)換,從被動(dòng)救火式向主動(dòng)精細(xì)化轉(zhuǎn)型,主動(dòng)分析,主動(dòng)優(yōu)化,驅(qū)動(dòng)開(kāi)發(fā),提前發(fā)現(xiàn)和解決風(fēng)險(xiǎn)問(wèn)題;從問(wèn)題驅(qū)動(dòng)向價(jià)值驅(qū)動(dòng)轉(zhuǎn)型,以用戶體驗(yàn)、服務(wù)滿意度、促進(jìn)業(yè)務(wù)更好發(fā)展;從人肉操作運(yùn)維向自動(dòng)化運(yùn)維轉(zhuǎn)型,通過(guò)運(yùn)維平臺(tái)工具,實(shí)現(xiàn)運(yùn)維自動(dòng)化,提升運(yùn)維工作效率和質(zhì)量;從依靠經(jīng)驗(yàn)向智能化驅(qū)動(dòng)運(yùn)維轉(zhuǎn)型,結(jié)合運(yùn)維在線數(shù)據(jù)分析、知識(shí)庫(kù)、機(jī)器學(xué)習(xí)技術(shù)等促進(jìn)運(yùn)維智能化發(fā)展。
在整個(gè)數(shù)字化改革的過(guò)程中,大運(yùn)維還有很長(zhǎng)的路要走,通過(guò)技術(shù)的不斷演進(jìn),體系的不斷打磨,運(yùn)維服務(wù)的不斷提升,我們將會(huì)提供更加夯實(shí)的運(yùn)維保障服務(wù),為數(shù)字化改革添磚加瓦。