文 |數(shù)字浙江技術(shù)運營有限公司大運維業(yè)務(wù)負(fù)責(zé)人 王森
隨著數(shù)字化進(jìn)程向縱深推進(jìn),以“綜合集成、多跨協(xié)同、多方參與”為特征的“大平臺”“大應(yīng)用”形態(tài)不斷涌現(xiàn),復(fù)雜巨系統(tǒng)內(nèi)系統(tǒng)模塊相互引用,運行環(huán)境相互依賴造成的系統(tǒng)脆弱性愈加凸顯。傳統(tǒng)分散、割裂的運維服務(wù)已無法滿足新時代數(shù)字化轉(zhuǎn)型的需要,亟待解決三大類問題:一是運維組織管理不在線。各系統(tǒng)開發(fā)商散落在不同建設(shè)單位且不在線,需將跨廠商、跨系統(tǒng)、跨業(yè)務(wù)的運維工作連成網(wǎng),首先需實現(xiàn)組織在線;二是規(guī)劃階段運維空缺。面臨復(fù)雜多樣的部署架構(gòu)、技術(shù)棧選型,運維需從規(guī)劃階段就介入,從而實現(xiàn)覆蓋規(guī)劃、建設(shè)、運營運維的全周期運維管理;三是數(shù)字化運維工具欠缺。目前各運維工具和運維要素分散在各建設(shè)方,當(dāng)系統(tǒng)出現(xiàn)不可用情形時無法實現(xiàn)運維要素“一張圖”匯聚、運行態(tài)勢即時感知,需依托數(shù)字化運維工具建設(shè),提升事前預(yù)警與應(yīng)急處置預(yù)案能力,實現(xiàn)運維工作的全方位、自動化、智能化。
所謂“大運維”,是指基于“數(shù)字孿生、未雨綢繆、態(tài)勢感知、全鏈快響”理念,構(gòu)建多跨協(xié)同的大運維體系,實現(xiàn)運維工作“整體、健康、智治”。
“數(shù)字浙江”建設(shè)經(jīng)歷了“最多跑一次”改革、政府?dāng)?shù)字化轉(zhuǎn)型以及數(shù)字化改革等多個階段。初期運維工作較為獨立、離散,部分系統(tǒng)應(yīng)用采用自主更新維護(hù)方式或委托第三方公司施行運維,各自系統(tǒng)運維體系相對獨立,包括架構(gòu)、組織、技術(shù)、指標(biāo)與標(biāo)準(zhǔn)等,一般而言只需基本滿足單系統(tǒng)應(yīng)用運維需求即可。自2018年以來,為有效推動黨建統(tǒng)領(lǐng)、經(jīng)濟(jì)發(fā)展、便民惠企、市場監(jiān)管、應(yīng)急管理等領(lǐng)域治理能力提升,重大應(yīng)用綜合集成程度大大提升,多方參與、場景多跨的平臺與應(yīng)用涌現(xiàn),眾多系統(tǒng)之間相互嵌套,風(fēng)險觸發(fā)因素愈發(fā)復(fù)雜,建設(shè)一套整體運維體系的意識逐步形成,因此適應(yīng)新階段、滿足新要求的大運維體系應(yīng)運而生。
大運維主要包含三個特點:一是整體,將人員構(gòu)成復(fù)雜的運維團(tuán)隊打造成一支整體隊伍,執(zhí)行統(tǒng)一的運維標(biāo)準(zhǔn)規(guī)范,運維目標(biāo)一致,效能評價標(biāo)準(zhǔn)統(tǒng)一;二是健康,通過定義健康指標(biāo)體系,“運維體檢”預(yù)測并整改風(fēng)險,建立檢查清單、監(jiān)測工具,實現(xiàn)對效率、效能等運維態(tài)勢的全局監(jiān)測,及時發(fā)現(xiàn)并處置故障,保障業(yè)務(wù)安全穩(wěn)定;三是智治,基于本體建模和知識建模,對各類運維主體進(jìn)行數(shù)字孿生,通過智能規(guī)則配置、風(fēng)險識別、任務(wù)流轉(zhuǎn)、考核評價等服務(wù),掌握當(dāng)下狀態(tài),知曉未來趨勢。
“大運維”建設(shè)總體思路要做好“三段三責(zé)”。首先,從架構(gòu)、設(shè)計、開發(fā)階段就要圍繞穩(wěn)定性、安全性做好明確的轉(zhuǎn)維規(guī)范清單,不能讓應(yīng)用、系統(tǒng)帶“病”進(jìn)場;其次,測試階段從性能、功能以及漏洞掃描等方面要把“病”檢查出來,推動整改,消除風(fēng)險;再次,生產(chǎn)階段則要對所有的生產(chǎn)環(huán)境、資產(chǎn)、人員、行為等各類對象情況清晰掌握,一旦“流血”則快速“止血”。三段主體都要推動對事件、風(fēng)險的舉一反三,從制度、技術(shù)、能力上進(jìn)行全面整改,才能全鏈路確保穩(wěn)定、安全。
大運維體系按照“組織、制度、流程、評價、工具”一體化建設(shè)理念,以“一屏、一倉、N工具”為總體架構(gòu),建設(shè)運維大腦(DMS),統(tǒng)籌環(huán)境管理,融合運維要素,集成專家知識,強(qiáng)化態(tài)勢研判,精準(zhǔn)問題定因,為運維人員提供全方位、智能化的運維管理工具,實現(xiàn)“數(shù)字孿生、未雨綢繆、態(tài)勢感知、全鏈快響”。
依據(jù)大運維的業(yè)務(wù)屬性,下面按照平時和戰(zhàn)時兩條業(yè)務(wù)主線展開介紹(見圖1)。
圖1 大運維一體化建設(shè)理念
大運維平時業(yè)務(wù)的核心在于做好健康管理,強(qiáng)化上線前的規(guī)定動作,避免系統(tǒng)帶“病”上線;做好上線系統(tǒng)的“體檢”,保障業(yè)務(wù)健康穩(wěn)定。健康管理涉及流程標(biāo)準(zhǔn)、組織保障、制度規(guī)范、綜合評價、生態(tài)管理五個關(guān)鍵環(huán)節(jié)。
1、建立覆蓋重要場景的接入流程:明確大運維、小運維、系統(tǒng)建設(shè)、業(yè)務(wù)單位等4類主體7個角色在運維初始化、系統(tǒng)轉(zhuǎn)維、日常運維、戰(zhàn)時處置等階段的工作要求,提升運維工作規(guī)范程度和整體水平。
環(huán)境、權(quán)限初始化。通過環(huán)境管理中心規(guī)范應(yīng)用發(fā)布與變更流程,實現(xiàn)對開發(fā)、測試、預(yù)發(fā)、生產(chǎn)環(huán)境的準(zhǔn)入管理。
資產(chǎn)、日志接入。建設(shè)運維對象管理中心,按照統(tǒng)一規(guī)范接入應(yīng)用、服務(wù)、組件、數(shù)據(jù)、云資產(chǎn)等對象要素,建立對象之間的關(guān)系,構(gòu)建動態(tài)本體數(shù)據(jù)倉(見圖2)。
圖2 運維對象管理
監(jiān)控配置。建設(shè)監(jiān)控管理中心,依據(jù)預(yù)警告警規(guī)則,采用主動探測、日志監(jiān)控等技術(shù)手段,通過消息訂閱,將預(yù)警告警結(jié)果精準(zhǔn)通知相應(yīng)負(fù)責(zé)人,推動快速響應(yīng)及閉環(huán)處置(見圖3)。
圖3 運維監(jiān)控告警
預(yù)案配置。統(tǒng)籌各類預(yù)警告警規(guī)則和應(yīng)急預(yù)案,通過規(guī)則預(yù)案管理中心對運維知識進(jìn)行集中管理,為各類風(fēng)險提供處置方案,支持監(jiān)控配置關(guān)聯(lián)預(yù)案,指導(dǎo)運維工作高效有序進(jìn)行,助力應(yīng)用系統(tǒng)報警項的快速處置。
運維數(shù)據(jù)分析研判。建設(shè)分析研判中心,對應(yīng)用健康度、預(yù)警告警質(zhì)量、預(yù)案執(zhí)行時效、故障處置效率等多維度進(jìn)行數(shù)據(jù)分析,判斷運維工作整體效果。
2、建立矩陣式組織保障:以主管單位及大運維管理團(tuán)隊,共同撬動各地各部門和開發(fā)商組成“一支隊伍”,并在組織中建立“1+6”的矩陣式管理結(jié)構(gòu)。“1”是大應(yīng)用的應(yīng)用運維負(fù)責(zé)人,“6”是平臺各領(lǐng)域的運維技術(shù)專家,包括云平臺、網(wǎng)絡(luò)、數(shù)據(jù)庫、系統(tǒng)架構(gòu)、性能、安全六大類。由“1+6”聯(lián)合各應(yīng)用開發(fā)單位運維人員,共同形成長期保障團(tuán)隊(見圖4)。
圖4 大運維組織保障
3、建立標(biāo)準(zhǔn)的運維制度規(guī)范:圍繞工作體系、指標(biāo)體系、政策體系、評價體系要求,制定運維管理制度規(guī)范,形成統(tǒng)一的運維準(zhǔn)則,從系統(tǒng)轉(zhuǎn)維、人員管理、變更管理、故障管理、考核管理等方面進(jìn)行規(guī)范管控與閉環(huán)管理。
4、建立綜合評價機(jī)制:建設(shè)考核指標(biāo)體系,通過考核評價中心對已轉(zhuǎn)維的應(yīng)用進(jìn)行評價,從監(jiān)控報警覆蓋度、準(zhǔn)確率、響應(yīng)度、系統(tǒng)服務(wù)可用度、安全修復(fù)及時性及人員技術(shù)能力等多維度進(jìn)行運維服務(wù)質(zhì)量的綜合評價,定期對運維服務(wù)能力、質(zhì)量進(jìn)行考核晾曬,及時發(fā)現(xiàn)短板并整改,提升整體運維服務(wù)質(zhì)量(見圖5)。
圖5 大運維評價體系
5、建立可持續(xù)發(fā)展的生態(tài)管理機(jī)制:通過開發(fā)商管理中心對所有應(yīng)用系統(tǒng)的開發(fā)商進(jìn)行編目,并對相關(guān)人員進(jìn)行動態(tài)管理,實現(xiàn)開發(fā)商單位、人員與應(yīng)用系統(tǒng)的關(guān)聯(lián),確保風(fēng)險處理時的組織環(huán)節(jié)無缺口。對開發(fā)商開展培訓(xùn),針對運維工作的開展思路、方法路徑、工具使用等進(jìn)行全方位指導(dǎo),為開發(fā)商提供專業(yè)的賦能支撐和工具保障。
大運維戰(zhàn)時業(yè)務(wù)的核心在于做好風(fēng)險應(yīng)急,為應(yīng)急協(xié)同開展、故障有效處置提供數(shù)字化保障,提高應(yīng)急處置效率,為業(yè)務(wù)系統(tǒng)的可用性恢復(fù)提供有力支撐。
建立一屏統(tǒng)覽的指揮調(diào)度中心:通過“數(shù)字孿生、態(tài)勢感知、全鏈快響、資源優(yōu)化、綜合評價”五大板塊,一屏統(tǒng)覽整體服務(wù)實時運行狀態(tài),為運維單位、建設(shè)單位、開發(fā)單位的各級指揮員提供統(tǒng)籌管理、分析決策、指揮調(diào)度的能力。
數(shù)字孿生:對基礎(chǔ)設(shè)施、數(shù)據(jù)、組件、應(yīng)用、端運行進(jìn)行數(shù)字孿生,詳盡掌握各類資產(chǎn)運行狀態(tài),清晰展現(xiàn)故障原因及影響范圍(見圖6)。
圖6 指揮調(diào)度大屏數(shù)字孿生模塊
態(tài)勢感知:建立動態(tài)拓?fù)潢P(guān)系,生成應(yīng)用圖譜,展示應(yīng)用間相互調(diào)用關(guān)系和應(yīng)用內(nèi)部各層級資源調(diào)用狀態(tài),統(tǒng)計當(dāng)前應(yīng)用范圍的運維質(zhì)量,實現(xiàn)服務(wù)預(yù)警告警態(tài)勢實時感知(見圖7)。
全鏈快響:支持對各類異常風(fēng)險狀態(tài)的處置,并在風(fēng)險發(fā)現(xiàn)時快速調(diào)度各方主體,第一時間通知責(zé)任單位及責(zé)任人,并明確責(zé)任分工。同時,對風(fēng)險進(jìn)行全視角跟蹤,支撐指揮員掌控處置進(jìn)度,響應(yīng)處置復(fù)盤情況實現(xiàn)全程留痕(見圖8)。
圖8 指揮調(diào)度大屏全鏈快響模塊
資源優(yōu)化:聚焦CPU、內(nèi)存、存儲等要素負(fù)載情況,提出相應(yīng)策略實現(xiàn)資源成本優(yōu)化(見圖9)。
圖9 指揮調(diào)度大屏資源優(yōu)化模塊
綜合評價:制定多維度運維服務(wù)核心指標(biāo),對各類主體進(jìn)行綜合評價排行,對運維工作成效開展晾曬(見圖10)。
圖10 指揮調(diào)度大屏綜合評價模塊
2、建立“五快”風(fēng)險處置中心:針對預(yù)警、告警、故障三種風(fēng)險狀況形成任務(wù)清單,按照通知與處置雙線流程執(zhí)行風(fēng)險處置任務(wù)并跟蹤整改進(jìn)展。在故障發(fā)生時,依據(jù)以“故障響應(yīng)快、應(yīng)急止血快、原因定位快、故障恢復(fù)快、故障復(fù)盤快”為核心的“五快”閉環(huán)處置模型,明確各環(huán)節(jié)負(fù)責(zé)人及責(zé)任邊界,高效處置故障并形成故障報告(見圖11)。
圖11 大運維風(fēng)險處置流程
業(yè)務(wù)變革引領(lǐng)技術(shù)創(chuàng)新,技術(shù)創(chuàng)新驅(qū)動業(yè)務(wù)創(chuàng)新。大運維體系實現(xiàn)了三大技術(shù)創(chuàng)新,有效解決了傳統(tǒng)運維工作中風(fēng)險閾值預(yù)估不精準(zhǔn)、故障范圍判斷不全面、故障定因分析不高效等典型問題。
一是基于業(yè)務(wù)變化自動、動態(tài)調(diào)整各類風(fēng)險閾值。如浙江省某考試報名期間,“浙里辦”日訪問量時刻可能激增、告警處置數(shù)據(jù)持續(xù)變動,原先的運維風(fēng)險閾值、主動探測、日志監(jiān)控等配置都需要及時調(diào)整與管理,針對傳統(tǒng)運維方式的這些痛難點、風(fēng)險點,現(xiàn)在可通過運維大腦(DMS)取代人工手動變更,實現(xiàn)自動化、智能化閾值變更。
二是基于動態(tài)協(xié)同關(guān)系,智能化判斷故障影響范圍。在復(fù)雜巨系統(tǒng)內(nèi)部互相嵌套、調(diào)用關(guān)系復(fù)雜的情形下,如需判定因法人單點登錄服務(wù)不可用而影響的系統(tǒng)、應(yīng)用數(shù)量及嚴(yán)重程度,可通過運維大腦(DMS)數(shù)據(jù)可視化手段,將應(yīng)用內(nèi)部的各層級資源和調(diào)用關(guān)系以數(shù)字孿生的形式展現(xiàn),一目了然,清晰明確(見圖12)。
圖12 影響范圍判斷示意圖
三是基于時間序列提供快速定因分析服務(wù)。發(fā)生全局性故障時,在大量壓迫性告警中快速找到有價值的線索非常重要。運維大腦(DMS)有效整合碎片化的開發(fā)商和運維信息,將故障引發(fā)的眾多預(yù)警信息按模塊聚合、按時間排序,找到因果關(guān)系從而定位出最先引起問題的“第一片雪花”(見圖13)。
圖13 告警時間序列示意圖
安全是開展一切技術(shù)運營工作的基礎(chǔ),是一項貫穿數(shù)字化全生命周期的專業(yè)服務(wù),要堅持業(yè)務(wù)與安全并重發(fā)展,在業(yè)務(wù)規(guī)劃階段,就審慎考慮系統(tǒng)上線后的可靠性,各個階段圍繞統(tǒng)一思想,落實各自使命職責(zé)。通過運維工作浙江實踐,大運維體系可對海量運維數(shù)據(jù)進(jìn)行融合建模與智能分析,實現(xiàn)要素多維接入、知識動態(tài)管理、預(yù)警全面覆蓋、問題精準(zhǔn)定位、評價客觀真實、故障舉一反三,有效保障大平臺、大應(yīng)用安全健康運行。本文總結(jié)的大運維體系建設(shè)方法及浙江實踐,積極踐行落實了“三融五跨”系統(tǒng)健康運行的要求,可為數(shù)字化運維管理者提供參考借鑒。