裴力
(一)背景
近年來,傳統(tǒng)國有企業(yè)公司圍繞“創(chuàng)一流示范企業(yè)”的要求,主動推動向高質量發(fā)展的經營模式、管理模式和能力體系轉型升級,IT部門也在不斷探索和實踐適用于新態(tài)勢下關鍵路徑的IT支撐領域管理轉型方法,包括統(tǒng)一的運維管理流程、運維管理模式、考核評估機制、運維管控標準以及配套的電子化支撐手段等。
通過分析發(fā)現(xiàn)運維部門基本采用的是傳統(tǒng)運維模式下的縱向煙囪式的系統(tǒng)維度分工和橫向分層式的架構維度分工兩種管理體系,縱向型不利于運維深度,橫向性不利于業(yè)務串聯(lián),無法適應在復雜的移動IT系統(tǒng)架構下高質量的運維保障,單純根據(jù)運維經驗來優(yōu)化系統(tǒng)或消除故障的模式往往會帶來響應滯后和判斷偏頗的問題;面對復雜多變的系統(tǒng)架構以及紛繁多樣的開源運維需求,IT管理模式必須要向靈活精益轉型,數(shù)據(jù)驅動型的場景優(yōu)化模式才能提供準確高效的運維抓手。重點聚焦運維領域體制、流程、模式上的優(yōu)化,特點是打造一套由運維數(shù)據(jù)驅動的聯(lián)動運維管理體系實現(xiàn)IT系統(tǒng)的統(tǒng)一支撐。
(二)內涵
建立數(shù)據(jù)驅動的運維管理模式轉型目標,需要通過自上而下的頂層設計,以管理理念的變革牽引組織結構的優(yōu)化,以運營機制的轉變推動管理平臺的建設,最終打造成一套完整的IT運維聯(lián)動體系,實現(xiàn)IT能級的整體提升。管理理念變革主要包含從傳統(tǒng)經驗指導到運維數(shù)據(jù)驅動的轉化,從多而全的監(jiān)控保障體系到小而精的運營感知體系的轉化,從專屬化應用運維思維到通用化建模運維思維的轉化;組織架構的優(yōu)化主要通過組建專業(yè)化精益小團隊和專家委員會的深度融合打破原本縱向型保姆式運維責任人的傳統(tǒng)體系,提升整體戰(zhàn)斗力;運營機制上的建立場景化運維作戰(zhàn)體系,實現(xiàn)統(tǒng)一標準輸出和實踐,通過作業(yè)管理平臺和智能運維平臺實現(xiàn)IT運維的顯現(xiàn)化。
(一)創(chuàng)建數(shù)據(jù)驅動型管理理念
自頂向下建立數(shù)據(jù)驅動的管理理念是構建整個運維體系變革的基石,其核心思想主要包含數(shù)據(jù)驅動、精益運維、通用化應用運維三層。
1. 構建數(shù)據(jù)驅動思維
針對系統(tǒng)運維數(shù)據(jù)進行整理歸類成7類數(shù)據(jù),包含日志、指標、告警、熱點、預警、問題單、事件單,對該部分數(shù)據(jù)進行采集、錄入、匯總,結合監(jiān)督算法和規(guī)則定義對系統(tǒng)及業(yè)務健康度進行動態(tài)分析,指導系統(tǒng)優(yōu)化、故障定位、擴縮容、專題攻關、風險預案制定等五項運維工作。
2. 建立精益運維思想
轉變傳統(tǒng)運維觀念,建立精益運維思想,關注告警、監(jiān)控、指標三大運維感知體系,從大而全向小而精轉型,對于系統(tǒng)運維工作這些感知數(shù)據(jù)不單單是故障搶修的提醒更是指導系統(tǒng)優(yōu)化的有力抓手;
實現(xiàn)告警壓降,分析高頻告警,調整告警模式,減少無效告警產生;設置規(guī)則庫實現(xiàn)個性化屏蔽功能;研究告警關聯(lián)算法,分析告警產生頻次及關聯(lián)度,調整告警腳本,提升告警有效性,實現(xiàn)精益告警的目的;
構建精品大屏,根據(jù)業(yè)務流、系統(tǒng)流、數(shù)據(jù)流制作精品大屏,聚焦核心環(huán)節(jié),利用流量探測、插碼技術、自動探測手段實現(xiàn)從系統(tǒng)健康、業(yè)務關鍵節(jié)點、數(shù)據(jù)流轉狀態(tài)等全方位的信息覆蓋,同時調整數(shù)據(jù)輪循策略,利用概覽圖和浮標實現(xiàn)關鍵信息的一屏展示;
實現(xiàn)一鍵運維,系統(tǒng)的可用性是衡量運維水平的重要指標之一,故障發(fā)生期間快速的恢復對外的響應是IT運維條線主要職責,聚焦關鍵操作,通過腳本化編排實現(xiàn)系統(tǒng)快速應急處理的一鍵運維功能,大幅提升故障處理的效率,減輕運維故障所帶來的壓力;
實現(xiàn)指標提質,分析運維數(shù)據(jù),明確指標類型,分析影響因素,增設權重,不斷深入挖掘指標的價值,構建核心要素指標矩陣,運維人員通過關注該矩陣可以基本準確定位系統(tǒng)或業(yè)務的運行狀態(tài),快速實施預案或策略。
3. 樹立通用化運維理念
專屬化向通用化轉型:IT應用傳統(tǒng)運維模式為縱向型的以單一系統(tǒng)為維度開展的系統(tǒng)責任人制,關注于應用本身的運維,人員專屬性強,如遇應用系統(tǒng)責任調整,需要較長時間來適應,應用邏輯框架隨業(yè)務轉型迭代迅速,運維經驗往往缺少沉淀和套路,通用化轉型思路主要針對應用系統(tǒng)進行層級模塊化的拆分,關注成熟模式的打造和優(yōu)化。
(二)建立場景化運維組織結構
組織結構優(yōu)化分成兩段演進模式,第一階段,調整運維大班組分工模式,成立多支專業(yè)化小團隊,包含核心應用組、安全組、基礎設施組、機房施工組織、網絡運維組、數(shù)據(jù)庫運維組、運營管理組,每組形成3-5人的運維規(guī)模,組內人員形成能力互補、責任共擔、獨立考核的工作模式;構建專家委員會形成標準化輸出輔助IT建設和運維。
第二階段逐漸向專家池化模式轉型,池內專家根據(jù)場景化運維需求成立虛擬團隊,增加運維靈活性和專業(yè)的全面性,注重過程技能沉淀和流程固化,加深融合整體提升運維效能,保障人員穩(wěn)定。制訂運維專業(yè)化人才培養(yǎng)方案,針對10類池化專家角色設置不同的培養(yǎng)課程和認證要求(包含WEB層、DBA層、安全層、基礎軟件層、開源軟件層、接口層、存儲層、網絡層、高可用層、質量管控層),配套開展內部、外部運維專家培訓和認證,切實提升員工對于數(shù)據(jù)驅動型場景化運維流程的掌握程度。
(三)打造聯(lián)動運維運營機制
聯(lián)動運維運營機制的打造需要從平臺、人員、流程三方面進行整體規(guī)劃構建。平臺建設方面通過作業(yè)管理平臺和智能運維平臺實現(xiàn)運維顯性化,數(shù)據(jù)的匯聚和分析為后續(xù)數(shù)據(jù)驅動提供基礎;團隊組建方面實行場景化作戰(zhàn)模式,根據(jù)業(yè)務場景選派合適技能人才形成虛擬團隊聯(lián)合作戰(zhàn);在流程方面構建數(shù)據(jù)、監(jiān)控、指標、規(guī)則、自動化為一體的聯(lián)動運維體系,形成固化有效的運維套路,保障系統(tǒng)的穩(wěn)定。
1. 運維顯性化建設
建設作業(yè)管控平臺:制針對巡檢、變更、文檔、任務跟蹤、故障、質量、創(chuàng)新、告警等運維任務及文檔統(tǒng)一收斂、編碼,并上傳到作業(yè)巡檢管理平臺,文檔的集中化錄入和存儲有利于運維信息互通;針對于巡檢類作業(yè),統(tǒng)一標準和異常處置的流程,并通過平臺實現(xiàn)“錄入-處置-審核”的跟蹤閉環(huán)。構建智能運維平臺:將運維數(shù)據(jù)集中錄入到智能運維分析平臺,通過機器學習和數(shù)據(jù)統(tǒng)計制定出輔助策略幫助運維團隊進行決策,日志報錯、耗時、指標異動、告警明細可以及時的反饋出當前業(yè)務及系統(tǒng)的健康狀況及時作出反饋,熱點、預警、派單等數(shù)據(jù)可以較為準確地定義本周期的運維焦點。
2. 打造場景化作戰(zhàn)模式
場景化作戰(zhàn)以組建虛擬化小團隊的模式開展。場景化虛擬團隊結構包含WEB層、DBA、安全、操作系統(tǒng)、開源軟件、接口層、存儲層、網絡層、高可用層、質量管控層十個專家組,同時設立專家委員會,專家委員會提供12份標準建議協(xié)助虛擬團隊進行場景攻關,包含非功能性標準、監(jiān)控指標模板、安全審計規(guī)范、數(shù)據(jù)庫參數(shù)配置規(guī)范、系統(tǒng)參數(shù)配置規(guī)范、運維手段配置規(guī)范、開源軟件標準、設備基建入網標準、網絡配置規(guī)范、備份配置規(guī)范、存儲配置規(guī)范、上線發(fā)布規(guī)范。
3. 建立數(shù)據(jù)驅動的聯(lián)動運維體系
數(shù)據(jù)驅動型聯(lián)動運維體系涉及14個關鍵步驟,數(shù)據(jù)整合錄入,通過算法實現(xiàn)數(shù)據(jù)驅動的運維熱塊定位,構建運維場景;通過專家委員會對場景特點的評估組建團隊,分別從系統(tǒng)架構、數(shù)據(jù)流程、業(yè)務流程三方面進行梳理;配置關鍵點監(jiān)控告警,定義核心要素指標;定義運維決策規(guī)則;編寫運維應急腳本,實現(xiàn)場景-規(guī)則-處理的聯(lián)動執(zhí)行體系,根據(jù)執(zhí)行的效果進行再跟蹤和運維數(shù)據(jù)的再評估,形成PDCA循環(huán)優(yōu)化。充分提高運維準度和效率,推進高質量運維系統(tǒng)的建設。
(四)推廣性
該運維體系適用于負責IT系統(tǒng)建設、運維管理的組織。通過建立數(shù)據(jù)驅動的場景化運維管理體系,可以有效提升運維效率、增強運維人員專業(yè)深度,組織結構也將更適用于運維團隊穩(wěn)定運營和靈活變通。
總之,只有形成了良好的運維管理體系才能夠為各項運維管理工作的開展提供良好的支持。文中提出的數(shù)據(jù)驅動型IT場景化運維管理體系可以為運維管理工作的改進提供有力支持。
作者單位:中國移動通信集團上海有限公司信息系統(tǒng)運營部