雷曦?zé)? 王進
【關(guān)鍵詞】自助運維服務(wù);關(guān)鍵技術(shù)
不斷擴充的業(yè)務(wù)需求和逐步提高的服務(wù)要求,傳統(tǒng)以人工運維服務(wù)模式已經(jīng)不能滿足需要。主要體現(xiàn)在傳統(tǒng)運維服務(wù)主要依靠人工方式進行,重復(fù)性勞動強度大,效率低;故障處理缺乏預(yù)防自愈手段,長期以來的“頭痛醫(yī)頭,腳痛醫(yī)腳”維護服務(wù)方式,缺乏預(yù)防性和故障自愈的技術(shù)手段,處理方式被動。
基于以上現(xiàn)狀,急需一種能夠?qū)崿F(xiàn)自動化運維服務(wù)、故障根因自動定位和故障預(yù)防自愈、運維服務(wù)自助編排的自助運維手段,提升運維效率。
針對這些問題,我們提出“多維信息聚合一高效數(shù)據(jù)引擎一智能分析預(yù)測一自助編排服務(wù)”的思路,進行解決問題的新途徑探索——具有自助運維服務(wù)能力的平臺模型,建立以自助、可編排、實時在線為特點的運維服務(wù)體系。
多維信息聚合:對運維服務(wù)所需知識點進行聚合,形成多維的、標(biāo)準(zhǔn)化的信息聚合平臺,形成信息知識體系。
高效數(shù)據(jù)引擎:將數(shù)據(jù)經(jīng)過處理、轉(zhuǎn)換后,經(jīng)過知識分類和智能關(guān)聯(lián),形成高效的數(shù)據(jù)引擎,為數(shù)據(jù)服務(wù)提供可靠的數(shù)據(jù)引擎。
智能分析預(yù)測:通過建立故障分析規(guī)則,實現(xiàn)故障根因定位、故障預(yù)防自愈功能,壓縮冗余故障工單提高運維效率,為自助運維服務(wù)提供強大的數(shù)據(jù)支撐能力。
自助編排服務(wù):根據(jù)用戶選擇和個性化需求,在后臺通過配置管理和服務(wù)管理支撐,為用戶提供可編排、可定制、全天候?qū)崟r在線的運維服務(wù)模式。
基于以上分析,提出以智能交互、可編排、可定制為特點的自助運維服務(wù)的建設(shè)模型,進行運維服務(wù)建設(shè)實踐。
基于上述自助運維服務(wù)模型設(shè)計,主要進行故障根因定位策略、故障預(yù)防自愈功能、自助運維服務(wù)交互、自助工單處理和定制運維服務(wù)模式等關(guān)鍵能力建設(shè)。
(一)制定故障根因定位策略
制定同一設(shè)備內(nèi)、不同設(shè)備間、不同專業(yè)網(wǎng)絡(luò)之間告警的關(guān)聯(lián)規(guī)則,采用樹形算法、保護算法和環(huán)狀算法建立抽象數(shù)據(jù)模型,實現(xiàn)對衍生告警故障、主次告警故障、同源告警故障和跨專業(yè)告警關(guān)聯(lián)故障定位。對大面積斷站直接輸出根因派單處理,提升工單壓縮率,為自助運維服務(wù)提供精準(zhǔn)的數(shù)據(jù)支撐。
(二)故障預(yù)防自愈的實現(xiàn)
基于故障根因定界定位,挖掘分析告警與性能指標(biāo)相關(guān)性,獲取性能指標(biāo)變化趨勢,以15分鐘為粒度,統(tǒng)計故障設(shè)備網(wǎng)元的性能數(shù)據(jù)指標(biāo),形成趨勢走向圖。分析該段時間的告警趨勢,與性能趨勢比較,分析告警相關(guān)性較大的性能指標(biāo),并通過平臺向相關(guān)責(zé)任人發(fā)送故障預(yù)防告警通知。
依托原子編排能力,構(gòu)建故障樹模型,結(jié)合專家經(jīng)驗庫和平臺項目自學(xué)習(xí)能力,生成故障分析樹,根據(jù)系統(tǒng)對故障根因的定位,系統(tǒng)通過向網(wǎng)絡(luò)操作維護中心下發(fā)指令,實現(xiàn)部分故障的自動修復(fù)。
(三)自助運維服務(wù)交互能力
基于數(shù)據(jù)引擎的深度分析能力,提供智能應(yīng)答功能,支持在線文檔、運營指標(biāo)、運行報告等的模糊查詢,支持多輪對話快速縮小查詢范圍,支持多種常見文檔、多媒體格式的在線瀏覽與播放。
(四)自助工單處理
根據(jù)信息聚合平臺信息,周期性或按條件觸發(fā)各類推送消息,將人工催辦完成的工單由系統(tǒng)自助完成,由平臺替代人工發(fā)起、跟蹤任務(wù),過程中支持升級提醒,任務(wù)完成后自動生成相應(yīng)的報告。
(五)定制運維服務(wù)模式
定制運維服務(wù)模式分為模板編輯、模板生成、報告編輯、文檔生成和信息發(fā)送五個步驟。模板編輯包括了對服務(wù)響應(yīng)的格式、字體、顏色的制定,還可以對服務(wù)響應(yīng)需要的截圖、變量進行制定。在編輯好文檔模板以后,對文檔模板進行上線,按照模板生成相應(yīng)的文檔。
文檔生成,首先需要選擇關(guān)聯(lián)的文檔模板,選擇好模板以后確定文檔生成的周期和時間。對于生成的文檔不但可以在線查看,還可以在線編輯。配置好文檔生成周期、時間,按照設(shè)定的周期和時間定時生成文檔,按照一定的周期對同類文檔的數(shù)據(jù)進行持續(xù)的趨勢分析,根據(jù)趨勢圖來判斷問題是否有好轉(zhuǎn),如果趨勢仍在繼續(xù)劣化,就自動觸發(fā)預(yù)警消息并自動推送到責(zé)任人,提醒重點關(guān)注。
通過上述自動化運維能力建設(shè),運維服務(wù)從手工模式轉(zhuǎn)到自動化、自助化模式,打造了具有交互能力的自助運維服務(wù)模式,并實現(xiàn)了全域故障根因分析和故障預(yù)測自愈,面向多場景的快速支撐能力得到大幅度提高。
(一)具有交互能力的自助運維服務(wù)
基于聚合信息平臺實現(xiàn)運維服務(wù)的模糊查詢、精確匹配,以問答方式訪問,并返回處理結(jié)果,降低學(xué)習(xí)成本。多觸點通過一站式入口,支持資源、告警、工單、天氣等的數(shù)據(jù)的一體化采集、分析與價值輸出,實現(xiàn)支撐能力升維、生產(chǎn)入口降維的運維服務(wù)目標(biāo)。
(二)全域的故障根因分析,實現(xiàn)故障預(yù)測自愈
在故障根因分析和預(yù)防預(yù)測方面,成功實現(xiàn)了多個關(guān)鍵技術(shù)的研發(fā)突破和實踐應(yīng)用。通過對歷史數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、問題數(shù)據(jù)、用戶數(shù)據(jù)等多維數(shù)據(jù)多維分析技術(shù)、智能關(guān)聯(lián)技術(shù)等,實現(xiàn)故障根源自動定位、故障隱患預(yù)測、問題主動上報、指標(biāo)異常預(yù)測等,為知識投放、業(yè)務(wù)優(yōu)化、支撐優(yōu)化、人員優(yōu)化、系統(tǒng)優(yōu)化提供指導(dǎo)依據(jù),減少運維出勤,降低代維成本,提升故障處理效率。
(三)可定制、可編排的個性化運維服務(wù)模式
面向全省運維服務(wù)個性化需求,用戶可根據(jù)運維工作需要,自行定制運維服務(wù)模式,并選擇服務(wù)送達方式。如用戶定制移動網(wǎng)絡(luò)的等級故障服務(wù),在設(shè)置通知方式時候,可以自主在夜間選擇電話;對非等級故障選擇短信,既滿足了運維工作需要又避免了信息泛濫。
考慮到運維服務(wù)要求具有個性化和快速響應(yīng)等特點,對于個性化需求的業(yè)務(wù)層分析,采用組件化架構(gòu)的設(shè)計,充分利用組件化架構(gòu)的優(yōu)勢特點,對系統(tǒng)組件間進行解耦。在應(yīng)用層和控制層的調(diào)用中,通過功能組件對外開放統(tǒng)一接口,在接口中聲明包含所有的服務(wù),支撐應(yīng)用層模板快速和靈活配置,形成面向多場景的支撐。
自助運維服務(wù)模式投入使用以來,累計提供服務(wù)3.5萬多次,代替人工運維服務(wù)3200多人次,減少維護出勤次數(shù)15%,運維效率大幅度提升。通過自助運維服務(wù)模式變革,為相關(guān)網(wǎng)絡(luò)運維人員提供更加及時準(zhǔn)確運維信息,重要站點和等級故障保障更加及時有效,萬人投訴率下降4.5%,有效提升了用戶感知。