吳秋玫,楊鷗
(云南電網(wǎng)有限責(zé)任公司普洱供電局,云南 普洱 665000)
傳統(tǒng)的IT運維監(jiān)控系統(tǒng)都需要為每一個監(jiān)控對象(交換機、路由器、防火墻、IPS、服務(wù)器、數(shù)據(jù)庫、中間件等)的每個監(jiān)控指標(biāo)設(shè)置報警閥值,需要根據(jù)基于規(guī)則的閥值配置進行報警,這需要投入大量的人力成本和時間成本來完成配置工作,所有的監(jiān)控對象運維人員都需要根據(jù)自身的運維經(jīng)驗進行配置,并且不同的IT業(yè)務(wù)系統(tǒng)對指標(biāo)的要求存在差異性,這將導(dǎo)致報警規(guī)則配置標(biāo)準(zhǔn)無法統(tǒng)一、配置的指標(biāo)范圍難以規(guī)范化,這將導(dǎo)致IT業(yè)務(wù)系統(tǒng)在高峰時間產(chǎn)生大量的“無效”報警,需要運維人員進行手工消除報警并且根據(jù)報警的情況持續(xù)調(diào)整告警上下限閥值,告警維護成本高,給運維人員增加了工作量,且難以適應(yīng)實時動態(tài)變化的系統(tǒng)運行狀況,同時在閥值調(diào)整過程中,可能引發(fā)關(guān)聯(lián)指標(biāo)的異常預(yù)警,甚至引入業(yè)務(wù)系統(tǒng)中斷的風(fēng)險,基于規(guī)則的手動配置閥值導(dǎo)致報警指標(biāo)覆蓋率、準(zhǔn)確率不高,且誤報率比較高[1]。因此通過實施IT監(jiān)控系統(tǒng)指標(biāo)動態(tài)閥值設(shè)定,減少系統(tǒng)“誤報”率,降低運維人員指標(biāo)設(shè)定工作量以及配置風(fēng)險,減少通過主觀判斷進行監(jiān)控系統(tǒng)的報警閥值設(shè)定,確保業(yè)務(wù)系統(tǒng)的安全、可靠、高效運行。
系統(tǒng)功能架構(gòu)劃分為三層,分別為數(shù)據(jù)采集層、算法模型層及應(yīng)用層。數(shù)據(jù)采集層主要負(fù)責(zé)對服務(wù)器、數(shù)據(jù)庫、中間件及網(wǎng)絡(luò)設(shè)備的監(jiān)測指標(biāo)進行收集,并且根據(jù)算法模型對數(shù)據(jù)的要求進行數(shù)據(jù)理解和數(shù)據(jù)處理;算法模型層是本系統(tǒng)的核心,是在實現(xiàn)運維指標(biāo)數(shù)據(jù)統(tǒng)一采集的基礎(chǔ)上,針對每個應(yīng)用系統(tǒng)運行的特點以及歷史運行數(shù)據(jù)構(gòu)建可靠的算法模型,并且提供模型訓(xùn)練窗口以及數(shù)據(jù)樣本管理功能;應(yīng)用層是基于數(shù)據(jù)采集層及算法模型層而迭代的數(shù)字化運維管理功能模塊,為運維人員提供可視化、數(shù)字化的運維管理視窗,實現(xiàn)高效的運維管控和保障[2]。
編寫高性能、高并發(fā)的數(shù)據(jù)采集器代理,負(fù)責(zé)把服務(wù)器、數(shù)據(jù)庫、中間件及網(wǎng)絡(luò)設(shè)備運行的關(guān)鍵指標(biāo)數(shù)據(jù)按照采集周期,主動地把數(shù)據(jù)發(fā)送到具備大數(shù)據(jù)分析能力的數(shù)據(jù)聚合平臺,完成運維數(shù)據(jù)的統(tǒng)一存儲、加工和處理,實現(xiàn)了源數(shù)據(jù)的聚合管控。
對已完成聚合的源數(shù)據(jù)進行分級分類管理,將IT系統(tǒng)按照對象類別進行劃分,并對每個IT對象的指標(biāo)劃分為:軟硬件狀態(tài)——決定IT對象的生命、性能狀態(tài)——決定IT對象的容量能力、日志——決定IT對象的健康度以及安全性。IT對象之間的關(guān)聯(lián)關(guān)系我們采用軟鏈路和硬鏈路兩種方式來進行連接,具有物理連接關(guān)系的IT對象之間的連接為硬鏈路連接,服務(wù)器與以太網(wǎng)交換機、服務(wù)器與SAN交換機、SAN交換機與磁盤陣列設(shè)備等之間的連接關(guān)系均為硬鏈路連接,端口故障、物理鏈路中斷均影響IT系統(tǒng)的正常運行;除此之外,IT對象之間的連接關(guān)聯(lián)為軟鏈路連接,數(shù)據(jù)庫與操作系統(tǒng)之間的關(guān)系、中間件與操作系統(tǒng)之間的關(guān)系、業(yè)務(wù)應(yīng)用包與數(shù)據(jù)庫、中間件之間的關(guān)系均為軟鏈路連接,其之間通常通過端口號、賬戶進行建立連接關(guān)系,防火墻、賬號錯誤、端口占用均可能導(dǎo)致業(yè)務(wù)系統(tǒng)中斷。因此,預(yù)警閥值要從IT系統(tǒng)中的單體對象以及干系對象、鏈路可靠性等多維度、多層次進行設(shè)置和預(yù)測[3]。
通過構(gòu)建以業(yè)務(wù)系統(tǒng)為單元的監(jiān)控預(yù)警分析模型,采用模型最小化法則,將影響業(yè)務(wù)系統(tǒng)的干系對象縮減到最小范圍,控制IT對象指標(biāo)的分析數(shù)據(jù)量,保證高性能實時分析IT系統(tǒng)狀態(tài)和挖掘歷史數(shù)據(jù),并進行實時分析對比。通過對具體的業(yè)務(wù)系統(tǒng)抽取應(yīng)用級的運行指標(biāo),構(gòu)建業(yè)務(wù)正常運行時的指標(biāo)數(shù)值范圍,即業(yè)務(wù)運行指標(biāo)健康度取值范圍,我們將業(yè)務(wù)系統(tǒng)的登錄時間、連接時間、響應(yīng)時間、登錄用戶數(shù)、活動用戶數(shù)等關(guān)鍵指標(biāo)數(shù)據(jù)與服務(wù)器運行狀態(tài)及性能消耗、網(wǎng)絡(luò)設(shè)備運行狀態(tài)及性能消耗、中間件運行狀態(tài)及性能消耗、日志內(nèi)容、日常報警信息以及機房環(huán)境關(guān)鍵指標(biāo)就行立體空間映射,實時進行數(shù)據(jù)收集以及數(shù)據(jù)映射管理,構(gòu)建具備實時流分析能力的IT系統(tǒng)運行歷史數(shù)據(jù)庫系統(tǒng)。
圖1 系統(tǒng)功能架構(gòu)圖
算法模型層主要包括特征提取、模型構(gòu)建、模型評估及模型訓(xùn)練四個環(huán)節(jié)。
特征提取主要依據(jù)數(shù)據(jù)采集層構(gòu)建的IT系統(tǒng)運行歷史數(shù)據(jù)庫系統(tǒng)以及所構(gòu)建的數(shù)據(jù)映射立體空間圖。在本算法模型中我們采用七種數(shù)據(jù)挖掘特征提取方法,即基于樹模型提取特征、基于L1/L2懲罰值提取特征、遞歸特征消除法提取特征、互信息選擇法提取特征、利用相關(guān)系數(shù)選擇特征、卡方檢驗法提取特征、利用方差選擇特征對不同的數(shù)據(jù)類型和維度進行特征提取,并且構(gòu)建一個融合七個維度特征的綜合性特征庫。特征庫內(nèi)容至少包括業(yè)務(wù)系統(tǒng)狀態(tài)及健康度、IT系統(tǒng)軟硬件狀態(tài)、IT軟硬件關(guān)鍵指標(biāo)性能、日志信息數(shù)據(jù)以及嚴(yán)重報警信息等內(nèi)容,通過多維特征的提取形成以業(yè)務(wù)系統(tǒng)安全、高效、可靠運行為中心的、以業(yè)務(wù)系統(tǒng)為單元的綜合特征庫[4]。
根據(jù)業(yè)務(wù)系統(tǒng)所涉及到的IT系統(tǒng)運行綜合狀態(tài)信息數(shù)據(jù),以及結(jié)合多維綜合特征工程所提取的特征內(nèi)容進行設(shè)計開發(fā)訓(xùn)練模型,并且配套編程樣本庫管理模塊、樣本數(shù)據(jù)管理模塊進行對業(yè)務(wù)系統(tǒng)的運維數(shù)據(jù)綜合性訓(xùn)練和校驗。
基于IT系統(tǒng)運行綜合數(shù)據(jù)庫、樣本數(shù)據(jù)庫以及模型訓(xùn)練集數(shù)據(jù),構(gòu)建IT系統(tǒng)運行健康狀況動態(tài)負(fù)載實時監(jiān)測功能,并進行報警閥值的動態(tài)設(shè)置及預(yù)警,減少無效報警信息。通過運維算法模型實時挖掘IT系統(tǒng)運行歷史數(shù)據(jù)庫對業(yè)務(wù)系統(tǒng)的故障點進行預(yù)判、業(yè)務(wù)系統(tǒng)鏈路節(jié)點故障定位及預(yù)判。
圖2 算法結(jié)構(gòu)圖
在算法模型中,我們采用基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法RNN、DNNN、LSTM,同時,將IT系統(tǒng)運行指標(biāo)劃分為兩大類,一類為重要關(guān)鍵指標(biāo),比如業(yè)務(wù)交易、業(yè)務(wù)系統(tǒng)可用狀態(tài)登,采用LSTM異常檢測算法對指標(biāo)的運行歷史數(shù)據(jù)進行模型訓(xùn)練,并基于實時運行指標(biāo)對預(yù)測指標(biāo)未來的趨勢,在模型算法中,為每一個關(guān)鍵指標(biāo)建立模型,即單子指標(biāo)單模型;另外一類為普通指標(biāo),即非關(guān)鍵指標(biāo),這類指標(biāo)采用DNN算法,利用小波變換算法提取監(jiān)控指標(biāo)頻域特征到DNN模型,直接導(dǎo)出指標(biāo)異常與否結(jié)果,DNN模型融通綜合性的指標(biāo)特征工程數(shù)據(jù)庫,配合運維人員人工的數(shù)據(jù)標(biāo)記工程,進行持續(xù)提高模型精度,較好地滿足所有異常檢測場景全覆蓋。通過對IT軟硬件系統(tǒng)以及業(yè)務(wù)系統(tǒng)運行的實時的異常分析、預(yù)判,實現(xiàn)系統(tǒng)不斷自動調(diào)整報警閥值,自動化進行IT關(guān)系干系分析、影響分析及單體分析,在業(yè)務(wù)單元網(wǎng)格中進行可靠性、健康度及安全性的多維分析、預(yù)測、預(yù)警,為運維人員提供科學(xué)的報警信息和動態(tài)化的IT系統(tǒng)閥值配置系統(tǒng),實現(xiàn)具有針對業(yè)務(wù)系統(tǒng)特點和個性化的IT系統(tǒng)對象指標(biāo)閥值自動配置算法庫及指標(biāo)域值。
通過算法模型層,實現(xiàn)了特征庫、訓(xùn)練集、標(biāo)記庫以及算法模型的創(chuàng)建,實現(xiàn)了IT系統(tǒng)軟硬件設(shè)備的異常檢測及預(yù)判,并對IT系統(tǒng)報警閥值進行自動調(diào)節(jié),確保報警數(shù)據(jù)及時性及可靠性。
應(yīng)用層的主要功能模塊是完全基于數(shù)據(jù)采集層和算法模型層實現(xiàn)IT系統(tǒng)運維可視化監(jiān)控、業(yè)務(wù)系統(tǒng)端到端全鏈路監(jiān)控與故障自動定位,并對運維的實際需求進行動態(tài)化“零編碼”的可視化中心建設(shè),并對對IT對象進行實時監(jiān)控與歷史數(shù)據(jù)挖掘分析對比,針對業(yè)務(wù)系統(tǒng)當(dāng)前的綜合運行狀態(tài)及系統(tǒng)負(fù)荷進行閥值動態(tài)化自動優(yōu)化調(diào)整以及預(yù)警等功能,為運維人員提供高效的、智能化的IT系統(tǒng)運維管理工具平臺[5]。
通過基于歷史運維數(shù)據(jù)特征的監(jiān)控系統(tǒng)告警閥值自動設(shè)定功能平臺建設(shè),結(jié)合IT系統(tǒng)運維監(jiān)測可視化畫像、IT系統(tǒng)指標(biāo)及日志關(guān)聯(lián)分析的需求,完善和迭代基于IT業(yè)務(wù)端到端的全鏈路數(shù)據(jù)節(jié)點監(jiān)控一條線,把IT軟硬件對象狀態(tài)及軟硬鏈路關(guān)系數(shù)字化可視化、IT軟硬件設(shè)備運行狀態(tài)可視化、運行指標(biāo)數(shù)據(jù)可視化、故障節(jié)點可視化,并且通過運維知識圖譜系統(tǒng),根據(jù)IT系統(tǒng)報警信息自動推薦故障解決措施和方案,并且系統(tǒng)平臺引入自動化運維技術(shù),支持人工關(guān)聯(lián)自動化運行作業(yè),全面打造高效、可靠、安全的IT系統(tǒng)運維數(shù)字化平臺。
本課題充分采用大數(shù)據(jù)分析技術(shù)、AI算法模型、數(shù)據(jù)聚合技術(shù)、AIOPS自動化運維、運維數(shù)據(jù)分析及運維指標(biāo)量化,將IT系統(tǒng)運行歷史數(shù)據(jù)聚合到大數(shù)據(jù)分析平臺,打破運維數(shù)據(jù)孤島,構(gòu)建IT運維大數(shù)據(jù)分析平臺,實現(xiàn)對IT運維數(shù)據(jù)的深度挖掘。并且構(gòu)建針對業(yè)務(wù)系統(tǒng)為單元的IT指標(biāo)綜合特征庫、算法模型、數(shù)據(jù)訓(xùn)練集,實現(xiàn)構(gòu)建動態(tài)的IT系統(tǒng)運維監(jiān)控指標(biāo)閥值自動設(shè)定及預(yù)警,解決IT運維指標(biāo)報警閥值配置規(guī)范化、標(biāo)準(zhǔn)化及個性化難點、難題,降低IT系統(tǒng)報警誤報率問題,并且基于此技術(shù)創(chuàng)新和建設(shè)思路,實現(xiàn)IT系統(tǒng)監(jiān)控數(shù)據(jù)分析、業(yè)務(wù)端到端監(jiān)控視圖以及關(guān)聯(lián)分析,全面提升IT監(jiān)控系統(tǒng)的使用價值和應(yīng)用水平。