国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)于主機監(jiān)控中動態(tài)基線告警管理的研究與實現(xiàn)

2017-07-18 12:05:08國網(wǎng)山西省電力公司信息通信分公司山西太原030001
山西電力 2017年3期
關(guān)鍵詞:基線內(nèi)存運維

谷 良,段 婕,段 敬(國網(wǎng)山西省電力公司信息通信分公司,山西 太原 030001)

關(guān)于主機監(jiān)控中動態(tài)基線告警管理的研究與實現(xiàn)

谷 良,段 婕,段 敬
(國網(wǎng)山西省電力公司信息通信分公司,山西 太原 030001)

主機監(jiān)控中動態(tài)基線告警管理的研究與實現(xiàn)以企業(yè)綜合網(wǎng)絡管理平臺為基礎,通過在告警管理過程中應用概率及概率分布算法,實現(xiàn)了利用動態(tài)基線管理的方法監(jiān)控服務器、存儲、路由器等設備的CPU性能參數(shù)。在完成針對國網(wǎng)山西省電力公司變電站生產(chǎn)視頻監(jiān)控系統(tǒng)的服務器、中間件等設備的測試和驗證后,該功能已經(jīng)成功部署在國網(wǎng)山西省電力網(wǎng)絡信息智能監(jiān)控平臺系統(tǒng)中。

主機監(jiān)控;動態(tài)基線;高斯過程

0 引言

大數(shù)據(jù)、云計算等[1,2]技術(shù)憑借其優(yōu)秀的數(shù)據(jù)處理能力和高可靠性,成為了企業(yè)信息化改革的大方向。構(gòu)建屬于自己的云平臺成了現(xiàn)代企業(yè)邁入新型云計算商業(yè)模型的必要條件。面對機房服務器、存儲設備數(shù)量的日益增長,如何使設備安全穩(wěn)定運行,降低故障發(fā)生概率,使各類主機高效為企業(yè)服務成了一個亟待解決的問題。目前,各類管理平臺和監(jiān)控平臺也隨之進入了快速發(fā)展的階段,但是監(jiān)控主機、中間件和存儲的產(chǎn)品還較少。如何既能不占用系統(tǒng)資源,又能實時進行監(jiān)控,快速生成告警內(nèi)容成為了主機設備管理和監(jiān)控追求的目標。為此,本文在公司綜合網(wǎng)絡管理平臺上,通過研究動態(tài)基線[3]告警管理的算法,將接入主機、中間件和存儲的實時性能數(shù)據(jù)進行處理并生成告警內(nèi)容,成功實現(xiàn)了關(guān)于主機監(jiān)控的功能。

1 基線管理

基線(base line)即數(shù)據(jù)變化的基準線,描述了一個指標的正常波動范圍,這個范圍不同于傳統(tǒng)的閾值門限,傳統(tǒng)的閾值門限[4]如圖1所示。

圖1 傳統(tǒng)閾值的基線管理

它是根據(jù)設備運行過程記錄的參數(shù)值給出一個固定的參考值,在這個值之上設定一個容忍范圍產(chǎn)生相應的告警信息。這個值理論上是不變的,除非人為進行調(diào)整。接下來有研究對固定不變的閾值門限作了改進,改進的基線告警管理示意圖如圖2所示。它是在傳統(tǒng)閾值的基礎上,將差異較為明顯的時候段分別計算了閾值,但是基線是隨著時間在不斷變化的,而且這個變化是連續(xù)的,尤其對設備的性能進行監(jiān)控時。因為設備的運行指標通常和人的活動掛鉤,而人的活動是隨著時間在連續(xù)的有規(guī)律的進行變化,如上午剛開始工作時業(yè)務的仿問量有較大地提升,隨著時間的推移它會逐漸降低;下午剛開始工作時業(yè)務的訪問量又有較為明顯的提升,夜間的活動數(shù)趨近于零。這些都反應出了某些指標是隨著時間在連續(xù)變化的,如果應用閾值來作為基線值進行告警管理,那么夜間CPU和內(nèi)存應用率異常,但還沒有超過白天的閾值的話,這個故障就會隱藏起來,難以被運維人員察覺,因此不適合用傳統(tǒng)的閾值門限來判斷設備是否出現(xiàn)了問題。本研究的動態(tài)基線管理如圖3所示,它的特點是實時采集各類被監(jiān)控設備的性能數(shù)據(jù),對統(tǒng)計周期內(nèi)的數(shù)據(jù)進行概率分布計算[5],計算出未來性能數(shù)據(jù)的參照值,再輔以相應的容忍度,獲得24小時的正常指標值范圍[6]。

圖2 改進后的基線管理

圖3 動態(tài)的基線管理

2 動態(tài)基線管理的算法研究

動態(tài)基線管理算法主要包括三方面的內(nèi)容,分別是基線計算方法、容忍線計算方法和產(chǎn)生告警的方法。其中基線計算是告警產(chǎn)生的基礎[7]。

2.1 基線計算

目前的基線計算方法多是針對采集的性能數(shù)據(jù)直接做告警基線的處理,缺少了噪聲的過濾,本文采用圖4所示的流程來實現(xiàn)基線管理功能。

圖4 數(shù)據(jù)處理流程

如圖4所示,首先進行樣本數(shù)據(jù)的采集,其次是對樣品數(shù)據(jù)進行初加工,接下來進行基線的計算,最后形成基線值。表1是1周內(nèi)每整點的測試服務器CPU性能數(shù)據(jù)。

表1 CPU樣本數(shù)據(jù) %

假設X為不包含噪聲的性能值,σ為噪聲值,Y為采集到的性能參數(shù),那么有式(1)。

在穩(wěn)定情況下,X的值是一個呈現(xiàn)周期性變化的參數(shù),因此用相鄰兩天的采集樣本作差進行Q-Q圖[8]分析,得到如圖5所示的結(jié)果,其中圖a、b、c、d分別為5個工作日的樣本差值與參考點的QQ圖,圖中的散點都在一條直線附近,因此噪聲參數(shù)呈現(xiàn)高斯分布特性。根據(jù)Q-Q圖的特性,可以得到近似的標準差及均值,本例中均值為3,因此將3納入到基線的計算中。

圖5 5個工作日的樣本Q-Q圖特性

監(jiān)控系統(tǒng)所監(jiān)控的應用系統(tǒng)是一類新構(gòu)建的系統(tǒng),目前的應用程序還不高,訪問量會隨著時間的推移逐步增加,因此本監(jiān)控平臺目前將采集到的各個時間段的最大運行性能參數(shù)經(jīng)運維人員確定后添加到統(tǒng)計分析過程當中去,也就是在統(tǒng)計分析的過程中不進行性能參數(shù)的過濾。數(shù)據(jù)處理采用概念分布算法,針對每個時間點(最小采樣區(qū)間)都進行一次統(tǒng)計分析。

以20點的數(shù)據(jù)為例,表2中為測試機7月1日到30日的20點的CPU使用率數(shù)據(jù),表中最大的值為9.94,因此應用9.94確定5個區(qū)間范圍,如下。

應用區(qū)間取數(shù)法,落在3、4、5區(qū)間中的數(shù)據(jù)個數(shù)最多,將以上3個區(qū)間中的數(shù)據(jù)作為樣本計算基線值。設置置信度為0.8,以上30個樣本的滑動窗口數(shù)據(jù)個數(shù)為24,因此分別計算第1到24,2到25,3到26…的標準差,如表3所示。取標準差最小的區(qū)間為第3區(qū)間,因此20點整的上基線值為9.94,下基線值為5.37。

2.2 產(chǎn)生告警

目前,各類應用系統(tǒng)的運行指標呈現(xiàn)一個周期性的規(guī)律,圖6所示為周五的內(nèi)存占用率指標圖。一般情況下都是工作時段內(nèi)存占用率較高,圖6中22時內(nèi)存占用率高是由于備份策略是每周五晚10點開始。

表2 CPU月度樣本數(shù)據(jù)

表3 樣本區(qū)間標準差

圖6 內(nèi)存占用率時分圖

因此容忍度的設置可以采用人工方法,分區(qū)段分別設置不同的比例,靈活進行配置。本文中分別將忙時和閑時的容忍度設置為30%和20%,以文中的上下基線值為例,20點為空閑時間,因此有式(2) 和式(3)。系統(tǒng)的CPU占用率如果超過這一范圍則會產(chǎn)生相應的基線告警管理。

其中, Bup為上基線,Bdown為下基線。

3 基線告警功能的部署及應用

基線告警功能通過測試并作為1個模塊成功部署在山西電力網(wǎng)絡智能監(jiān)控平臺系統(tǒng)中,傳統(tǒng)是針對主機、中間件、數(shù)據(jù)庫等服務器設備采用人工巡檢的方式,每天上午1次,基本無法保證系統(tǒng)故障或缺陷的及時消除。部署基線告警功能模塊后,如發(fā)生硬盤故障、內(nèi)存利用率高等影響系統(tǒng)穩(wěn)定運行的潛在隱患,都會以短信及郵件信息的形式通過運維人員,將傳統(tǒng)故障發(fā)現(xiàn)時間降低到了5 min以內(nèi)。圖7所示為系統(tǒng)中相應的告警視圖,圖中所示為變電站生產(chǎn)視頻監(jiān)控系統(tǒng)太原web服務器內(nèi)存利用率超過閾值的告警,直接觸發(fā)了內(nèi)存利用率基線告警。另外,它還可以生成周、月、年度報表,方便運維人員全面了解計周期內(nèi)設備故障發(fā)生情況,為接下來的技改大修提供依據(jù)。圖7所示為當月該設備內(nèi)存利用率的實時數(shù)據(jù),內(nèi)存隱患為16日告警服務模塊進程卡死。通過部署基于基線的告警管理功能,極大地增強了主機、存儲、中間件等設備的可靠性,縮短了故障恢復時間。

圖7 內(nèi)存利用率異常圖示

4 結(jié)束語

動態(tài)基線告警的實現(xiàn)為服務器、中間件及數(shù)據(jù)庫的CPU、內(nèi)存利用率提供了一種專門的管理手段,提高了各類信息通信支撐系統(tǒng)的可靠性,應用以來,將傳統(tǒng)1天2次的人工巡檢升級為系統(tǒng)7×24小時智能巡檢,故障巡檢平均發(fā)現(xiàn)時間由之前的1.5小時縮短為1 min以內(nèi),不僅增強了系統(tǒng)的可用性,還提高了運維人員的工作效率。

參考文獻:

[1]李學龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述 [J].中國科學:信息科學,2015(45):1-44.

[2]余江,萬勁波.推動中國云計算技術(shù)與產(chǎn)業(yè)創(chuàng)新發(fā)展的戰(zhàn)略思考 [J].中國科學院院刊,2015(30):181-185.

[3]杜占瑋,楊永健.一種基于自適應高斯過程的基線計算算法[J].計算機科學,2012(39):79-82.

[4]諶志華.安全基線管理在企業(yè)中的應用 [J].計算機安全,2013(3):19-22.

[5]趙淵,郭胤.考慮參數(shù)不確定的電網(wǎng)可靠性概率分布特征[J].電網(wǎng)技術(shù),2013(37):2165-2172.

[6]張巖.一種差異化故障信號的計算機特征還原技術(shù) [J].科技通報,2013(29):150-153.

[7]張成,李元.基于統(tǒng)計模量分析間歇過程故障檢測方法研究[J].儀器儀表學報, 2013(34):2103-2110.

[8]宗序平,姚玉蘭.利用Q-Q圖與P-P圖快速檢驗數(shù)據(jù)的統(tǒng)計分布 [J].知識叢林,2010(20):150-152.

Research and Implementation of Dynamic Baseline Alarm Management in Host Monitoring System

GU Liang,DUAN Jie,DUAN Jing
(State Grid Shanxi Electric Power Corporation Information Communication Branch, Taiyuan,Shanxi030001,China)

Based on enterprise comprehensive network management platform,the dynamic baseline alarm management in host monitoring is studied and realized.Through the application of probability and probability distribution algorithm in alarm management process,the CPU's performance parameters of servers,storage devices and routers are realized to be monitored by dynamic baseline management.After test and verification,the achievement of this research has been successfully applied in Shanxi Electric Power Network Information Intelligent Monitoring PlatformSystemsothat host monitoring has been realized successfully.

host monitoring;dynamic baseline;Gaussian process

TP277

A

1671-0320(2017)03-0040-05

2017-01-19,

2017-04-11

谷 良(1987),男,山西朔州人,2013年畢業(yè)于中國科學技術(shù)大學軟件工程專業(yè),碩士,工程師,從事信息通信運維工作;

段 婕(1987),女,山西臨汾人,2013年畢業(yè)于北京郵電大學通信工程專業(yè),碩士,工程師,從事信息通信運維工作;

段 敬(1983),男,山西太原人,2006年畢業(yè)于太原理工大學電子信息工程專業(yè),雙學士,主任工程師,從事信息通信運維工作。

猜你喜歡
基線內(nèi)存運維
適用于MAUV的變基線定位系統(tǒng)
航天技術(shù)與甚長基線陣的結(jié)合探索
科學(2020年5期)2020-11-26 08:19:14
運維技術(shù)研發(fā)決策中ITSS運維成熟度模型應用初探
“春夏秋冬”的內(nèi)存
當代陜西(2019年13期)2019-08-20 03:54:22
風電運維困局
能源(2018年8期)2018-09-21 07:57:24
雜亂無章的光伏運維 百億市場如何成長
能源(2017年11期)2017-12-13 08:12:25
一種改進的干涉儀測向基線設計方法
基于ITIL的運維管理創(chuàng)新實踐淺析
技術(shù)狀態(tài)管理——對基線更改的控制
航天器工程(2014年5期)2014-03-11 16:35:50
基于內(nèi)存的地理信息訪問技術(shù)
龙州县| 孟津县| 英德市| 叙永县| 蒙山县| 通道| 明水县| 花莲市| 陵水| 郎溪县| 历史| 永安市| 延津县| 墨江| 武隆县| 渭南市| 家居| 镇沅| 宾川县| 且末县| 临潭县| 那坡县| 彭州市| 浦城县| 洪泽县| 含山县| 赣榆县| 阿勒泰市| 锦屏县| 缙云县| 双柏县| 专栏| 上虞市| 陆河县| 贡山| 英超| 新干县| 高青县| 湛江市| 上饶县| 安吉县|