蘇 醒,張 璐
(中國移動通信集團(tuán)廣東有限公司東莞分公司,廣東東莞 523129)
一種光傳送網(wǎng)告警分級預(yù)警算法
蘇 醒,張 璐
(中國移動通信集團(tuán)廣東有限公司東莞分公司,廣東東莞 523129)
被動地維護(hù)OTN(光傳送網(wǎng))各網(wǎng)元及其觸發(fā)的告警已無法滿足當(dāng)前復(fù)雜的網(wǎng)絡(luò)管理需求。文章在OTN網(wǎng)絡(luò)管理系統(tǒng)上梳理出影響業(yè)務(wù)的各種重要告警標(biāo)題,結(jié)合業(yè)務(wù)影響關(guān)聯(lián)分析,提出了一種先于故障處理的OTN告警分級預(yù)警算法,為OTN告警分級預(yù)警和快速響應(yīng)調(diào)度提供了有效可行的數(shù)理統(tǒng)計模型和依據(jù)。
光傳送網(wǎng);分級;告警
OTN(光傳送網(wǎng))告警預(yù)警是先于OTN故障處理、主動挖掘網(wǎng)絡(luò)隱患的有效管控機(jī)制。隨著OTN中各種網(wǎng)元及其觸發(fā)的告警大量涌現(xiàn),如何對這些海量告警進(jìn)行有效分析預(yù)判成為網(wǎng)絡(luò)運行管理急需解決的問題。
本文從客戶感知、投訴和網(wǎng)絡(luò)運行安全等維度梳理出影響業(yè)務(wù)的OTN中各類重要告警標(biāo)題,通過運用控制圖工具,統(tǒng)計分析各類重要告警突變量的上下波動受控情況,結(jié)合業(yè)務(wù)影響關(guān)聯(lián)分析,提出一種先于故障處理的OTN告警分級預(yù)警算法。
1.1 工具選擇
OTN告警分級預(yù)警分析的各類全量告警是在一天內(nèi)統(tǒng)計的告警量,即某類全量告警每天只計一個累計數(shù)據(jù),樣本數(shù)據(jù)無需分組,并期望盡快發(fā)現(xiàn)異常并消除異常因素。結(jié)合各種控制圖工具的適用場景進(jìn)行分析[1-2],選取X-Rm(單值-移動極差)控制圖作為OTN告警分級預(yù)警分析工具最為合適。
在X-Rm控制圖中,取樣本空間[X1,X2,…,Xk],k∈(1~n)。各項主要參數(shù)介紹如下[3]:
(2)在單值X的控制圖中,CL(控制中心線)、UCL(控制上界限)和LCL(控制下界限)分別為為標(biāo)準(zhǔn)差,E2為常數(shù)。
(3)在極差Rs的控制圖中,UCL、CL和LCL分別為D4為常數(shù)。
1.2 預(yù)警閾值
OTN告警分級預(yù)警分析中應(yīng)用控制圖的目的是要及時發(fā)現(xiàn)告警突變過程中出現(xiàn)的異常,判斷異常的原則是出現(xiàn)小概率事件,因此選擇X-Rm控制圖中2σ為警戒限(即作為失控狀態(tài)即將來臨的一個警示信號),3σ為控制限,4σ為行動限,即以此作為OTN告警分級預(yù)警分析中3級預(yù)警模型的閾值。
本文以與業(yè)務(wù)影響相關(guān)的各類告警量變化情況作為分析對象,通過各類告警量的歷史收集數(shù)據(jù)搭建分級預(yù)警算法。主要分為如下4個步驟:
(1)告警梳理
根據(jù)客戶感知、客戶投訴和網(wǎng)絡(luò)運行安全等維度,在現(xiàn)網(wǎng)告警標(biāo)題中梳理出OTN傳輸光纜告警、傳輸質(zhì)量告警和傳輸中斷告警等重要告警類型作為本次建模的樣本對象,具體如表1所示。
表1 OTN重要告警標(biāo)題梳理分類
結(jié)合各告警標(biāo)題告警量的疏密程度,選取一年中具有代表性的月份的每日全量告警作為基礎(chǔ)分析數(shù)據(jù)樣本,要求樣本空間不得小于25個。
析出控制圖工具中的各項主要參數(shù),包括各告警標(biāo)題每日全量告警的單值X及其均值(在單值X控制圖中用控制中心線ax表示),相鄰每日全量告警量的極差Rs及其均值(在極差Rs控制圖中用控制中心線aRs表示),各告警標(biāo)題每日全量告警樣本的UCL和LCL(在單值X控制圖中分別用UCLx和LCLx表示),相鄰每日全量告警量極差的UCL和LCL(在極差Rs控制圖中分別用UCLr和LCLr表示)等。為了使告警數(shù)據(jù)更接近正態(tài)化分布,對原數(shù)據(jù)取對數(shù)進(jìn)行分析。
(2)算法實現(xiàn)
根據(jù)步驟(1)析出各重要參數(shù),關(guān)聯(lián)已知故障現(xiàn)狀,剔除已知故障的告警異常突變點,同時采用Dixon檢驗法剔除離群異常數(shù)據(jù),剔除樣本中離其他觀測值較遠(yuǎn)的樣本值。
以傳輸光纜告警中“OLT(光線路終端)檢測不到預(yù)期的光信號”重要告警(即LOS告警)標(biāo)題為例,取該告警標(biāo)題28天全量告警量(宗)作為分析樣本空間。在X-Rm控制圖中,相鄰每日全量告警量的極差Rs控制圖有異樣點(即某天全量告警量為194宗)落在控制限之外,判斷極差Rs控制圖處于不穩(wěn)定未受控狀態(tài),如圖1所示。
圖1 未受控狀態(tài)下極差Rs控制圖
通過Dixon檢驗法判斷和關(guān)聯(lián)已知故障現(xiàn)狀并剔除異常點(即某天全量告警量為194宗),使得相鄰每日全量告警量的極差Rs控制圖和每日全量告警的單值X控制圖均處于穩(wěn)定受控狀態(tài),即Rs和X的樣本值均在上下控制線內(nèi),如圖2所示。
圖2 受控狀態(tài)控制圖
(3)算法關(guān)聯(lián)
極差Rs控制圖和單值X控制圖均處于受控狀態(tài)后,將單值X作為全量告警的預(yù)警模型。采用2σ警戒限、3σ控制限和4σ行動限分別作為三級、二級、一級預(yù)警模型閾值。以O(shè)TN各類重要告警標(biāo)題為例,與業(yè)務(wù)影響相關(guān)的重要告警標(biāo)題及其分級閾值如表2所示。
表2 OTN各類重要告警標(biāo)題及其分級預(yù)警閾值舉例
(4)算法優(yōu)化
OTN告警分級預(yù)警算法是建立在極差Rs控制圖和單值X控制圖均已受控的前提下的。由于選取的樣本空間僅反映了一定時間段內(nèi)各全量告警的變動范圍,當(dāng)網(wǎng)絡(luò)全量告警趨勢變好后,可優(yōu)化趨勢變好的告警預(yù)警閾值。滾動優(yōu)化機(jī)制的觸發(fā)條件建議如下:(1)告警標(biāo)題全量告警連續(xù)5天遞減;(2)告警標(biāo)題全量告警連續(xù)10天在中心線以下;(3)告警標(biāo)題全量告警連續(xù)8天中有7天在2σ警戒限以內(nèi)。
OTN告警分級預(yù)警閾值可在滾動優(yōu)化機(jī)制下做周期性修正。滾動優(yōu)化機(jī)制觸發(fā)條件可結(jié)合網(wǎng)絡(luò)告警的實際情況而定。
現(xiàn)有的對傳輸網(wǎng)絡(luò)告警分析和操作僅限于各網(wǎng)元出現(xiàn)告警和故障后被動地響應(yīng)和調(diào)度,對于告警量突變引起的警戒值往往根據(jù)主觀經(jīng)驗拍出,缺乏一套科學(xué)合理的數(shù)學(xué)建模工具。
本文根據(jù)控制圖統(tǒng)計模型得出了預(yù)警閾值,從而建立了OTN各類告警突變的分級別管控機(jī)制,包括啟動條件、響應(yīng)人員配備、調(diào)度響應(yīng)機(jī)制、處理和閉環(huán)管控等。同時通過預(yù)警模型的后評估環(huán)節(jié),結(jié)合關(guān)聯(lián)告警各類失敗場景、用戶感知(故障、業(yè)務(wù)),優(yōu)化預(yù)警判斷的模型,從而形成網(wǎng)絡(luò)告警預(yù)警閉環(huán)管控體系,如圖3所示。
圖3 OTN各類告警分級預(yù)警閉環(huán)管控機(jī)制流程圖
本文在梳理影響業(yè)務(wù)的OTN各類重要告警標(biāo)題的基礎(chǔ)上,選用控制圖工具,統(tǒng)計分析了各類重要告警異常突變量的上下波動受控情況,建立了重要告警分級預(yù)警算法和模型,為告警預(yù)警和快速響應(yīng)調(diào)度提供了有效可行的數(shù)理統(tǒng)計模型和依據(jù)。
[1] Saniga E M.Joint Economically Optimal Design ofˉX and R Control Charts[J].Management Science,2013,24(4):420-431.
[2] Yeong W C,Khoo M B C,Ou Y,et al.Economic-Statistical Design of the SyntheticˉX Chart with Estimated Process Parameters[J].Quality&Reliability Engineering International,2015,31(5):863-876.
[3] Ghiasabadi A,Noorossana R,Saghaei A.Identifying change point of a non-random pattern on control chart using artificial neural networks[J].The International Journal of Advanced Manufacturing Technology,2013,67(5):1623-1626.
A Graded Early-Warning Algorithm Based Alarms in the Optical Transport Network
SU Xing,ZHANG Lu
(Dongguan Branch,Guangdong Co.,Ltd.,China Mobile Communications Group,Dongguan 523129,China)
At present,passive maintenance of elements and alarms trigged in the Optical Transport Network(OTN)can not meet the requirements of complex network management.In this paper,we propose the graded early-warning algorithm before the fault occurred by sorting out various types of important service-related alarm titles and analyzing the related effects in the OTN management system.The proposed method provides an effective statistical model for early-warning alarm and rapid response scheduling in the OTN.
optical transport network;graded;alarm
TN919.1
A
1005-8788(2016)03-0016-03
10.13756/j.gtxyj.2016.03.006
2016-02-06
蘇醒(1982-),男,江蘇南京人。高級工程師,碩士研究生,主要研究方向為網(wǎng)絡(luò)運行支撐管理。