摘 要
近幾年,隨著科技的迅速發(fā)展,人們不管在生活還是生產(chǎn)上都離不開網(wǎng)絡(luò)。網(wǎng)絡(luò)涉及到工業(yè)生產(chǎn)、國防、教育、生活等方面。所以網(wǎng)絡(luò)的管理尤為重要。為保證網(wǎng)絡(luò)的正常運(yùn)行,需要為其設(shè)置故障防御及管理系統(tǒng)。本文以網(wǎng)絡(luò)故障預(yù)測(cè)與健康管理的系統(tǒng)設(shè)計(jì)為例,詳細(xì)闡述在設(shè)置時(shí)的關(guān)鍵技術(shù)。
【關(guān)鍵詞】網(wǎng)絡(luò)故障 預(yù)測(cè) 健康管理 關(guān)鍵技術(shù)
互聯(lián)網(wǎng)已成為社會(huì)生活和工作的必需品,網(wǎng)絡(luò)在運(yùn)行中的各部分組成設(shè)備,如路由器、主機(jī)等日益增加,其功能在提升的同時(shí),也加大了網(wǎng)絡(luò)的管理難度。而網(wǎng)絡(luò)設(shè)備的健康運(yùn)行對(duì)整個(gè)網(wǎng)絡(luò)系統(tǒng)有著至關(guān)重要的影響。因此,在網(wǎng)絡(luò)的日常運(yùn)行中,需要能夠維護(hù)網(wǎng)絡(luò)正常運(yùn)行,且在出現(xiàn)故障后能夠迅速反應(yīng),準(zhǔn)確定位故障發(fā)生環(huán)節(jié),并排除故障的系統(tǒng)。這是目前網(wǎng)絡(luò)維護(hù)和管理工作者的核心任務(wù)。
1 網(wǎng)絡(luò)故障預(yù)測(cè)與健康管理綜述
網(wǎng)絡(luò)的故障預(yù)測(cè)和健康管理(PHM)技術(shù)是作為實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備基于狀態(tài)的維修、自主式保障、感知與響應(yīng)后勤等新思想、新方案的關(guān)鍵技術(shù),也是一門新興綜合性交叉學(xué)科。故障預(yù)測(cè)和健康管理有兩層含義:意識(shí)故障預(yù)測(cè),即預(yù)先診斷設(shè)備或系統(tǒng)完成各自功能時(shí)的狀態(tài),確定設(shè)備正常工作的時(shí)間長度;另一方面是健康管理,即根據(jù)診斷或預(yù)測(cè)到的設(shè)備信息、可用資源和使用需求對(duì)維修活動(dòng)作出適當(dāng)決策能力。而網(wǎng)絡(luò)故障預(yù)測(cè)與健康管理技術(shù)在設(shè)計(jì)上將傳統(tǒng)的基于傳感器的診斷轉(zhuǎn)向基于智能系統(tǒng)預(yù)測(cè),為準(zhǔn)確而主動(dòng)的維護(hù)網(wǎng)絡(luò)正常運(yùn)行提供了技術(shù)基礎(chǔ)。
在網(wǎng)絡(luò)的故障預(yù)測(cè)和健康管理技術(shù)中,使用當(dāng)前最新科技技術(shù)為基點(diǎn),結(jié)合現(xiàn)下網(wǎng)絡(luò)健康程度、特征等歷史數(shù)據(jù),收集與系統(tǒng)屬性有關(guān)的各類設(shè)備運(yùn)行參數(shù),將這些參數(shù)和系統(tǒng)健康做關(guān)聯(lián),對(duì)系統(tǒng)進(jìn)行檢測(cè)、分析。對(duì)網(wǎng)絡(luò)系統(tǒng)未來時(shí)刻的運(yùn)行狀態(tài)進(jìn)行預(yù)測(cè),便于在故障發(fā)生之前,能夠采取有效措施保障網(wǎng)絡(luò)的正常運(yùn)行。為更直觀地闡述網(wǎng)絡(luò)故障預(yù)測(cè)與健康管理的關(guān)鍵技術(shù)。本文涉及網(wǎng)絡(luò)設(shè)備的PHM系統(tǒng),同時(shí)采用模塊化設(shè)計(jì),通過四個(gè)功能層次,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備故障預(yù)測(cè)與健康管理。
2 故障預(yù)測(cè)與健康管理系統(tǒng)的設(shè)計(jì)
2.1 網(wǎng)絡(luò)故障預(yù)測(cè)系統(tǒng)的設(shè)計(jì)要求
在設(shè)計(jì)故障預(yù)測(cè)與健康管理系統(tǒng)時(shí),系統(tǒng)需要實(shí)現(xiàn)以下要求:
(1)在故障預(yù)測(cè)與健康管理系統(tǒng)中的診斷環(huán)節(jié),需要以網(wǎng)絡(luò)管理系統(tǒng)所提供的警報(bào)信息為基礎(chǔ),通過SNMP模塊接收設(shè)備警告,將來自網(wǎng)絡(luò)系統(tǒng)中不同的運(yùn)行設(shè)備放入警報(bào)信息轉(zhuǎn)換為標(biāo)準(zhǔn)的、可識(shí)別的格式,存儲(chǔ)到警報(bào)信息數(shù)據(jù)庫中,對(duì)于故障警報(bào)信息將觸發(fā)故障預(yù)測(cè)和診斷,對(duì)于數(shù)據(jù)庫中的歷史數(shù)據(jù)進(jìn)行重新梳理分析。一旦發(fā)現(xiàn)故障模式,就會(huì)不斷完善故障診斷信息庫,為診斷故障累積“經(jīng)驗(yàn)”,便于后期檢測(cè)出同樣故障時(shí)及時(shí)調(diào)出處理。
(2)在系統(tǒng)中的診斷實(shí)施流程就是收集網(wǎng)絡(luò)運(yùn)行設(shè)備的性能的關(guān)鍵參數(shù),對(duì)于參數(shù)預(yù)處理后進(jìn)行合理的健康評(píng)估,再通過故障診斷方法對(duì)網(wǎng)絡(luò)設(shè)備故障進(jìn)行診斷和預(yù)測(cè)。系統(tǒng)中,此技術(shù)將診斷經(jīng)驗(yàn)學(xué)習(xí)、累積和診斷的實(shí)施相互結(jié)合,互為補(bǔ)充,從而提高網(wǎng)絡(luò)系統(tǒng)故障預(yù)測(cè)的可靠性和準(zhǔn)確性,降低預(yù)測(cè)的誤差。
2.2 關(guān)鍵技術(shù)
網(wǎng)絡(luò)故障預(yù)測(cè)與健康管理的關(guān)鍵技術(shù)從信息的收集、系統(tǒng)數(shù)據(jù)的處理、故障診斷與預(yù)測(cè)的技術(shù)、健康評(píng)估與管理等四個(gè)方面入手。詳解如下:
2.2.1 網(wǎng)絡(luò)設(shè)備運(yùn)行信息的收集
在故障預(yù)測(cè)與健康管理系統(tǒng)中,利用系統(tǒng)的預(yù)測(cè)模型對(duì)收集到的網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)信息進(jìn)行分析和預(yù)測(cè)。故障預(yù)測(cè)和健康管理系統(tǒng)主要是將網(wǎng)絡(luò)運(yùn)行中的所有設(shè)備數(shù)據(jù)進(jìn)行采集,在此過程中,為了減少通信的數(shù)量,需要選擇對(duì)網(wǎng)絡(luò)設(shè)備運(yùn)行轉(zhuǎn)臺(tái)影響較大的參數(shù)量。比如網(wǎng)絡(luò)設(shè)備的運(yùn)行時(shí)間、系統(tǒng)運(yùn)行時(shí)的溫度變化、計(jì)算機(jī)CPU的最大利用率、內(nèi)存的存儲(chǔ)量、通信端口等對(duì)設(shè)備的運(yùn)行狀態(tài)影響較大的數(shù)據(jù)。以上幾組變量可以反映設(shè)備的健康狀態(tài),因此在設(shè)計(jì)時(shí),選用其作為預(yù)測(cè)模型的參數(shù)量。
在設(shè)計(jì)之時(shí),經(jīng)過團(tuán)隊(duì)研究,提出五點(diǎn)研究假設(shè):
(1)網(wǎng)絡(luò)設(shè)備的運(yùn)行時(shí)間越趨近于或者超過發(fā)生故障的周期,系統(tǒng)認(rèn)為發(fā)生故障的可能性就越大。
(2)網(wǎng)絡(luò)系統(tǒng)的運(yùn)行溫度越高,被認(rèn)為發(fā)生故障的可能性就越高。
(3)計(jì)算機(jī)CPU子運(yùn)行時(shí)的利用率越高,被認(rèn)為發(fā)生故障的機(jī)率就越大。
(4)在計(jì)算機(jī)運(yùn)算時(shí)的內(nèi)存存儲(chǔ)量越大,認(rèn)為發(fā)生故障的可能性越大。
(5)通信端口的丟包率、誤碼率越高,認(rèn)為發(fā)生故障的可能性越大。
提出五點(diǎn)假設(shè)后,系統(tǒng)的主要研究過程就圍繞以上五點(diǎn)操作。同時(shí)在系統(tǒng)運(yùn)行過程中,設(shè)備信息的收集時(shí)間間隔也比較重要。當(dāng)收集的周期較短時(shí),可以迅速發(fā)現(xiàn)設(shè)備的異常,更有利于維護(hù)網(wǎng)絡(luò)的正常運(yùn)行。但同時(shí)也存在缺陷,即在頻繁的信息收集所占用設(shè)備和系統(tǒng)的有效資源,加重了系統(tǒng)運(yùn)行的負(fù)擔(dān)。當(dāng)收集數(shù)據(jù)的周期較長時(shí),數(shù)據(jù)量會(huì)比較少,對(duì)系統(tǒng)的負(fù)擔(dān)小,但是不能及時(shí)發(fā)現(xiàn)并解決故障問題,對(duì)于網(wǎng)絡(luò)系統(tǒng)中的突發(fā)狀況不能及時(shí)作出響應(yīng)。所以在實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)中,將系統(tǒng)數(shù)據(jù)收集的間隔時(shí)間設(shè)置為5-6分鐘。
2.2.2 系統(tǒng)數(shù)據(jù)的處理
系統(tǒng)在進(jìn)行運(yùn)行數(shù)據(jù)的收集時(shí)有可能會(huì)出現(xiàn)差錯(cuò),這時(shí)就需要對(duì)差錯(cuò)數(shù)據(jù)進(jìn)行過濾處理。首先需要去除超出系統(tǒng)取值范圍的數(shù)據(jù)變化量,然后結(jié)合數(shù)據(jù)關(guān)聯(lián)分析的結(jié)果,再去除不合理的運(yùn)行數(shù)據(jù),如流入設(shè)備的網(wǎng)絡(luò)計(jì)算流量和流出的網(wǎng)絡(luò)計(jì)算流量要保持基本的平衡,如果某一方流量特別大,可能就是數(shù)據(jù)出現(xiàn)誤差。同時(shí),系統(tǒng)還要對(duì)所收集到的數(shù)據(jù)進(jìn)行同化處理,比如在網(wǎng)絡(luò)系統(tǒng)中的通信端口,一般會(huì)將此環(huán)節(jié)流量轉(zhuǎn)化為實(shí)際帶寬占用比、端口誤碼率、丟包率等參數(shù),而內(nèi)存的存儲(chǔ)會(huì)轉(zhuǎn)化為占用率等,這樣處理可以便于系統(tǒng)自動(dòng)分析。最后再通過將所有收集的數(shù)據(jù)進(jìn)行融合,對(duì)不同途徑收集的數(shù)據(jù)進(jìn)行融合分析,如通過對(duì)SNMP收集的數(shù)據(jù)與監(jiān)控?cái)?shù)據(jù)、系統(tǒng)日志等融合,保證系統(tǒng)數(shù)據(jù)庫內(nèi)數(shù)據(jù)的質(zhì)量,去除錯(cuò)誤的,彌補(bǔ)系統(tǒng)不足之處。
2.2.3 故障診斷與預(yù)測(cè)
系統(tǒng)中的故障診斷與預(yù)測(cè)是通過對(duì)網(wǎng)絡(luò)設(shè)備在日常運(yùn)行的狀態(tài)、近期的健康運(yùn)轉(zhuǎn)程度、當(dāng)前所收集到的參數(shù)量等,通過對(duì)以上數(shù)據(jù)進(jìn)行診斷和預(yù)測(cè)的計(jì)算出結(jié)果,以此判斷出網(wǎng)絡(luò)系統(tǒng)在運(yùn)行時(shí)是否存在故障現(xiàn)象或可能出現(xiàn)的問題。在診斷預(yù)測(cè)技術(shù)中采用了網(wǎng)絡(luò)神經(jīng)波動(dòng)、灰色模型、向量機(jī)等機(jī)器的計(jì)算方法。其中網(wǎng)絡(luò)神經(jīng)波動(dòng)的計(jì)算方式是風(fēng)險(xiǎn)最小的,其需要足夠大的樣本數(shù)據(jù),在模型的推廣能力上較差。而向量化是保證模型最大計(jì)算能力,較好地解決了小樣本、網(wǎng)絡(luò)非線性和維數(shù)等實(shí)際操作問題,但存在一定的限制,比如在故障診斷時(shí),不能確定信息從而影響處理的效果。所以為保障故障預(yù)測(cè)技術(shù)的正常工作,本次設(shè)計(jì)的系統(tǒng)采用的是累積和控制算法(CUSUM),此計(jì)算方式是通過對(duì)檢測(cè)到的統(tǒng)計(jì)平均值的變化,從而判斷出結(jié)果。累積和控制算法常被運(yùn)用到工業(yè)聲場(chǎng)的監(jiān)控中,因?yàn)榇怂惴ň哂杏?jì)算量小、檢測(cè)迅速、操作簡(jiǎn)單等優(yōu)點(diǎn),不需要故障的樣本就可以進(jìn)行診斷。
在基于累積和控制算法的診斷技術(shù)中,當(dāng)序列值超過定閾值時(shí),網(wǎng)絡(luò)系統(tǒng)發(fā)生異常,檢測(cè)系統(tǒng)便會(huì)發(fā)出警報(bào)。而決定累積和控制算法的參數(shù)是信念值和門限值。門限值的取值和序列特征的取值上限有關(guān),系統(tǒng)應(yīng)該在序列值達(dá)到上限之前就會(huì)發(fā)出警報(bào),或者在允許的上限運(yùn)行時(shí)間內(nèi)報(bào)警,其也可以通過上限計(jì)算得到,并保證正常的運(yùn)行。在運(yùn)行過程中,上限值需要根據(jù)設(shè)備的狀態(tài)及時(shí)進(jìn)行調(diào)整,當(dāng)發(fā)生錯(cuò)誤的報(bào)警時(shí),可以適當(dāng)調(diào)節(jié)其值的變化,以消除錯(cuò)誤警報(bào),還能通過調(diào)整值變改變系統(tǒng)的敏感度。
在使用累積和控制算法的過程中,還需要考慮到其特殊性,因?yàn)樵谶M(jìn)行系統(tǒng)異常檢測(cè)的過程中容易產(chǎn)生累積和效應(yīng)問題,系統(tǒng)從異?;謴?fù)到正常水平時(shí),常會(huì)因?yàn)槔鄯e數(shù)據(jù)值的高度出現(xiàn)誤報(bào)。解決這種問題的有效方法是將不再增加超過門限值的累積數(shù)據(jù),等待恢復(fù)后降低其累積值,以消除誤報(bào)。
2.2.4 健康評(píng)估和管理
設(shè)計(jì)的系統(tǒng)中健康管理板塊是根據(jù)檢測(cè)算法的結(jié)果進(jìn)行判斷網(wǎng)絡(luò)的運(yùn)行狀態(tài),對(duì)于運(yùn)行不佳的設(shè)備將安排專業(yè)技術(shù)人員進(jìn)行檢查。在故障期間,系統(tǒng)將采取調(diào)整網(wǎng)絡(luò)的基本配置、利用備份的設(shè)備,重新構(gòu)建新的網(wǎng)絡(luò)運(yùn)轉(zhuǎn)系統(tǒng),以此保障網(wǎng)絡(luò)的聯(lián)通性,避免癱瘓。同時(shí),系統(tǒng)通過對(duì)監(jiān)控信息和系統(tǒng)日志記錄的信息進(jìn)行分析和判斷,健康評(píng)估檢測(cè)版塊,對(duì)新故障及歷史誤報(bào)、漏報(bào)的樣本進(jìn)行重新梳理、判斷,以此修正和建立完善的診斷計(jì)算環(huán)節(jié)。
在設(shè)計(jì)完善后,對(duì)所設(shè)計(jì)的網(wǎng)絡(luò)故障預(yù)測(cè)與健康管理系統(tǒng)進(jìn)行檢驗(yàn),發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)系統(tǒng)中出現(xiàn)CPU使用率較高或者溫度上升等情況時(shí),CPU的使用率并沒有達(dá)到警報(bào)的標(biāo)準(zhǔn),但是溫度值卻發(fā)生異常。所以實(shí)驗(yàn)結(jié)果是溫度值的變化會(huì)造成系統(tǒng)異常,溫度變化可以作為檢測(cè)網(wǎng)絡(luò)異常的重要依據(jù)。
3 結(jié)束語
在網(wǎng)絡(luò)系統(tǒng)的故障預(yù)測(cè)和健康管理設(shè)計(jì)中,首先要明確所診斷和預(yù)測(cè)的標(biāo)準(zhǔn),以及系統(tǒng)所實(shí)現(xiàn)的目標(biāo),再據(jù)此制定合理的監(jiān)管系統(tǒng)。
參考文獻(xiàn)
[1]彭宇,劉大同,彭喜元.故障預(yù)測(cè)與健康管理技術(shù)綜述[J].電子測(cè)量與儀器學(xué)報(bào),2010(01):1-9.
[2]李瑞瑩,康銳.基于神經(jīng)網(wǎng)絡(luò)的故障率預(yù)測(cè)方法[J].航空學(xué)報(bào),2008(02):357-363.
[3]許麗佳,王厚軍,龍兵.基于貝葉斯網(wǎng)絡(luò)的復(fù)雜系統(tǒng)故障預(yù)測(cè)[J].系統(tǒng)工程與電子技術(shù),2008(04):780-784.
[4]張持晨.基于網(wǎng)絡(luò)的社區(qū)居民健康管理模式研究[J].科技創(chuàng)新與生產(chǎn)力,2011(07):54-55+58.
作者簡(jiǎn)介
祝旭(1982-),男,湖南省益陽市人。碩士學(xué)位。現(xiàn)為湖南工業(yè)職業(yè)技術(shù)學(xué)院講師。研究方向?yàn)榫W(wǎng)絡(luò)管理、軟件工程、大數(shù)據(jù)。
作者單位
湖南工業(yè)職業(yè)技術(shù)學(xué)院 湖南省長沙市 410208