徐 勇,陸玉軍,張 雷
(1.宿遷供電公司,江蘇宿遷 223800;2.江蘇方天電力技術有限公司,江蘇南京 211102)
通信技術是變電站自動化系統(tǒng)信息傳輸?shù)幕A,所采用的技術必須滿足變電站內(nèi)通訊網(wǎng)絡傳輸時間的要求。在以IEC 61850 標準為基礎實現(xiàn)的智能變電站中,過程層通訊網(wǎng)絡傳輸采樣值SV 報文和通用變電站事件GOOSE 報文信息關系到二次設備的正確采集、處理及控制輸出,影響到一次設備的正確動作和安全運行,信息傳輸?shù)目煽啃?、實時性和安全性要求非常高[1]。
根據(jù)前述要求,在網(wǎng)絡交換機應用方面,往往優(yōu)先采用性能優(yōu)越、高可靠性的品牌工業(yè)交換機,因是網(wǎng)絡核心設備,其可靠性將影響到與網(wǎng)絡交換機連接的多個保護設備正常運行,部分現(xiàn)場甚至不惜重金大量采用。在當前應用中,由于缺少交換機及網(wǎng)絡性能的在線監(jiān)測手段,無法及時獲知交換機內(nèi)部狀態(tài)、接口通訊、網(wǎng)絡流量等實時信息,難以發(fā)現(xiàn)交換機和網(wǎng)絡的異常征兆、無法預估交換機何時會出現(xiàn)故障而影響系統(tǒng)運行安全。雖由交換機或網(wǎng)絡故障引起的保護誤動或拒動的情況不多,但從獲知的智能變電站內(nèi)交換機和網(wǎng)絡異常事件看,開展交換機性能及網(wǎng)絡實時監(jiān)測將有助于幫助發(fā)現(xiàn)運行中的潛在缺陷,并及時采取正確地處理措施。針對異常進行改進,達到優(yōu)化設計、改善性能、減少冗余、簡化配置的目標。
為保證過程層信息傳輸?shù)膶崟r性、可靠性、安全性,在智能變電站內(nèi)一般是將站控層和過程層分網(wǎng)傳輸。并且在過程層網(wǎng)絡設備的選用上,只考慮工業(yè)級、高性能的可網(wǎng)管交換機,而普通的交換機因為不能實現(xiàn)網(wǎng)管的配置應用,即使在智能變電站的站控層中也很少有應用。目前應用較多的交換機品牌有HIRSCHMANN(赫斯曼)、RuggedCom(羅杰康)、MOXA(摩莎)等。
變電站網(wǎng)絡在設計中一般采用雙網(wǎng)、或雙網(wǎng)雙套、或冗余交換機配置,當一個網(wǎng)絡出現(xiàn)故障時,依靠另一網(wǎng)絡的投入保證網(wǎng)絡的可靠運行。
(1)串口管理:通過串口線,主機與交換機提供的菜單控制臺界面或命令行界面進行交互操作。
(2)Web 管理:在主機瀏覽器中輸入交換機管理IP 訪問,但部分網(wǎng)管交換機不支持Web 管理。
(3)網(wǎng)管軟件管理:通過局域網(wǎng),利用主機上安裝的網(wǎng)管軟件訪問交換機。網(wǎng)管軟件有通用型和廠家為自身產(chǎn)品定制的專用型網(wǎng)管軟件,如赫斯曼公司的Hivision、思科公司的Cisco works、華為3Com的IMC等軟件均為專用型。
一般按網(wǎng)絡規(guī)模、設備配置和數(shù)據(jù)傳輸要求,采用報文過濾、環(huán)網(wǎng)冗余技術配置交換機;運行中根據(jù)網(wǎng)絡或交換機設備是否有異常,檢查設備狀態(tài)或調(diào)取故障信息分析;缺陷處理或網(wǎng)絡設備校驗時,使用工具軟件查看內(nèi)部狀態(tài)信息或針對故障查找設備內(nèi)部缺陷[2]。
目前的網(wǎng)絡管理方法是一種被動的管理策略,往往等缺陷暴露后才能發(fā)現(xiàn)問題,易對系統(tǒng)運行造成不利的影響。本文提出采用一種主動的管理方法即實現(xiàn)對交換機運行狀態(tài)、網(wǎng)絡通訊流量等信息的采集,建立對交換機的在線監(jiān)測,通過對數(shù)據(jù)的分析處理,判定是否存在網(wǎng)絡異常或故障、分析定位故障發(fā)生的設備節(jié)點或導致缺陷的緣由,及時提醒監(jiān)控運行維護人員采取主動處理措施的管理方式,防范因設備癱瘓或網(wǎng)絡缺陷而引起的事故。
根據(jù)ISO/IEC 7498-4 中的定義,網(wǎng)絡管理的功能主要分故障管理、計費管理、配置管理、性能管理、安全管理5個方面。而變電站交換機網(wǎng)絡管理從網(wǎng)絡性能監(jiān)測、交換機狀態(tài)監(jiān)測角度采集信息,通過分析處理,實時獲取交換機和網(wǎng)絡性能的狀態(tài),側重性能管理、故障管理。例如通過對通訊數(shù)據(jù)處理可獲得:帶寬占用率高、流量突變、通訊異常等信息。
(1)網(wǎng)絡性能監(jiān)測的信息:交換機端口通訊連接狀態(tài)、輸入輸出流量、帶寬占用率、輸入丟包率、輸入錯誤率,輸出丟包率、輸出錯誤率。
(2)交換機性能監(jiān)測信息:CPU 負荷率、內(nèi)存利用率、內(nèi)部模塊自檢狀態(tài)、電源工作狀態(tài)、工作溫度、交換機風扇狀態(tài),交換機重啟(故障或失電引起)及其他自定義異常事件。
上述需要監(jiān)測的信息位于交換機信息庫MIB 中,通過仔細分析MIB的數(shù)據(jù)存儲結構,發(fā)現(xiàn)變電站交換機性能監(jiān)測的信息主要分布在:端口通訊變量、系統(tǒng)信息變量、內(nèi)部狀態(tài)變量、及故障異常變量等部分[3]。
(1)端口通訊信息。位于交換機MIB庫的Interfaces 子節(jié)點下ifTable的表對象中,對象標識OID為1.3.6.1.2.1.2,這部分包含:端口一般信息,如標記ifIndex、描述ifDescr、類型ifType、速率ifSpeed;端口狀態(tài)信息,如端口管理狀態(tài)up 或down,端口工作狀態(tài)linkup 或linkdown;端口流量信息,如輸入和輸出流量的累計數(shù)據(jù)。
(2)系統(tǒng)信息。位于交換機MIB 庫中的System子節(jié)點下,OID為1.3.6.1.2.1.1,這部分含有:交換機描述、交換機ID、交換機上電時間等信息。如根據(jù)上電時間可發(fā)現(xiàn)交換機是否有宕機或失電現(xiàn)象。
(3)內(nèi)部狀態(tài)信息。位于MIB 庫中的private.enterprises 子節(jié)點下,OID為1.3.6.1.4.1,這部分為廠家私有MIB 信息,需要關注的部分內(nèi)部信息有:交換機系統(tǒng)時間、程序版本、電源狀態(tài),交換機溫度、CPU 負荷率、風扇工作狀態(tài)等信息。由于是設備的內(nèi)部專有信息,需通過廠商的技術資料才能進行解讀。
(4)trap 事件信息。交換機的故障異常信息一般通過trap 命令由網(wǎng)管交換機主動發(fā)給管理主機,SNMPv1 協(xié)議中描述部分故障異常信息:交換機重啟、端口通訊中斷與恢復、及交換機自定義故障異常事件。
前述端口通訊信息為統(tǒng)計數(shù)據(jù),需要處理才可以獲得網(wǎng)絡性能的指標信息。如通過2 次輪詢的數(shù)據(jù)除以輪詢間隔時間,則可得到一段時間的流量信息[4,5]。與網(wǎng)絡通訊相關的統(tǒng)計指標有:
(1)端口流量。以2 次采集的輸入/ 出字節(jié)數(shù)之差反映一段時間內(nèi)端口流量:
式(1—3)中:ΔBin為2 次輸入字節(jié)數(shù)差值;ΔBout為2 次輸出字節(jié)數(shù)差值;ΔT為采集間隔時間。
(2)端口帶寬占用率。以端口速率和流量獲得一段時間帶寬占用率:
式(4)中:Spt為端口速率。
(3)端口通訊包數(shù)。反應一段時間內(nèi)的數(shù)據(jù)包數(shù):
式(5)中:ΔPin,ΔPiu,ΔPinu為輸入包數(shù)、輸入單播包數(shù)、輸入非單播包數(shù),同樣可獲得輸出包數(shù)。
(4)端口錯誤率。反應一段時間內(nèi)的數(shù)據(jù)包的出錯率:
式(6)中:ΔEin為輸入錯誤包,同樣可獲得輸出錯誤率。
(5)端口丟包率。反應一段時間內(nèi)的數(shù)據(jù)包的丟包率:
式(7)中:ΔDin為輸入丟包數(shù),同樣可獲得輸出丟包率。
根據(jù)采集的交換機信息及設定的異常閾值處理,判斷硬件設備的異常,如電源異常、溫度高異常、CPU利用率、內(nèi)存占用率高異常等指標信息均是交換機設備異常的反映。
(1)獲取時間信息。采集獲取交換機的上電時間是自上電后運行至當前時間的累計,不能直觀反應上電時刻,可通過下式獲得:
式(8)中:Tup為上電時間;Tdev為交換機時間;Tsec為交換機上電的秒數(shù)。
交換機端口變位時間是相對系統(tǒng)啟動時間的10 ms 數(shù)據(jù),通過下式獲得端口連斷時間:
式(9)中:Tpt為端口連/斷時間;Tlc為端口變位時間。
如交換機時間與當前時間相差較大,則應以當前時間做依據(jù),否則無法準確獲知端口變位時刻。
整站交換機的監(jiān)測信息量已不少,如不篩選信息來上傳,過多的告警將使運行人員判別處理困難,難以區(qū)分真實的異常。應用采集到的數(shù)據(jù)進一步處理,以設備告警信息、設定閾值越限來判定是否產(chǎn)生網(wǎng)絡異常或故障、通過分析定位故障發(fā)生的環(huán)節(jié),以狀態(tài)信息或告警事件向管理人員或變電站監(jiān)控系統(tǒng)發(fā)送,提醒運行人員采取主動的處理措施。由交換機在線監(jiān)測系統(tǒng)(或監(jiān)控軟件)篩選處理后需上傳的信息如表1 所示。
表1 交換機監(jiān)控上傳信息
變電站實際使用中的交換機由不同廠家、端口數(shù)量不一、多個不同架構的網(wǎng)絡組成,站內(nèi)統(tǒng)一監(jiān)測需能實現(xiàn)上述全部設備的狀態(tài)監(jiān)視,同時含能夠對采集數(shù)據(jù)分析處理、事件或日志查詢等網(wǎng)絡管理應用需要,建立的變電站交換機網(wǎng)絡管理系統(tǒng)具備以下功能模塊:交換機配置管理、通訊采集、數(shù)據(jù)處理、狀態(tài)和數(shù)據(jù)監(jiān)視、告警事件、日志或數(shù)據(jù)查詢等模塊,如圖1 所示。
圖1 交換機監(jiān)測功能模塊
(1)交換機配置管理模塊。針對滿足不同交換機類型、不同廠家、不同接口數(shù)量、不同接口設備、不同網(wǎng)絡結構的交換機進行配置管理的需要,建立交換機統(tǒng)一配置管理模塊,主要實現(xiàn)交換機類型管理、交換機所在網(wǎng)絡管理、交換機通訊信息采集管理、接口數(shù)量及不同接口設備的屬性管理、實現(xiàn)不同交換機MIB 對象信息管理,特別是交換機廠家私有變量信息的管理。
(2)SNMP通訊模塊。交換機的信息均通過SNMP輪詢和trap 事件采集獲得,通訊采集時需兼顧多臺設備的同時通訊及阻塞等問題,因此需為每臺受監(jiān)控的交換機建立“輪詢+trap”的獨立線程管理,使交換機的采集通訊相互獨立,互不影響,保證了信息采集的實時性。實現(xiàn)方法是啟動交換機通訊采集時創(chuàng)建線程,停止采集時關閉創(chuàng)建的線程。
(3)采集數(shù)據(jù)處理模塊。根據(jù)采集的交換機系統(tǒng)信息、端口流量數(shù)據(jù)、內(nèi)部狀態(tài)信息進行處理,獲得與網(wǎng)絡通訊相關的統(tǒng)計指標、與交換機設備異常相關的事件告警、超限告警信息,輸出可直接觀測和便于理解的信息。
(4)數(shù)據(jù)圖形顯示模塊。將交換機的采集數(shù)據(jù)、處理后的數(shù)據(jù)、告警信息事件分類進行顯示,以數(shù)據(jù)及表格、狀態(tài)圖、趨勢圖、告警事件等方式進行展示。
(5)狀態(tài)數(shù)據(jù)輸出模塊。對處理后的交換機及端口信息,建立監(jiān)控信息上傳表,實現(xiàn)告警數(shù)據(jù)上傳,便于實現(xiàn)監(jiān)控統(tǒng)一管理。支持以IEC61850MMS 或IEC104 協(xié)議輸出。輸出的每臺交換機狀態(tài)信息數(shù)據(jù)可查詢、可監(jiān)視。
(6)告警輸出模塊。對所有的操作、通訊事件提供帶時標的詳細告警信息,并按類別、分窗口顯示,告警事件按建立的日志文件可實現(xiàn)多條事件的自動實現(xiàn)存儲,可控制存儲文件大小、和控制日志文件保存的天數(shù)。輸出的告警事件文件可方便查看。告警事件支持選中清除。
根據(jù)前述交換機監(jiān)測分析設計,基于VS2005 開發(fā)套件開發(fā)了以SNMP 通訊協(xié)議實現(xiàn)信息采集、支持多個廠家、不同型號交換機設備、可實現(xiàn)變電站內(nèi)多臺交換機的同時網(wǎng)管在線監(jiān)測軟件。根據(jù)變電站交換機在線監(jiān)測的需要,為交換機監(jiān)測配備了專用的變電站網(wǎng)絡在線監(jiān)測設備,監(jiān)測設備具有豐富的網(wǎng)絡接口和強大的功能,支持多路以太網(wǎng)和光纖的接入,可實現(xiàn)變電站內(nèi)多個不同網(wǎng)絡的同時接入監(jiān)測,避免了不同網(wǎng)絡的級聯(lián)。監(jiān)測的交換機數(shù)量和網(wǎng)絡均可通過配置實現(xiàn),監(jiān)測軟件可適用于任意規(guī)模的變電站交換機的在線監(jiān)測,具有通用性。
鑒于變電站內(nèi)監(jiān)控設備的豐富及另安裝專用監(jiān)測設備的麻煩,本監(jiān)測程序也可運行于基于Windows 平臺的變電站監(jiān)控后臺,或網(wǎng)絡報文記錄分析裝置中。也可作為一個網(wǎng)絡狀態(tài)的檢查分析工具,在現(xiàn)場用調(diào)試筆記本進行交換機實時狀態(tài)信息的檢查維護。
程序采用多線程防阻塞的設計方案,為每臺交換機創(chuàng)建獨有的“SNMP 輪詢+SNMPtrap”通訊線程,控制交換機MIB 信息數(shù)據(jù)采集,避免了單臺交換機管理通訊中斷引起的阻塞問題,保證了數(shù)據(jù)采集、程序處理的實時性和準確性,同時監(jiān)控上傳信息的通訊也采用獨立的線程進行管理。程序采用多文檔框架窗口設計,每臺交換機畫面由單獨子框架窗口管理,子框架視圖采用多畫面分類顯示采集信息、處理信息、告警狀態(tài)、輸出信號,并依據(jù)告警信息類型實現(xiàn)分類管理和綜合存儲,方便查看。支持交換機接口界面的自適應布置,可實現(xiàn)顯示界面的端口布局與實際設備一致。
本項目在蘇北某110 kV 智能變電站現(xiàn)場實現(xiàn)了交換機的監(jiān)測接入,共有站控層3 臺和過程層2 臺交換機在運行中實現(xiàn)了監(jiān)測。現(xiàn)場1 臺過程層交換機的連接監(jiān)測的端口數(shù)據(jù)、流量等變化狀態(tài)信息如圖2、圖3 所示。
圖2 某一時刻交換機端口數(shù)據(jù)
圖3 交換機監(jiān)測的端口流量
圖2 中顯示交換機自上電運行以來16個端口各自的接收(Rx)和發(fā)送(Tx)數(shù)據(jù)字節(jié)數(shù),縱坐標為兆字節(jié)數(shù)(MB),橫坐標為端口標記。
圖3 顯示在監(jiān)測的1000 s時間內(nèi)的流量結果,端口1的平均輸入流量為5.3 kB、輸出流量為2.0 kB、端口總流量<8 kB,帶寬占用率為0.06%(<0.1%)。
通過現(xiàn)場的實際監(jiān)測,發(fā)現(xiàn)現(xiàn)場運行的交換機存在以下問題:
(1)交換機運行時間較短,且多臺交換機上電時間一致,判斷為設備在運行中曾發(fā)生過失電,可能存在直流電源異常,或誤操作。
(2)根據(jù)監(jiān)測端口的上電時間信息,獲知個別端口連接設備存在通訊中斷現(xiàn)象,需進一步排查。
(3)個別交換機的時間不準確,需進行對時。
交換機端口通訊及內(nèi)部狀態(tài)監(jiān)測顯示站控層交換機和過程層GOOSE 交換機的端口數(shù)據(jù)流量均較小,交換機性能顯示正常,變電站的交換機設置和配置未發(fā)現(xiàn)缺陷。
盡管目前變電站內(nèi)采用的交換機可靠性高、出現(xiàn)異常的概率低,但無法徹底避免存在的運行風險,通過本項目的開展可以初步掌握變電站網(wǎng)絡交換機運行中存在的問題,為今后改進網(wǎng)絡設計、提高網(wǎng)絡性能、規(guī)避網(wǎng)絡風險提供一種有益的工具。
[1]高 翔.數(shù)字化變電站應用技術[M].北京:中國電力出版社,2008:93-100.
[2]張小飛.智能變電站網(wǎng)絡應用及測試技術研究[J].江蘇電機工程,2012,31(4):34-38.
[3]杜 凱.基于SNMP的網(wǎng)絡性能監(jiān)測系統(tǒng)的實現(xiàn)[J].計算機與數(shù)字工程,2007,35(2):96-100.
[4]汪升泉.基于SNMP的網(wǎng)絡性能數(shù)據(jù)異常檢測技術研究[D].哈爾濱:哈爾濱工程大學碩士學位論文,2008.
[5]毛 卉.基于SNMP的網(wǎng)絡性能監(jiān)測系統(tǒng)設計[J].湖北電力,2011,35(2):28-30.