,,,,
(國電南自自動化有限公司,南京 211153)
隨著變電站智能化、無人化政策的落地,傳統(tǒng)二次設備運行維護系統(tǒng)(以下簡稱運維)容量已無法滿足數(shù)字化裝置的增長速度,伴隨著國家電網“互聯(lián)網+”“智慧電力”規(guī)劃實施的深入,大量的智能二次設備上線,裝置數(shù)量、轉出信號呈現(xiàn)井噴式增加[1],從而引發(fā)了一系列問題:(1)巡檢任務量成倍增加,運檢人員無法承受;(2)問題反復出現(xiàn),疲于在某幾個變電站間重復檢修,導致其他變電站長時間無人檢修;(3)故障得不到及時解決,只知道故障告警,對可能產生告警的原因無法推斷;(4)二次回路“黑匣子”問題難以智能化運檢,耗費大量人力物力去應付。以上問題的發(fā)生也間接反映出目前傳統(tǒng)運維系統(tǒng)已無法滿足新時期對智能變電站運維的要求。容量單一,轄區(qū)內變電站信號不能統(tǒng)一接入與存儲,不能生成全方位對比分析;計算能力有限,很難在線生成故障問題定位與專家推薦[2]。
針對以上問題,本文提出了一種基于分布式大數(shù)據技術的運維支撐平臺架構方案。利用該架構實現(xiàn)變電站虛擬化、可視化需求;實現(xiàn)監(jiān)測、預警、在線故障定位等業(yè)務需求。在保證系統(tǒng)可靠性、安全性、穩(wěn)定性的基礎上,結合Hadoop開源組件及其他大數(shù)據組件,結合IEC 61970/61968模型擴展技術[3],實現(xiàn)運維主站對智能變電站的數(shù)字化、精細化、智能化運維,實現(xiàn)運維人員在運維主站對所轄變電站的全景把握。
智能化二次設備主站運維涉及的電壓等級多、變電站數(shù)量多,站內涉及的智能化二次設備種類多、數(shù)量也多,而業(yè)務需求要達到板卡、網絡端口級運維,首先面臨的是數(shù)據統(tǒng)一化接入問題,其次是多站數(shù)據并發(fā)阻塞鏈路問題,再次是高并發(fā)數(shù)據量持久化存儲與在線即時查詢問題,而且在不影響業(yè)務需求的情況下要做到系統(tǒng)穩(wěn)定、可靠且具有一定的容錯能力[4]。
站端運維轉變?yōu)橹髡具\維是一種新的運維思路,隨著分布式大數(shù)據技術的成熟,這種人力運維轉變?yōu)闄C器自動化運維成為可能。把傳統(tǒng)業(yè)務需求、站端數(shù)據、平臺框架技術松耦合考慮,發(fā)揮彼此的優(yōu)勢再整合為統(tǒng)一的大數(shù)據運維平臺不失為一個好的思路。
設備統(tǒng)一建模技術是傳統(tǒng)業(yè)務的優(yōu)勢,各種智能電子設備(IED)能力描述(ICD)文件、變電站配置描述(SCD)文件、變電站配置描述語言(SCL)文件等模型文件已經在變電站應用多年,如果把這些模型文件與設備本身物理結構或虛回路物理結構相結合[5],通過抽取相關有用屬性,生成新的模型文件為二次設備運維服務是可能的,而這將能解決站端復雜數(shù)據的統(tǒng)一化接入問題。統(tǒng)一建模后對平臺框架設計而言就不存在變電站與設備的情況,統(tǒng)一歸為帶身份標志(mRid)的一條條信息。模型實例化后變?yōu)閿?shù)據,把數(shù)據從站端生成開始進行全局唯一性身份標志,這樣就實現(xiàn)了數(shù)據與平臺框架的解耦,不管平臺框架如何變化,數(shù)據在自己全生命周期內永遠采用生成時的標志不變,那么數(shù)據就會像血液一樣在平臺內自由流動,產生的每條事件信息就如血液中的細胞一樣,都存在自己的身份標志,平臺將很容易捏取到每一條數(shù)據。例如,獲取220 kV×××變電站××交換機××板卡第3個網口的溫度或流量異常數(shù)據。而血管的粗細與擴張度以及心臟跳動的強度是影響血液流動最重要的兩個因素,這部分將是大數(shù)據技術的優(yōu)勢所在。支持高并發(fā)、高吞吐量的可擴展消息隊列、支持數(shù)據sql查詢、并行內存計算、實現(xiàn)數(shù)據互通功能的Presto、構建數(shù)據倉庫,實現(xiàn)數(shù)據無限存儲的分布式文件系統(tǒng)都是可以選用的[6-7]。
整個大數(shù)據運維平臺的架構過程就像構建人體血液循環(huán)系統(tǒng)一樣,每個App應用就像血液循環(huán)流經的器官,不同的器官利用血液中細胞承載氧氣和營養(yǎng)物質發(fā)揮不同的作用,共同維護人的正常生命特征。
根據1.1中描述的建模、身份標志、數(shù)據中繼、分布式計算與存儲思路,結合分布式系統(tǒng)獨立、分層、區(qū)域自治的架構策略,可以得到如圖1所示的架構方案。
1.2中描述的架構設計層次分明,數(shù)據流向清晰;部件相對獨立,耦合性差;每層關注的重點不一,層與層之間安全隔離[8]。該架構相比傳統(tǒng)運維系統(tǒng)架構有以下優(yōu)點:
根據題意,題目中的函數(shù)定義域為分母不能為0,也就是x>0,所以與題目相關的選項就是A,即只有A選項中的函數(shù)f(x)=lnx定義域為x>0,B中定義域為x不等于0,C選項和D選項中的函數(shù)定義域為實數(shù)集R,所以正確答案為A.
(1)通用性強。平臺框架與數(shù)據分離,只要設備按建模規(guī)范進行建模都可以采用上述架構方案;而傳統(tǒng)運維平臺對不同類型設備各自建模,自建一套數(shù)據流轉,各個系統(tǒng)獨立,數(shù)據無法實現(xiàn)統(tǒng)一存儲與利用。
(2)安全性高。主子站通信除了采用同一套模型外,還要穿透防火墻與縱向加密通信。在數(shù)據進入主站前先經過前置采集再進行正向隔離裝置防護,可以達到限流限速防惡意攻擊的效果。
(3)穩(wěn)定性高。利用消息隊列對大數(shù)據突發(fā)流量進行削峰削谷,解決大數(shù)據量對主站功能部件的沖擊;利用統(tǒng)一訪問接口與數(shù)據中繼部件,有效控制訪問并發(fā)與身份權限,防止個別應用App對資源的浪費,同時引發(fā)某些組件不穩(wěn)定問題。
(4)擴展性好。架構中的任何一個部件都可能根據業(yè)務容量與性能的需求進行動態(tài)擴展,這是分布式架構的特點,也是傳統(tǒng)運維平臺無法實現(xiàn)的。
(5)容災與備份能力強。系統(tǒng)在穩(wěn)定運行過程中,個別節(jié)點出現(xiàn)宕機現(xiàn)象或硬件損壞不影響整個系統(tǒng)的運行。分布式系統(tǒng)采用多副本機制,自帶備份功能。
子站端只需處理統(tǒng)一建模,子站與前置之間主要解決主子站通信,前置采集服務層主要進行負載均衡與數(shù)據規(guī)整和分發(fā),正向隔離裝置阻斷主子站間的安全隱患,大數(shù)據采集消息隊列解決突發(fā)數(shù)據對整個平臺的流量沖擊與分離業(yè)務數(shù)據的作用,基于Presto的快速查詢引擎實現(xiàn)平臺組件的高內聚使用與數(shù)據的無障礙流轉[9],統(tǒng)一服務接口層解決高并發(fā)訪問問題,應用層可以打造統(tǒng)一的應用軟件架構降低開發(fā)成本與時間,從而實現(xiàn)區(qū)域自治的策略應用。
特定領域的大數(shù)據平臺與傳統(tǒng)通用大數(shù)據平臺有很多差異之處。比如,本系統(tǒng)中的智能變電站二次設備運維平臺結合了站端設備建模技術,把靜態(tài)設備虛擬化后存入大數(shù)據平臺,通過建模規(guī)則在平臺實現(xiàn)設備的動態(tài)化,賦予設備新的生命,加速其在業(yè)務端的支撐能力;同時,對流入平臺的任何一個信號賦予全局的唯一性標志,再實現(xiàn)虛擬信號到現(xiàn)實信號的轉化。這種基于信號本身自下而上的建模、存儲、計算、應用一體化架構方案使得系統(tǒng)有規(guī)可循,在不失靈活性的基礎上實現(xiàn)了信號本身應用價值的提升。
圖1 平臺架構Fig.1 Platform architecture
從設備制造階段開始,經過系統(tǒng)集成完成主子站統(tǒng)一化建模標準[10]。以IED為對象,在設備制造端根據ICD文件加IPD文件生成統(tǒng)一虛實對應的變電站物理信息全景模型,再在系統(tǒng)集成階段融入SCD(IEC61850邏輯回路模型)文件和SPCD(物理回路模型)文件生成統(tǒng)一的公共信息模型(CIM)映射文件,實例化身份標志后生成模型描述規(guī)范語言(CIM/E)格式的主子站交互模型文件(如圖2所示),此模型設計遵循IEC 61970/61978規(guī)范[11-12]。
圖2 主子站交互模型CIM/E文件Fig.2 CIM/E file of master station and slave station interaction model
一體化建模規(guī)則解決了物理設備、虛回路、信號點到虛擬系統(tǒng)的映射和統(tǒng)一數(shù)據接入問題,但無法解決數(shù)據的全域身份標志問題。把大數(shù)據運維平臺(主站)當作身體,那么數(shù)據就是流動的血液,每個網口、板卡、網口流量等好比血液中的細胞,都應該有自己的身份標志,當細胞出現(xiàn)問題時,才能被平臺感知,精確定位,達到精細化運維的目的。
圖3 全局唯一性身份識別碼Fig.3 Globally unique identification code
如圖3全局唯一性編碼規(guī)范所示,定制一套信息編碼規(guī)范數(shù)據字典,通過數(shù)據字典構建統(tǒng)一的全局身份標志。區(qū)域編碼參考國家出版的行政區(qū)域編碼,分隔標志符采用“$”格式,廠站標志有運維公司統(tǒng)一分發(fā),電壓等級標志按實際電壓等級進行數(shù)字編碼,間隔、小室、屏柜采用統(tǒng)一編碼,設備標志采用設備出廠碼,板卡標志采用板卡號,測點標示根據測點類型.測點名稱進行字典編碼,比如MX.LigIntes1R描述為自測量第1個光口的收功率,可以用Event標志事件、Alm標志告警等,實例號標志為數(shù)字編碼,比如圖3的實例號1表示為第1塊CC板。
分隔符用“$”標志,可以滿足對每個域的靈活編碼,生成的身份標志碼采用字符串類型進行系統(tǒng)全局使用??紤]到數(shù)據上送過程中冗余數(shù)據太多,占用帶寬太大,影響整個系統(tǒng)數(shù)據的采集、存儲與查詢效率,在主子站交互模型中生成的身份編碼刪除了設備編碼標志前的編碼,刪除的部分作為基礎數(shù)據保存在關系模型庫中。
全局唯一性編碼標志作為數(shù)據采集(上送)的key(主鍵),Value(值)采用易于擴展的Json格式。
Presto是專門為大數(shù)據實時查詢計算而設計和開發(fā)的并行內存計算產品,彌補了Hive實時查詢的空白。無論是對多數(shù)據源的支持,還是易用性、高性能、可擴展性等方面,Presto都是大數(shù)據實時查詢計算產品中的佼佼者,它具有多數(shù)據源、支持 SQL、混合性計算、高性能、流水線等特點,并且具有很好的擴展性[13]。
智能變電站二次設備在線故障運維平臺采用Presto大數(shù)據搜索引擎作為平臺數(shù)據中繼主要有以下方面的考慮。
(1)Presto大數(shù)據查詢引擎可以非常容易地連接消息隊列Kafka、內存數(shù)據庫Redis、關系模型庫Mysql及數(shù)據倉庫Hive,這些組件是構建智能變電站二次設備在線故障運維平臺的主干,具有不可替代的作用?;赑resto catalog配置可以平滑地實現(xiàn)跨組件、跨庫統(tǒng)一接口訪問,實現(xiàn)數(shù)據在彼此間的無任何阻礙流轉。
(2)Presto組件是Facebook開發(fā)出來專門解決Hive查詢效率低問題的,是Hive的升級版本,查詢效率是Hive的10倍以上,且有京東、美團等大公司商業(yè)化應用[14],穩(wěn)定可靠,切合在線故障運維業(yè)務的需求,能在用戶可接受的時間內實現(xiàn)數(shù)據的查詢與流轉。
(3)Presto大數(shù)據查詢引擎可以作為消息中間件Kafka的查詢引擎,通過配置文件的方式可以使消息進行結構化,利用sql完成查詢與計算,對于故障事件發(fā)生前后6 s內的時間有序消息序列的獲取起到非常關鍵的作用,可以滿足故障事件還原的業(yè)務需求。同時,由于數(shù)據域確定,數(shù)據量較少,可以基于Kafka的存儲功能實現(xiàn)T+0業(yè)務與即時查詢業(yè)務的快速響應。
(4)解決大數(shù)據量并發(fā)接入與即時存儲速度不匹配的問題。系統(tǒng)雖然采用周期+突發(fā)數(shù)據上送方式,也無法避免隨時的數(shù)據阻塞問題,追其根源是高并發(fā)高吞吐量的消息隊列與hadoop分布式文件系統(tǒng)(HDFS)寫入能力不匹配問題,大量的故障告警事件擁堵在消息組件中無法實現(xiàn)持久化,就會導致數(shù)據無法使用。當App得到故障告警通知后進行故障事件還原時查詢不到數(shù)據,嚴重影響了系統(tǒng)的可靠性。
(5)解決Hive查詢中partition分區(qū)失效問題。對于傳統(tǒng)大數(shù)據系統(tǒng)而言,事件發(fā)生時的時間戳為數(shù)據進入平臺時的平臺時間,而智能變電站二次設備維護對故障告警的時間戳具有嚴格的時間序列性,這就導致數(shù)據必須采用站端監(jiān)控系統(tǒng)的時間戳;由于網絡環(huán)境等原因導致數(shù)據延遲上送或跨天數(shù)據分區(qū)時,就會導致本應該在今天分區(qū)中的數(shù)據跑到了明天的分區(qū)中,直接導致Hive查詢效率大幅降低;系統(tǒng)對處理時間的不可控性導致在線業(yè)務的不穩(wěn)定,從而影響整個系統(tǒng)的穩(wěn)定性。
以上5點奠定了Presto技術在智能變電站二次設備在線故障運維平臺中作為數(shù)據中繼的可行性與可用性。
故障檢測與告警、故障事件還原、檢修策略推薦是智能變電站二次設備運維中最核心的業(yè)務需求?;诒疚奶岢龅拇髷?shù)據運維架構來實現(xiàn)整個自動化的過程如圖4所示。
圖4 故障定位與檢修策略Fig.4 Fault location and maintenance strategy
(1)劃分告警級別,確定故障告警。當故障發(fā)生時,站端采集系統(tǒng)(監(jiān)控系統(tǒng))對告警事件進行突發(fā)上送至消息隊列Kafka存儲(存儲最近2天的周期+突發(fā)數(shù)據)。
(2)Consumer(實時消費App)拉取Kafka消息主題(Topic)中的數(shù)據進行按等級過濾,過濾出故障告警事件后推送給消息內存庫Redis。
(3)應用App訂閱內存庫Redis中的信息通道,獲取故障告警事件推送給用戶,同時調用故障事件還原服務接口通過Presto數(shù)據查詢引擎獲取故障告警前后6 s的本站及相關站所有告警數(shù)據返回App。同時,復制一份數(shù)據存儲到數(shù)據倉庫中作為檢修決策分析樣本源數(shù)據。
(4)調用機器學習服務接口,把分析樣本數(shù)據與專家知識庫中的訓練結果集進行分析,通過決策樹算法找出導致故障發(fā)生的可能原因,再通過關聯(lián)分析算法找出支持度與置信度最高數(shù)據集作為專家推薦內容推送給檢修人員。
以業(yè)務為目標,把傳統(tǒng)系統(tǒng)中的子系統(tǒng)設計為服務接口的方式,根據業(yè)務需求通過“順序調用,異步返回”的方式在一個應用App中在線完成從故障告警到事件還原再到檢修策略的業(yè)務需求。
在本文中,提出了對智能變電站二次設備本身建模的方法,并實現(xiàn)了主子站一體化交互模型;提出了對二次設備全生命周期身份標志方案,實現(xiàn)了數(shù)據從子站到運維主站的全域標志,支撐了自動化、精細化、智能化運維業(yè)務,降低了運維成本;找到了開源大數(shù)據組件在智能變電站運維業(yè)務中的實際應用場景,通過工程證明其切實實現(xiàn)了傳統(tǒng)運維系統(tǒng)無法實現(xiàn)的大數(shù)據統(tǒng)一接入、實時大數(shù)據量分析與數(shù)據挖掘算法的應用等功能。本文中并沒有對每一個技術細節(jié)展開描述,主要集中在業(yè)務到架構的演變過程,提出了一些可行的方法和方案,難免存在不足之處,但可以在此平臺架構基礎上擴展到光伏電站、風電站等運維平臺。