秦浩 趙永生 江和順 梅戰(zhàn)旗 魏希文 吳少雄
關(guān)鍵詞:NLP技術(shù);智能分析;用電網(wǎng)絡(luò);高維度電力數(shù)據(jù)分析;電網(wǎng)停電數(shù)據(jù)
在互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展的環(huán)境下,電力設(shè)備能否正常運(yùn)行給智能電網(wǎng)、電力用戶、工作等造成重要影響,給電力企業(yè)用戶造成無(wú)法衡量的損失。伴隨著電網(wǎng)信息技術(shù)的發(fā)展,產(chǎn)生了大量的電網(wǎng)信息數(shù),尤其是造成停電原因的數(shù)據(jù),如果電網(wǎng)用戶能夠恰當(dāng)?shù)貙ふ彝k姅?shù)據(jù)信息,將在一定程度上挽回企業(yè)損失。停電的因素有很多,諸如無(wú)法抗拒的自然界外力因素,電力設(shè)備故障因素,在電網(wǎng)技術(shù)中電力需求側(cè)的供需失衡遭到破壞、人為蓄意地破壞、管理不足等方面。在較大的電網(wǎng)系統(tǒng)中,提供配電網(wǎng)的可靠性和穩(wěn)定性就需要一種分析智能電網(wǎng)停電的方法。
傳統(tǒng)技術(shù)中的分析方法通過(guò)檢測(cè)設(shè)備來(lái)衡量,這種方法檢測(cè)效果差,技能落后,已經(jīng)很難滿足現(xiàn)有電力、電網(wǎng)技術(shù)發(fā)展的需要。這就急需一種快速分析方法來(lái)克服上述技術(shù)的不足。本文引用一種中文搜索的方法引擎,能夠快速、便捷地提高停電原因分析,優(yōu)化提取配置配電網(wǎng)電力參數(shù)項(xiàng)目的智能化方式。針對(duì)停電原因信息的特點(diǎn),采用基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練(NLP)的智能電網(wǎng)信息提取模型,并在該模型的基礎(chǔ)上,采用關(guān)聯(lián)度匹配的檢測(cè)方法實(shí)現(xiàn)配電網(wǎng)項(xiàng)目關(guān)鍵指標(biāo)的大數(shù)據(jù)的重新勾畫(huà),然后采用大數(shù)據(jù)關(guān)聯(lián)算法規(guī)則挖掘的方法對(duì)電力配電網(wǎng)中的關(guān)鍵指標(biāo)數(shù)據(jù)進(jìn)行有用信息的提取,然后再結(jié)合NLP深度學(xué)習(xí)算法對(duì)配電網(wǎng)項(xiàng)目關(guān)鍵指標(biāo)特征進(jìn)行自適應(yīng)學(xué)習(xí)和誤差補(bǔ)償。
1整體架構(gòu)設(shè)計(jì)
基于互聯(lián)網(wǎng)技術(shù)集成NLP技術(shù),融人大數(shù)據(jù)降維技術(shù)PCA和聚類分析技術(shù),在系統(tǒng)中設(shè)定Python等高級(jí)語(yǔ)言,進(jìn)而構(gòu)設(shè)出整體構(gòu)架框圖,其架構(gòu)設(shè)計(jì)圖如圖1所示。在圖1中,架構(gòu)圖包括電力設(shè)備層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層和數(shù)據(jù)應(yīng)用層。在電力設(shè)備層中,布局有多種電力設(shè)備傳感器,通過(guò)各種傳感器設(shè)備實(shí)現(xiàn)對(duì)電網(wǎng)與用電設(shè)備的電流、電壓、功率、頻率等相關(guān)數(shù)據(jù)的采集,采集到的數(shù)據(jù)通過(guò)路由器進(jìn)行數(shù)據(jù)上傳。在數(shù)據(jù)存儲(chǔ)層中,根據(jù)數(shù)據(jù)的不同種類,按照用電數(shù)據(jù)信息、停電數(shù)據(jù)信息、故障數(shù)據(jù)信息等各種標(biāo)準(zhǔn)進(jìn)行分類存儲(chǔ)。在數(shù)據(jù)分析層中,通過(guò)NLP技術(shù)對(duì)存儲(chǔ)信息進(jìn)行分析,其中分析方法包括大數(shù)據(jù)降維處理分析法、聚類分析法,和數(shù)據(jù)的預(yù)處理。進(jìn)過(guò)數(shù)據(jù)分析后,復(fù)雜而龐大的數(shù)據(jù),將會(huì)變得非常直觀,呈現(xiàn)與數(shù)據(jù)應(yīng)用層面再次存儲(chǔ)與各種數(shù)據(jù)庫(kù)。用戶使用時(shí)可直接從相應(yīng)的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)調(diào)用。
在上述系統(tǒng)分析層中,考慮到用戶的多樣性,在設(shè)計(jì)軟件時(shí),軟件通常以模塊化的方式設(shè)計(jì),因此可以在界面以及功能上進(jìn)行自由組合。同時(shí),它可以通過(guò)用戶需求的變化在一定程度上快速修改,而不需要調(diào)整軟件的核心部分。通信網(wǎng)絡(luò)層的作用是為系統(tǒng)軟件層以及智能設(shè)備層之間的信息傳輸提供技術(shù)支持以及平臺(tái)。然而,在其開(kāi)發(fā)過(guò)程中,通信網(wǎng)絡(luò)層也增加了許多功能。除了提供基本的有線數(shù)據(jù)傳輸之外,它現(xiàn)在可以實(shí)現(xiàn)無(wú)線連接,并已在許多方面得到廣泛應(yīng)用。例如:物聯(lián)網(wǎng)技術(shù)、現(xiàn)場(chǎng)總線、無(wú)線傳輸、工業(yè)以太網(wǎng)、無(wú)線通訊、光纖技術(shù)等。用戶可以根據(jù)現(xiàn)場(chǎng)工作條件、數(shù)據(jù)處理容量情況等以各種可以組合的方式進(jìn)行組合。停電分析系統(tǒng)經(jīng)過(guò)不斷發(fā)展,不僅僅具有實(shí)時(shí)數(shù)據(jù)采集、遠(yuǎn)程控制、故障分析、程序管理等先進(jìn)功能。對(duì)于低壓電氣系統(tǒng),由于可以直接連接到控制終端,所以需要應(yīng)用的設(shè)備更多,而且配電以及布局復(fù)雜,因此操作將變得非常頻繁。在停電分析系統(tǒng)中,它具有面向?qū)ο蟮墓ぷ髂J揭约昂軓?qiáng)的抗干擾能力。它使用智能組件層的智能組件來(lái)完成控制工作。它是一個(gè)網(wǎng)絡(luò)集成控制系統(tǒng),能夠?qū)崿F(xiàn)快速、高可靠性的運(yùn)行狀態(tài)。在停電分析系統(tǒng)中,低壓智能設(shè)備在功能上可分為幾種類型,包括:測(cè)量參數(shù)模塊、電能質(zhì)量測(cè)量、開(kāi)關(guān)保護(hù)以及控制等。由于總線技術(shù)的使用,智能設(shè)備可以獨(dú)立工作而不依賴于計(jì)算機(jī)網(wǎng)絡(luò)。該模式大大提高了系統(tǒng)工作效率,滿足了停電分析系統(tǒng)運(yùn)行管理的要求。
2NLP技術(shù)分析方法
在對(duì)現(xiàn)代電力電網(wǎng)停電數(shù)據(jù)進(jìn)行智能化分析時(shí),存在著多種對(duì)電力電網(wǎng)干擾的外界環(huán)境因素,諸如多種不同的網(wǎng)絡(luò)數(shù)據(jù)參數(shù)、信息報(bào)警數(shù)據(jù)、電網(wǎng)干擾電波、空氣濕度或者溫度范圍比較大的數(shù)據(jù),自然環(huán)境災(zāi)害對(duì)電網(wǎng)環(huán)境的自然影響因素和人為影響因素、諧波電壓、電流等的不穩(wěn)定性因素、電壓的不穩(wěn)定性、電網(wǎng)信息異常跳動(dòng)狀態(tài)頻率等。當(dāng)在電網(wǎng)波形中出現(xiàn)嚴(yán)重變形的信號(hào)時(shí),這些各種干擾因素都能夠會(huì)造成停電。這些因素的整理也不是一件容易的事情,往往會(huì)摻雜各種外界的干擾因素,因此,剛開(kāi)始時(shí),就需要對(duì)各種不同的停電影響要素進(jìn)行分析、參考,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,過(guò)濾掉沒(méi)用的數(shù)據(jù)信息,獲取較為純潔的數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理包括的方法有數(shù)據(jù)清理、數(shù)據(jù)集成數(shù)據(jù)變換、數(shù)據(jù)歸約等。
在經(jīng)過(guò)數(shù)據(jù)清洗之后,在清洗后的數(shù)據(jù)中,通過(guò)NLP技術(shù)引出“定義指令”。
在采用指令時(shí),借助于Python語(yǔ)言,使用戶得出能夠與備注的數(shù)據(jù)庫(kù)相匹配的指令。在該指令庫(kù)中,能夠向檢索數(shù)據(jù)庫(kù)一樣被檢索到。進(jìn)而使用戶能夠直接看到各條不同指令表達(dá)的含義,然后用戶能夠通過(guò)圖文的多種表達(dá)方式確保用戶指令下達(dá)的正確性,通過(guò)語(yǔ)言編寫(xiě)的方式編制這種方式,能夠使它被已知的現(xiàn)有系統(tǒng)認(rèn)可、接受。在工作之初,編寫(xiě)完畢的對(duì)應(yīng)“定義指令”與“指令詞庫(kù)”相對(duì)應(yīng)。因此,僅僅需要將這種技術(shù)特征的指令編譯輸入“指令詞庫(kù)”即可。在應(yīng)用中,可以根據(jù)數(shù)據(jù)錯(cuò)誤的情況修改對(duì)應(yīng)的參數(shù)。
通過(guò)構(gòu)建上述NLP分析模型,然后采用大數(shù)據(jù)降維技術(shù)PCA( PrincipaIComponentAnalysis)即主成分對(duì)數(shù)據(jù)進(jìn)行分析,該方法是用于探索高維數(shù)據(jù)結(jié)構(gòu)的技術(shù)。PCA常用于現(xiàn)代大數(shù)據(jù)高維降維處理,使不可見(jiàn)的高維數(shù)據(jù)變成可視化的低維數(shù)據(jù)圖像。PCA在數(shù)據(jù)分析中最重要的一點(diǎn)就是將具有關(guān)聯(lián)特性的數(shù)據(jù)合成線性無(wú)關(guān)的低維數(shù)據(jù),這在PCA降維技術(shù)中稱之為主成分。雖然高維數(shù)據(jù)經(jīng)過(guò)了降維處理,但是通過(guò)PCA轉(zhuǎn)換的低維數(shù)據(jù)仍具備原有數(shù)據(jù)所需的變量特征。而特征性稀疏,特征維度高又是現(xiàn)在自然語(yǔ)言的本身特性。而高特征維數(shù)又會(huì)使在建立模型時(shí)出現(xiàn)高維特征性問(wèn)題。使最后運(yùn)算出來(lái)的數(shù)據(jù)失真,變得毫無(wú)價(jià)值。又極易出現(xiàn)連鎖高維特征運(yùn)算崩潰,加大計(jì)算難度與準(zhǔn)確度。稀疏的特征又會(huì)占用計(jì)算機(jī)大量資源,是計(jì)算機(jī)一直重復(fù)計(jì)算不必要的特征。由此可見(jiàn),在進(jìn)行大量數(shù)據(jù)分析并包含自然語(yǔ)言時(shí),降維使我們應(yīng)該首先考慮的事情。通過(guò)分析本次技術(shù)包含自然語(yǔ)言,本文設(shè)計(jì)中通過(guò)使用PVA技術(shù)使停電分析原因變得顯而易見(jiàn)。
在對(duì)大數(shù)據(jù)分析時(shí),在經(jīng)歷了大數(shù)據(jù)降維之后,可以再采用聚類方法對(duì)處理后的數(shù)據(jù)進(jìn)行二次處理。常見(jiàn)的聚類算法有很多種,比如聚類分析算法、決策樹(shù)分類方法、與關(guān)聯(lián)聚類方法以及與網(wǎng)格有關(guān)的聚類方法等。在諸多的算法類型中,進(jìn)行合適的聚類分類對(duì)于用戶處理數(shù)據(jù)具有重要的作用。由于分析樣本數(shù)量巨大,重復(fù)率高而且樣本特征混雜,采用劃分聚類法將會(huì)使計(jì)算分析變得十分簡(jiǎn)單。在本文應(yīng)用中,采用K-means算法對(duì)降維后的數(shù)據(jù)進(jìn)行分析、聚類。在應(yīng)用時(shí),假設(shè)要將N個(gè)停電數(shù)據(jù)類型劃分為K類,則可以隨機(jī)地選擇K個(gè)不同的對(duì)象,在所選擇的K個(gè)不同的對(duì)象中定義表示個(gè)類的停電設(shè)備數(shù)據(jù)中心,然后將距離最小的停電故障數(shù)據(jù)分配到用戶規(guī)定的不同屬性的數(shù)據(jù)類型中。在首次的停電數(shù)據(jù)信息分配到用戶設(shè)定的屬性中后,然后求出剩余屬性的停電數(shù)據(jù)信息對(duì)象的個(gè)體屬性均值,再將該均值作為數(shù)據(jù)劃分屬性的新中心,然后再次重新分配,直到達(dá)到用戶的滿意值為止。這種方法能夠根據(jù)用戶設(shè)定的各種屬性類型來(lái)實(shí)現(xiàn)不同電網(wǎng)設(shè)備停電的數(shù)據(jù)的不同分類。
3仿真實(shí)驗(yàn)與分析
在模擬仿真時(shí),在國(guó)網(wǎng)安徽省電力有限公司內(nèi)部提供的硬件資源和平臺(tái)進(jìn)行仿真和模擬。仿真系統(tǒng)采用的語(yǔ)言為VisuaIC,采用的服務(wù)器操作系統(tǒng)為WindowsServer2015,數(shù)據(jù)庫(kù)管理系統(tǒng)軟件為SQLServer2015,Web服務(wù)器軟件為IIS6.O。采用的仿真試驗(yàn)根據(jù)IEC61850標(biāo)準(zhǔn)建立電能質(zhì)量監(jiān)測(cè)模型,實(shí)驗(yàn)時(shí)通過(guò)MMS協(xié)議將電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)實(shí)時(shí)傳遞到主站,并對(duì)數(shù)據(jù)進(jìn)行計(jì)算、存儲(chǔ)。通過(guò)客戶端內(nèi)的Silverlight程序進(jìn)行WCF服務(wù),進(jìn)而獲取實(shí)時(shí)監(jiān)測(cè)的電力網(wǎng)路數(shù)據(jù),在OneNet平臺(tái)中進(jìn)行一體化處理、顯示。試驗(yàn)結(jié)構(gòu)原理圖如圖3所示。
實(shí)驗(yàn)時(shí)在電力網(wǎng)絡(luò)中的不同位置分別設(shè)置5臺(tái)電力網(wǎng)絡(luò)質(zhì)量檢測(cè)模塊。隨機(jī)從采集檢測(cè)數(shù)據(jù),分別在50V、100V、120V、150V.200V和220V時(shí)電力網(wǎng)絡(luò)線路附近監(jiān)測(cè)線路上的停電信息情況。在此,僅僅對(duì)電壓和電流的誤差數(shù)據(jù)作為評(píng)估,測(cè)試數(shù)據(jù)樣本如表2所示。
通過(guò)上述分析,當(dāng)K=2時(shí),能夠?qū)⑼k娦畔澐譃?類(通過(guò)NIP語(yǔ)意的方式分別表示對(duì)應(yīng)表中的1和2),因此可以看出屬于那種故障類型。當(dāng)K=3時(shí),停電原因可以表示為繼電器開(kāi)關(guān)壞,轉(zhuǎn)向泵漏油等其他類別中的3種(分別對(duì)應(yīng)表中=3時(shí)的2、5等),由此可見(jiàn),同種類型的停電信息之間的語(yǔ)義較為接近。當(dāng)K值增加時(shí),對(duì)于停電類型的劃分將逐步地細(xì)化,當(dāng)類別數(shù)增加時(shí),聚類中心個(gè)數(shù)也在增加,在停電信息中,停電信息由于存在各種不同的情況,將剛開(kāi)始聚類分析時(shí)被聚為一類的電網(wǎng)設(shè)備停電信息重新構(gòu)成新的屬性,使得停電信息類型的屬性劃分更加細(xì)化。
通過(guò)圖4可以看出,在相同時(shí)間內(nèi),采用相同的常規(guī)設(shè)備儀器檢定停電原因分析與采用NIP技術(shù)進(jìn)行比較。采用常規(guī)方法的數(shù)據(jù)正確率低于80%,采用NLP技術(shù)時(shí),數(shù)據(jù)的完整性高于90%,近乎100%。因此,比起常規(guī)方法的數(shù)據(jù)正確率,采用NLP技術(shù)的數(shù)據(jù)正確率略高。
4結(jié)論
通過(guò)采用NLP技術(shù)對(duì)電力電網(wǎng)中設(shè)備的各種智能停電原因進(jìn)行智能分析。區(qū)別于常規(guī)技術(shù),采用人工編制停用詞表、機(jī)械分詞法進(jìn)行數(shù)據(jù)預(yù)處理,這種方式能夠直接地描述智能電網(wǎng)停電原因信息。采用NLP技術(shù)設(shè)定的故障信息語(yǔ)句精短,語(yǔ)義容易理解。有利用用戶在處理復(fù)雜信息時(shí)建立合理的向量空間模型,在應(yīng)用過(guò)程中,通過(guò)采用自然語(yǔ)言處理的智能搜索引擎,便于用戶更大程度地對(duì)電網(wǎng)智能數(shù)據(jù)進(jìn)行分析。為后續(xù)實(shí)現(xiàn)智能電網(wǎng)分析技術(shù)提供重要技術(shù)支撐。