劉東超,熊慕文,高森,趙森林,朱何榮,李海濤
(南京南瑞繼保電氣有限公司,江蘇 南京 211102)
氣體絕緣組合開關(guān)電器(gas insulated switchgear,GIS)以其占地面積小、工程建設(shè)速度快、運行穩(wěn)定性高、故障率低等特點,在電網(wǎng)中得到廣泛應(yīng)用,其設(shè)備的絕緣狀態(tài)與電網(wǎng)安全息息相關(guān)[1]。局部放電作為反映GIS內(nèi)部絕緣故障的重要特征參量,不同類型的局放對絕緣造成的破壞程度有較大差異,因此對局放類型進(jìn)行有效的識別對于評價GIS絕緣狀況非常重要[2-4]。
目前局放模式識別領(lǐng)域研究的熱點主要是特征參量提取與模式分類兩方面。局放信號特征參量常用的提取方法主要包括統(tǒng)計特征參量法[5]、波形特征參量法[6]、分形特征參量法[7]、矩特征參量法[8]和小波特征參量法[9]等;在模式分類領(lǐng)域,反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)[10]、支持向量機[11-12](support vector machine,SVM)、K鄰近[13](K-nearest neighbor,KNN)以及隨機森林[14]等方法得到大量應(yīng)用,取得的分類效果較好[10-14]。但是傳統(tǒng)的局放模式識別方法都需要人為對局放信號進(jìn)行特征參量提取,這些選取的特征參量具有較強的主觀性,過于依賴自然領(lǐng)域?qū)<覍τ谀硞€問題而確立的方法,缺乏很好的泛化性,且在特征參量提取過程中會損失部分局部放電特征信息,造成識別率降低。最近幾年在學(xué)術(shù)界與工業(yè)界興起的深度學(xué)習(xí)(deep learning)由于具有強大的特征學(xué)習(xí)能力,能自動從大數(shù)據(jù)中學(xué)習(xí)樣本的特征信息,避免了人工選取特征參量的主觀性,在圖像識別、語音辨識等領(lǐng)域取得了良好的效果,但是將深度學(xué)習(xí)應(yīng)用在電氣設(shè)備局放類型模式識別的研究較少[15-18]?;诖?,本文提出一種基于深度森林模型的GIS局放模式識別方法。
本文依據(jù)GIS設(shè)備典型放電發(fā)展過程中出現(xiàn)的特征,制作了4種典型放電模型,搭建了252 kV GIS局部放電實驗平臺,獲取局放時域波形圖,由此構(gòu)造GIS局部放電灰度圖像。在此基礎(chǔ)上,設(shè)計深度森林網(wǎng)絡(luò)模型,以局部放電灰度圖像作為深度森林模型的輸入,采用多粒度掃描結(jié)構(gòu)實現(xiàn)局部放電灰度圖像特征的自動提取,利用級聯(lián)森林結(jié)構(gòu)作為分類器,完成對局放類型的分類。
深度森林算法是一種以隨機森林(random forest,RF)為基礎(chǔ)的新型分類算法[19]。深度森林模型(依托于深度森林算法)由多粒度掃描結(jié)構(gòu)(multi-grained scanning)和級聯(lián)森林結(jié)構(gòu)(cascade forest)組成,基于決策樹實現(xiàn)樣本的預(yù)測分類。
RF算法是一種重要的基于Bagging的集成學(xué)習(xí)方法[20],可以用來解決分類等問題。該算法采用的模型屬于一種集成分類模型,由一組決策樹分類器{f(X,θk),k=1,…,N}構(gòu)成。其中參數(shù)X代表的是待分類樣本;θk代表的是與第k棵決策分類樹之間滿足獨立同分布關(guān)系的一個隨機向量。該模型的具體分類過程如圖1所示。
圖1 隨機森林分類過程Fig.1 Classification procedure of random forest
將待分類的樣本X輸入隨機森林模型后,樣本X將進(jìn)入到所有已經(jīng)通過訓(xùn)練產(chǎn)生的決策樹,以此進(jìn)行分類;每棵決策樹通過判斷樣本的特征屬性,以此獨立地分析樣本X的所屬類型;當(dāng)每棵決策分類樹各自得到自己的分類識別結(jié)果后,由隨機森林模型開始進(jìn)行集中投票,把獲得票數(shù)最多的分類結(jié)果作為待分類樣本X的最終分類結(jié)果。因此,可用下式表示隨機森林的分類決策結(jié)果[21]:
式中:F(x)為隨機森林分類決策結(jié)果;fi為第i個決策樹分類模型;Y為目標(biāo)變量;I為度量函數(shù);N為決策樹數(shù)量。
多粒度掃描結(jié)構(gòu)在深度森林算法中用來挖掘樣本圖像的特征,最大限度提取樣本圖像的特征參量。其定義如下[19]:設(shè)W=(XN×M,v×v,b,l),其中,XN×M代表原始輸入圖像的特征,N×M代表其維度,v×v代表掃描窗口維度,b代表掃描步長,l表示掃描窗口的數(shù)量。則經(jīng)過掃描之后的特征數(shù)為:r=[(N-v)/b+1]×[(M-v)/b+1]。
整個多粒度圖像掃描過程為:先將一個完整的N×M維樣本圖像輸入模型,然后通過一個維度為v×v的采樣窗口對樣本圖像進(jìn)行滑動采樣,得到r=[(N-v)/b+1]×[(M-v)/b+1]個特征子樣本,接著隨機森林和完全隨機樹森林會對每個采集到的子樣本進(jìn)行訓(xùn)練,并且每次訓(xùn)練都將產(chǎn)生一個長為S的概率向量。由此可知,訓(xùn)練完成后隨機森林與完全隨機樹森林都將會得到一個長度為r×S的特征向量,把這2個特征向量組合在一起即可得到本層輸出。這里的多粒度掃描類似于CNN的卷積過程,但相比于卷積運算,該方法運算速度更快。當(dāng)采用不同v值的采樣窗同時采樣時,就完成了真正意義上的多粒度采樣,從而獲得更多的特征子樣本。
級聯(lián)森林結(jié)構(gòu)在該模型中的作用是一層一層地對樣本特征進(jìn)行處理,增強該算法的特征挖掘能力,提升模式識別的準(zhǔn)確率。其定義如下[19]:設(shè)CF={z,F(xiàn),t,c}表示級聯(lián)森林。其中,z={1,2,…,Z}代表級聯(lián)森林的層數(shù),每一層包含m個森林F,m={1,2,…,MZ}。而F是由t棵決策樹組成的訓(xùn)練森林(包括隨機森林和完全隨機樹森林),t={1,2,…,Tm,Z},c={1,2,…,C}代表樣本的類別標(biāo)簽。
在訓(xùn)練階段,級聯(lián)森林的每一層都會生成對樣本x的類分布向量,如下式所示:
式中:pc(t,m)(x)為每棵決策樹計算的樣本x屬于類別c的概率。
然后每個森林會根據(jù)該概率得到自己對樣本x的類分布估計,表示為
然后,在級聯(lián)森林結(jié)構(gòu)中,各層輸出的結(jié)果向量和初始特征向量拼接在一起作為下一層森林的輸入,表示為
由此方法不斷迭代計算,直到準(zhǔn)確率不再上升,停止訓(xùn)練并得出最終結(jié)果。
本文采用高速示波器獲取典型的局放信號時域波形圖,將局放信號時域波形圖轉(zhuǎn)換成灰度圖(灰度值為0~255),然后將所有圖像的分辨率(采用雙線性插值算法)壓縮到80×30,最后將圖片像素歸一化到[0,1]之間。在此基礎(chǔ)上,設(shè)計用于GIS設(shè)備局放模式識別的深度森林模型,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 深度森林分類過程Fig.2 Forecasting procedure of deep forest
從圖2可以看出,首先輸入層輸入一個分辨率為80×30的灰度圖像,作為深度森林多粒度掃描結(jié)構(gòu)的輸入。多粒度掃描結(jié)構(gòu)通過使用多個滑動采樣窗口掃描預(yù)處理的局部放電灰度圖,將從窗口提取的實例用于訓(xùn)練隨機森林和完全隨機樹森林,獲取局部放電灰度圖的特征向量,并作為級聯(lián)森林結(jié)構(gòu)的輸入。如圖2中的多粒度掃描階段所示,圖像分辨率為80×30,為提高算法快速性且不失準(zhǔn)確性,僅使用9×9的滑動窗口產(chǎn)生1 584個實例(即1 584個9×9的矩陣);然后把從窗口提取的實例模型用于訓(xùn)練隨機森林(Forest A)和完全隨機樹森林(Forest B),每個實例生成一個二維的類向量,即Forest A生成1 584個類向量,F(xiàn)orest B生成1 584個類向量;最終把這2個分類向量拼接成一個3 168維的新特征向量,作為級聯(lián)森林結(jié)構(gòu)的第一層輸入。
在級聯(lián)森林結(jié)構(gòu)中,除了第一層采用多粒度掃描結(jié)構(gòu)輸出的特征向量作為輸入之外,隨后的每一層都是把從上一層輸出的特征向量與初始特征向量拼接作為自身的輸入。如圖2中的級聯(lián)森林階段所示,將多粒度掃描結(jié)構(gòu)輸出的3 168維特征向量作為輸入。首先,特征向量經(jīng)過Forest A,F(xiàn)orest B分類處理后,獲得2個二維類別向量;然后把這2個二維類別向量與3 168維初始特征向量相拼接,構(gòu)成一個3 172維的新特征向量作為第二層的輸入;按照該方法類推,第N-1層將產(chǎn)生3 168+2×2×(N-1)維的新特征向量,作為第N層的輸入;最后,對第N層輸出的類別向量求平均值,選擇其中最大值所對應(yīng)的類別作為局部放電灰度圖的最終分類結(jié)果。
算法的實現(xiàn)主要包括:
1)對分類所需的局部放電圖像進(jìn)行預(yù)處理,將圖像轉(zhuǎn)換為灰度圖,并依據(jù)算法的需要,劃分出訓(xùn)練樣本集。
2)利用訓(xùn)練灰度圖對深度森林算法進(jìn)行訓(xùn)練,直到某層的準(zhǔn)確率不再提高則停止訓(xùn)練。
3)利用預(yù)測樣本灰度圖的特征數(shù)據(jù)進(jìn)行預(yù)測,將預(yù)測局部放電灰度圖的特征數(shù)據(jù)通過深度森林模型進(jìn)行訓(xùn)練,得到最終的分類結(jié)果。
算法的實現(xiàn)流程如圖3所示。
圖3 深度森林算法流程Fig.3 Flow chart of deep forest algorithm
為使放電模型不僅突出GIS設(shè)備典型放電發(fā)展過程的特征,而且盡量符合GIS設(shè)備的實際運行情況,設(shè)計制作了4種典型的絕緣缺陷模型來模擬GIS內(nèi)部可能發(fā)生的絕緣故障,分別是針-板放電模型、沿面放電模型、自由金屬微粒放電模型和懸浮放電模型[22],缺陷模型示意圖如圖4所示。4個模型材質(zhì)均為鋁,并且為了減小干擾,所有電極均打磨光滑。置于GIS內(nèi)部腔體的實物模型如圖5所示。
圖4 缺陷模型示意圖Fig.4 Schematic diagram of defect model
圖5 缺陷模型和GIS腔體Fig.5 Defect model and GIS cavity
在外界干擾較小的實驗室條件下,搭建GIS局部放電實驗平臺,采用外置特高頻天線傳感器檢測局部放電。實驗平臺如圖6所示,包括252 kV GIS模型、250 kV無局放電源、局部放電檢測儀、耦合電容、檢測阻抗、外置超高頻天線、寬帶示波器及缺陷模型等。實驗時外置特高頻天線傳感器采用改進(jìn)的平面小型化螺旋天線[23],其工作帶寬為300~2 000 MHz,增益變化范圍為 2.5~4.3 dB,尺寸為 130 mm×115 mm×45 mm,質(zhì)量為650 g;采用型號為Tektronix DPO7254的泰克高速數(shù)字示波器(該示波器為4通道數(shù)字存儲示波器,每個通道可提供2.5 GHz帶寬和10 GS/s采樣速率,單通道最高采樣速率可達(dá)40 GS/s)采集局部放電信號時域波形圖。由于在實驗室采集到的局部放電信號存在各種隨機干擾噪聲和窄帶周期性干擾噪聲,為提高模式識別的準(zhǔn)確率,本文采用對偶樹復(fù)小波變換(dual-tree complex wavelet transform,DT-CWT)對采集的信號進(jìn)行降噪處理,采用該方法對局放信號進(jìn)行降噪,局放信號沒有出現(xiàn)明顯的畸變,較好地保持了原有特高頻局放信號的特征。圖7所示為GIS 4種典型缺陷對應(yīng)的局部放電灰度圖。
圖6 局部放電實驗平臺Fig.6 Partial discharge experimental platform
圖7 局部放電灰度圖Fig.7 Partial discharge gray-scales
利用圖6所示GIS局部放電實驗平臺對每種局部放電類型采集205張圖像,共820張規(guī)范化為80×30大小的灰度圖作為樣本,采用圖2設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)對局部放電灰度圖進(jìn)行訓(xùn)練、測試。隨機選擇每種放電類型的灰度圖建立訓(xùn)練樣本和測試樣本比分別為0.7:0.3,0.5:0.5,0.3:0.7的樣本集。為保證實驗結(jié)果的準(zhǔn)確性與客觀性,采用3次交叉驗證的方式訓(xùn)練網(wǎng)絡(luò),把每個樣本集平均分成3組,每一次隨機選擇其中的一組充當(dāng)測試樣本集,剩下的兩組充當(dāng)訓(xùn)練樣本集,進(jìn)行3次訓(xùn)練,最后獲得3個模型,將這3個模型在測試樣本集上得到的分類準(zhǔn)確率求平均值,作為該分類器最終識別局部放電類型的準(zhǔn)確率。
基于上述樣本集,分別采用多粒度掃描、稀疏自編碼器的方法提取局部放電灰度圖的特征,并將提取的這2種不同特征輸入到RF集成分類器、SVM集成分類器、BPNN集成分類器對局部放電模式進(jìn)行識別,結(jié)果見表1。
表1 基于不同特征提取方法的局部放電模式識別準(zhǔn)確率Tab.1 Recognition accuracy of partial discharge pattern based on different features extraction method
從表1可以看出,在一個樣本集中對于同一個分類器,使用多粒度掃描結(jié)構(gòu)提取局部放電灰度圖特征的局放模式識別準(zhǔn)確率均高于使用稀疏自編碼器提取局部放電灰度圖特征的局放模式識別準(zhǔn)確率,且隨著訓(xùn)練灰度圖的增加,各個分類器模式識別的準(zhǔn)確度也在上升。說明多粒度掃描結(jié)構(gòu)具有優(yōu)異的特征學(xué)習(xí)能力,可以深度挖掘局部放電灰度圖的內(nèi)在特征,局放信息丟失較少,故基于多粒度掃描方法自適應(yīng)提取的特征具有較好的辨識度,有利于分類。
同時基于上述樣本集,統(tǒng)計采用多粒度掃描、稀疏自編碼器提取局部放電灰度圖特征參數(shù)所需時間如表2所示。從表2可以看出,在同一個樣本集中對于同一個分類器,使用多粒度掃描結(jié)構(gòu)提取局部放電灰度圖特征的時間均小于使用稀疏自編碼器提取局部放電灰度圖特征的時間,表明該算法模型的收斂速度較好,訓(xùn)練時間較短,能夠克服傳統(tǒng)算法訓(xùn)練時間過長的缺點。
表2 不同數(shù)據(jù)集特征參數(shù)提取時間Tab.2 Extraction time of feature parameters from different datasets
對于同一個分類器,使用多粒度掃描方法提取局部放電灰度圖特征的模式識別準(zhǔn)確率均高于使用稀疏自編碼器提取局部放電灰度圖特征的模式識別準(zhǔn)確率,原因可能是文中提供的樣本數(shù)據(jù)量不是很大,基于深度森林的多粒度掃描方法不僅適用于海量大數(shù)據(jù),也適用于小樣本數(shù)據(jù),而稀疏自編碼器則更適用于海量大數(shù)據(jù)的情況。猜測隨著樣本數(shù)據(jù)量的增加,稀疏自編碼器的特征提取能力或許將超過本文方法。但是,考慮到實際運行中GIS設(shè)備的故障樣本并不多,因此使用多粒度方法提取局部放電特征更符合工程實際的要求。
為衡量級聯(lián)森林結(jié)構(gòu)分類的性能,選取0.7:0.3的樣本集,在使用多粒度掃描方法提取局部放電灰度圖像特征的情況下,分別采用級聯(lián)森林分類器、RF分類器、SVM分類器、BPNN集成分類器的局部放電模式識別準(zhǔn)確率如表3所示。
表3 基于不同分類器的局部放電模式識別準(zhǔn)確率Tab.3 Recognition accuracy of partial discharge pattern based on different classifiers
從識別結(jié)果可以看出,采用級聯(lián)森林分類器的綜合識別準(zhǔn)確率高于BP神經(jīng)網(wǎng)絡(luò)分類器、SVM分類器和RF分類器的綜合識別準(zhǔn)確率,基于深度森林模型的局放模式識別方法的綜合識別高達(dá)99%。分析數(shù)據(jù)可知,分類器對針-板放電、懸浮放電的識別率高于對沿面放電、金屬微粒放電的識別率,這主要是因為針-板放電、懸浮放電和其余兩種放電的放電波形灰度圖差別較大,其特征量之間存在較大的差異,較容易與其他類型分類;而沿面放電和金屬微粒放電的時域波形灰度圖相似性較高,容易造成誤判,故識別率相對偏低。隨后,對各種算法的訓(xùn)練速度進(jìn)行分析,經(jīng)研究發(fā)現(xiàn),級聯(lián)森林的訓(xùn)練速度與BP神經(jīng)網(wǎng)絡(luò)相近,但要慢于SVM分類器和RF分類器,但考慮到現(xiàn)場對GIS局放模式識別準(zhǔn)確性的要求較高,故本文提出的深度森林算法模型具有一定的工程實用價值。
基于深度森林模型的局部放電模式識別方法能有效區(qū)分GIS設(shè)備的4種絕緣缺陷,綜合識別率高達(dá)99%;且該算法的收斂速度較好,訓(xùn)練時間較短,能夠克服傳統(tǒng)算法訓(xùn)練時間過長的缺點,在GIS設(shè)備局部放電類型識別領(lǐng)域具有良好的發(fā)展前景。
深度森林模型中的多粒度掃描結(jié)構(gòu)具有優(yōu)異的特征學(xué)習(xí)能力,級聯(lián)森林結(jié)構(gòu)具有逐層加強特征學(xué)習(xí)的能力,采用該模型可以深度挖掘局部放電信號的內(nèi)在特征,其自適應(yīng)提取出的特征具有較好的辨識度,有利于分類。