李 元,李星輝,孫渭薇,李 睿,林金山,張大寧,張冠軍
(1.西安交通大學電氣工程學院,陜西西安 710049;2.國網(wǎng)陜西省電力有限公司營銷服務(wù)中心,陜西西安 710075)
油浸式電力變壓器是電網(wǎng)中的關(guān)鍵設(shè)備之一,承擔著電能傳輸、變換等關(guān)鍵任務(wù),及時精確的變壓器狀態(tài)預(yù)警和故障診斷對設(shè)備智能運維和電網(wǎng)的運行安全都具有重大的意義[1]。油中溶解氣體分析(Dissolved Gas Analysis,DGA)方法是目前變壓器最可靠的故障診斷方法之一[2]。在變壓器運行中會產(chǎn)生少量特征氣體溶解于變壓器的絕緣油中,當變壓器內(nèi)部發(fā)生故障時,部分氣體濃度會急劇增加,因變壓器內(nèi)部故障產(chǎn)生的典型特征氣體有氫氣(H2)、甲烷(CH4)、乙烷(C2H4)、乙烯(C2H2)、乙炔(C2H2)等[3]。長期以來,以氣體含量比值法為基礎(chǔ)的DGA 方法在油浸式電力設(shè)備的狀態(tài)監(jiān)測與預(yù)警中都發(fā)揮了重要作用,經(jīng)典比值法有三比值法(C2H2/C2H4,CH4/H2,C2H4/C2H6)[4]、Rogers四比值法(C2H2/C2H4,CH4/H2,C2H4/C2H6,C2H6/CH4)[5]和Duval 三角形法[6]等。比值法規(guī)則簡單、應(yīng)用廣泛,但存在編碼缺失、編碼界限過于絕對等問題,可能導致狀態(tài)無法確定或診斷錯誤,因此在實際應(yīng)用中比值法存在不少局限性[7]。
隨著人工智能技術(shù)的發(fā)展,機器學習方法被大量運用到變壓器故障診斷領(lǐng)域,取得了不錯的效果。常用的機器學習方法有人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[8-9]、支持向量機(Support Vector Machine,SVM)[10-11]、K近鄰(K-nearest Neighbor,KNN)[12]等,研究結(jié)果顯示這些方法均有效克服了傳統(tǒng)比值法的缺陷,在診斷精度和診斷效率方面均取得了一定的效果。
對于一個特定的應(yīng)用問題,各智能分類器均能取得一定效果,但單個分類器很難取得全面優(yōu)勢,實際應(yīng)用的綜合表現(xiàn)欠佳。因此,有必要研究將多個不同分類算法的結(jié)果進行有機綜合的方法,以獲得整體更優(yōu)結(jié)果[13]。變壓器不同的內(nèi)部故障在特征空間上往往有一定交疊,單一模型在分類不同故障時容易出現(xiàn)混淆,表現(xiàn)為對不同故障類型的識別準確率差異較大,對某些故障類型的識別率特別低(<60%)[14],無法滿足現(xiàn)場應(yīng)用需求;另一方面,大部分診斷算法的內(nèi)在邏輯是從不同的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)空間角度觀測數(shù)據(jù),依據(jù)觀測狀況及算法自身的分類原理建立相應(yīng)模型,所以不同的分類模型往往對同一故障類型的識別能力存在差異[15]。
為了能夠充分融合單一分類模型的局部優(yōu)勢,進一步提升診斷效果,本文提出一種基于集成學習思想的雙層級聯(lián)變壓器故障診斷模型:首先采用無編碼比值方式提取油中溶解氣體特征,增強不同故障類型的區(qū)分度;然后訓練SVM、分類回歸樹(Classification and Regression Tree,CART),KNN 和樸素貝葉斯(Naive Bayes Classifier,NBC)4 種分類器作為第一級模型;第二級分類模型利用隨機森林(Random Forest,RF)對前端多分類器的組合輸出結(jié)果進行特征提取和識別,最終確定變壓器的故障類型。
為了驗證級聯(lián)模型的有效性,選取SVM,CART,KNN 和NBC 4 種常見的分類模型作為級聯(lián)模型的第一層并行分類器。SVM 廣泛適用于油色譜故障診斷這類樣本量小、非線性程度高、數(shù)據(jù)特征維數(shù)高的數(shù)據(jù)分類問題[10];CART 模型在進行診斷時具有較高的診斷精度[12];NBC 的邏輯性簡單且無需設(shè)置參數(shù),所以算法的表現(xiàn)也具有一定的健壯性[16];KNN 由于其自身原理比較適合于油色譜故障診斷等類域交叉或重疊較多的數(shù)據(jù)分類問題[12]。以下簡述四種故障分類模型的原理。
SVM 來源于二維空間的求解最優(yōu)線性分類面的問題,其主要目的是尋找一個能夠準確區(qū)分所有樣本數(shù)據(jù)的超平面。針對數(shù)據(jù)在低維空間不可分的問題,SVM 通過核函數(shù)將原始數(shù)據(jù)從低維空間映射到高維空間,對原樣本空間數(shù)據(jù)不可分轉(zhuǎn)化為特征空間中的線性可分求解分類超平面的問題。SVM在樣本量小、非線性程度高、數(shù)據(jù)特征維數(shù)高的分類問題上有良好的表現(xiàn)。油色譜是一類具高維、線性不可分特征的數(shù)據(jù),SVM 可以對油色譜表征的故障進行有效劃分。超平面的求解過程如式(1)所示:
式中:w為分類超平面的法向量;Cp為懲罰因子;n為訓練集樣本數(shù)量;εr為第r個樣本的松弛因子。
CART 具有計算速度快、計算量小等特點,在處理小樣本數(shù)據(jù)時具有較優(yōu)的分類性能。CART 來源于人類的決策過程,是由節(jié)點和有向分支構(gòu)成的樹狀層次結(jié)構(gòu)。CART 的根節(jié)點是全體訓練數(shù)據(jù)的集合。樹的每一個葉節(jié)點都是一個節(jié)點分裂問題,產(chǎn)生的葉子節(jié)點是帶有分類標簽的數(shù)據(jù)集合,是樣本的所屬分類。CART 采用Gini系數(shù)作為節(jié)點分裂的屬性依據(jù),故障樣本集S的Gini系數(shù)計算如式(2)所示:
式中:Pk為分類結(jié)果中第k個類別出現(xiàn)的概率。
對于含有N個樣本的油色譜故障案例集合,將數(shù)據(jù)集劃分為兩部分,故障樣本集S的屬性A的第i個屬性值的Gini系數(shù)的計算如式(3)所示:
式中:S1和S2分別為S二分類后的樣本集;n1和n2分別為樣本集S1和S2的樣本數(shù)。
利用式(3),遍歷樣本集S的每一個特征的屬性值,針對油色譜數(shù)據(jù)不斷進行最優(yōu)節(jié)點劃分,最小值所對應(yīng)的分類類型即為最終的診斷結(jié)果。
KNN 是一種通過不同數(shù)據(jù)特征值的距離進行分類的方法,主要原理是:如果一個待診樣本在特征空間內(nèi)存在k個最近鄰,那么預(yù)測樣本的類別通常由k個近鄰中的多數(shù)類別決定。對于連續(xù)型數(shù)據(jù)通常采用歐氏距離作為距離度量。在樣本空間中不同樣本點間歐氏距離計算de,f如式(4)所示:
式中:xeh,xfh分別為第e,f個樣本點的第h維坐標。
在歐式空間中,針對每一個油色譜的故障樣本點,依據(jù)歐氏距離求解其k個最近鄰,則該樣本點歸屬于k個最近鄰的類別標簽最多的一類。
NBC 是一種簡單有效的貝葉斯分類器,以貝葉斯定理為基礎(chǔ),求解在待診故障樣本出現(xiàn)的條件下各個故障類別出現(xiàn)的概率,最大概率項即為診斷結(jié)論。對一組訓練集數(shù)據(jù)X={a1,a2…an},設(shè)故障類別集合C={C1,C2…Cm},NBC 分類模型會將X分配給Ci,當且僅當滿足式(5)時,X∈Ci。
式中:Ci為第i個故障類別,Cj為第j個故障類型;m為故障類型的數(shù)量。
基于NBC 的變壓器故障診斷模型是利用已經(jīng)給定的油色譜故障數(shù)據(jù)集,求解每一類故障出現(xiàn)的先驗概率,利用式(5)對其實現(xiàn)故障分類。
事實上,每一種潛在缺陷、故障都可能引起嚴重后果,都應(yīng)該引起足夠的重視[17]。因此,一個性能優(yōu)越的故障診斷模型應(yīng)對各類故障都有較高的識別準確率。為了衡量單一分類器在不同故障類型上表現(xiàn)的差異性,引入變異系數(shù)(Coefficient Variation,CV)表征模型對不同故障類型識別效果的離散程度[18]。CV 越小,說明該模型對不同故障類型的敏感性差異越小。CV 的計算公式如式(6)所示:
式中:Ri為分類器對第i個故障的識別準確率;為分類器對所有故障的準確識別率的平均值。
針對多個分類器,引入Pearson 相關(guān)系數(shù)來衡量不同分類模型性能的差異性。Pearson 相關(guān)系數(shù)的絕對值越小,分類模型診斷性能的差異性越大[19]。為了能充分利用多分類器的局部優(yōu)勢,需要尋找具有較大差異的分類器組合來提高對每種故障類型的準確識別率,減小變異系數(shù)CV。Pearson 相關(guān)系數(shù)rxy由式(7)得到。
式中:R1i和R2i分別為2 個分類器對第i類故障的識別準確率;和分別為2 個分類器對所有故障的準確識別率的平均值。
第二級分類模型利用RF 融合前端多分類器。RF 是以決策樹為基本分類器的集成學習模型[20]。對于待診數(shù)據(jù),決策樹給出一條由根節(jié)點到葉節(jié)點的唯一路徑來確定其分類。設(shè)有l(wèi)個決策樹,N個訓練數(shù)據(jù),對每個決策樹,有放回地從N個訓練數(shù)據(jù)中抽取M個數(shù)據(jù)來訓練每一個決策樹,最后由l個決策樹的分類結(jié)果投票得到最終分類結(jié)果。RF算法具有不錯的分類精度,在充分融合第一層各分類模型優(yōu)勢的同時具有較好的泛化能力。其泛化能力主要依靠兩個隨機過程得以保證:
(1)訓練數(shù)據(jù)的隨機性。訓練單個決策樹的樣本是從數(shù)據(jù)集中隨機抽取的,保證了對數(shù)據(jù)特征的廣泛提取能力。
(2)節(jié)點分裂特征的隨機性。構(gòu)建決策樹的特征值是隨機選取,在對決策樹每個節(jié)點進行分裂時,從全部屬性中等概率隨機抽取一個屬性子集,再從這個子集中選擇一個最優(yōu)屬性來分裂節(jié)點。
為了吸收不同分類模型的優(yōu)點,本文提出了一種模型級聯(lián)框架,在級聯(lián)模型訓練完成后其對待診油色譜數(shù)據(jù)的診斷流程如圖1 示。
圖1 級聯(lián)模型診斷流程Fig.1 Diagnostic process of cascade model
第一級模型中的每個基分類器獨立對油色譜數(shù)據(jù)進行診斷,得到各基分類器的診斷結(jié)果Di(i=1,2,3,4),并對其組合得到故障類型編碼向量D={D1,D2,D3,D4};第二級模型對該向量再次進行診斷,來得到最終的診斷結(jié)果。
圖1 所示的診斷過程建立在級聯(lián)模型充分訓練的基礎(chǔ)上,級聯(lián)模型具體的訓練過程如下:假設(shè)有n個訓練樣本,診斷模型第一級中有4 個基分類器,為了保證診斷模型的泛化能力,首先將原始的訓練集進行K折交叉劃分得到K個子集{S1,S2…SK};對第一級中的各分類器,將每個數(shù)據(jù)子集Sp(p=1,2…K)做一次測試集,其余子集做訓練集,得到K個診斷子集Lp(p=1,2…K),Lp為Sp中樣本診斷后得到的故障類型編碼;將K個診斷結(jié)果子集合并成一列得到一個分類器對訓練集中所有樣本的診斷結(jié)果集合Et={L1T,L2T,L3T…LkT}T(t=1,2,3,4),該集合是一個n×1 的向量;針對每一基分類器分別進行一次上述操作,將每一個基分類器得到的結(jié)果Et進行組合得到一個n×4 的診斷結(jié)果集合E={E1,E2,E3,E4},將E作為第二級分類模型的輸入數(shù)據(jù)進行訓練;再利用m個樣本對第一級分類模型進行訓練,將訓練好的第二級分類模型與第一級分類模型按圖1 所示級聯(lián)。這種方式可以抑制多個分類器診斷的不平衡性,提升整體診斷效果。
不同的編碼方式可以提取油中溶解氣體的不同數(shù)據(jù)特征,提取的油中溶解氣體特征越豐富,越有利于提高診斷精度。杜洋等[21]提出了一種無編碼比值的變壓器診斷方法,包含9 個維度特征,即CH4/H2,C2H2/C2H4,C2H4/C2H6,C2H2/(C1+C2),H2/(H2+C1+C2),C2H4/(C1+C2),CH4/(C1+C2),C2H6/(C1+C2),(CH4+C2H4)/(C1+C2),其中C1+C2為油中溶解氣體中總烴的含量。利用這9 種比值作為分類模型的輸入數(shù)據(jù),由于五種特征氣體濃度差異性較大,直接將比值作為訓練數(shù)據(jù)輸入會對診斷效果產(chǎn)生不利影響[22],需要依據(jù)式(8)對氣體的特征比值進行歸一化處理。
式中:cact為該故障樣本的一種氣體濃度比值;cmax為該種氣體濃度比值的最大值;為該氣體濃度比值歸一化以后的值。
根據(jù)IEC60599 標準[23],變壓器故障類型可劃分為局部放電PD、低能放電LD、高能放電HD、低溫過熱LT、中溫過熱MT、高溫過熱HT 6 種,其對應(yīng)故障類型依次編碼為1,2,…6。
為了保證模型的泛化能力,將所有數(shù)據(jù)按照4∶1 的比例劃分為訓練集和驗證集,再對訓練集采取五折交叉劃分,按照2.2 節(jié)所述方法訓練第一級和第二級模型,得到最終的診斷模型。完整的級聯(lián)模型數(shù)據(jù)預(yù)處理、參數(shù)訓練與自優(yōu)化過程如圖2 所示。
圖2 變壓器級聯(lián)故障模型詳細運作過程Fig.2 Diagram showing data preprocessing,parameter training and self-optimizing process of cascading fault model for transformer
本文模型建立所用的506 例DGA 故障數(shù)據(jù)均來源于電網(wǎng)公司故障變壓器的油中溶解氣體離線試驗數(shù)據(jù),按照3.1 節(jié)所述方法進行特征提取和歸一化處理,依據(jù)3.3 節(jié)所述方法進行訓練集和驗證集劃分,樣本分布情況如表1 所示。
表1 506組故障樣本數(shù)據(jù)分布Table 1 Distribution of 506 groups of fault samples
利用2.2 節(jié)中所述方式對4 種基分類器進行訓練,利用得到的模型在驗證集上進行測試。第一級模型各分類器參數(shù)如表2 所示。利用驗證集對訓練得到的模型進行測試得到的結(jié)果如表3 所示。
表2 第一級模型各分類器參數(shù)Table 2 Parameters of each classification model at the 1st layer
表3 第一級模型對不同類型故障的識別準確率對比Table 3 Comparison of recognition accuracy among classification models at the 1st layer for different fault types%
由表3 可知,不同分類器對不同故障類型的識別能力差異較大。以局部放電放為例,KNN 模型和NBC 模型具有最高的準確識別率,達到了81.82%,而SVM 和CART 的表現(xiàn)較差,準確識別率僅為45.45%和55.45%。為了分析第一層各分類模型的差異性,根據(jù)式(7)及表4 計算第一層各分類模型間的Pearson 相關(guān)系數(shù)rxy,各模型之間相關(guān)系數(shù)的絕對值如圖3 所示。
表4 第一級分類器綜合診斷結(jié)果對比Table 4 Comparison of comprehensive diagnosis results among classification models at the 1st layer
圖3 基分類器間的Pearson系數(shù)rxyFig.3 Pearson coefficient rxy between base classifiers
一般認為,|rxy|<0.3,兩變量基本不相關(guān),基分類器的性能相似度低,診斷結(jié)果融合效果好;0.3≤|rxy|<0.5,兩變量低度相關(guān);0.5≤|rxy|<0.8,可認為兩變量中度相關(guān);|rxy|≥0.8 時,兩變量間高度相關(guān),此時兩基分類器表現(xiàn)極度相似[23],將其融合無法起到抑制基分類器不平衡性的作用,需要更換分類器。由圖3 可知,本文第一級分類器中所選的4 種模型彼此之間的相關(guān)性均不超過0.8,因此融合之后可以充分吸收不同模型的優(yōu)勢,抑制單一模型診斷的不平衡性。
一級分類器綜合診斷性能對比如表4 所示??傮w而言,CART 的綜合識別準確率最高(81.2%),但其變異系數(shù)也最高,說明CART 對不同故障類型的識別差異性很大。KNN 的綜合識別準確率要低于CART,但變異系數(shù)要明顯小于CART。所以,4種模型各有優(yōu)勢,有必要對其充分融合利用。
將第一層分類模型的診斷結(jié)果組合輸入到第二層分類模型中,得到最終的級聯(lián)診斷模型。第二層分類模型訓練得到的參數(shù)為子樹數(shù)目20。
利用驗證集對級聯(lián)模型進行測試,級聯(lián)模型與第一級中的基分類器對不同故障類型的準確識別率對比如圖4 所示。
圖4 5種模型對不同變壓器故障類型的識別準確度對比Fig.4 Comparison of recognition accuracy among five models for different transformer fault types
級聯(lián)模型在每一種故障類型上的效果都達到了基分類器的最優(yōu)或較優(yōu)水平,有效地抑制了基分類器的不平衡性。以PD 和HT 為例,級聯(lián)模型對PD 識別準確率為81.82%,與KNN 與NBC 相當,高于SVM(45.45%)與CART(54.55%);級聯(lián)模型對HT 的識別準確率(90%)略低于SVM(100%),顯著高于KNN(60%)、NBC(75%)和CART(70%)。5 種模型的綜合識別準確率和變異系數(shù)對比如圖5 所示,級聯(lián)模型在兩個綜合評價指標上均取得了最好效果,其綜合識別準確率比四種單一模型分別提升了6%、24.8%、8.96%、4.99%,變異系數(shù)分別降低了0.0024、0.0789、0.0235、0.1331,驗證了級聯(lián)模型的有效性。需要注意,本文中所述單一診斷模型和級聯(lián)診斷模型對算力的需求不高,數(shù)秒即可完成診斷,實效性滿足現(xiàn)場應(yīng)用需求[24]。
圖5 五種模型的綜合評價指標對比Fig.5 Comparison of comprehensive evaluation index among five models
針對在變壓器故障診斷中,單一分類模型對不同類型故障時診斷效果的不平衡性,以及不同單一模型之間分類性能的差異性等問題,本文提出了一種雙層級聯(lián)的變壓器故障診斷模型,可充分吸收單個模型的優(yōu)勢,進一步提升對變壓器的故障診斷效果。結(jié)合案例分析得到的具體結(jié)論如下:
1)針對變壓器的6 種故障類型,級聯(lián)模型的表現(xiàn)總是處于第一級4 個分類模型的最優(yōu)或次優(yōu)水平,緩解了單一診斷模型的不平衡性。
2)在綜合準確識別率以及變異系數(shù)兩個綜合評價指標上,級聯(lián)模型的表現(xiàn)都優(yōu)于單一模型,證明了其有效性。