王 卓,鄭 祥,王仁峰,楊景杰,許智海
(大連交通大學(xué) 自動化與電氣工程學(xué)院,遼寧 大連 116028)
牽引電機定子絕緣介質(zhì)在受到電、熱等因素的影響時會發(fā)生老化,出現(xiàn)絕緣缺陷,導(dǎo)致定子發(fā)生局部放電(partial discharge,PD)[1,2]。
近些年,針對牽引電機的PD檢測逐漸得到重視[3]。文獻[4]為提高PD的檢測靈敏度,通過在脈沖電壓波形下檢測到的PD起始電壓,評估牽引電機的絕緣性能。文獻[5]提出了一種基于可變上升時間的浪涌發(fā)生器測試方法,并將該方法用于檢測繞線定子中是否發(fā)生PD。
上述PD檢測方法的結(jié)果雖能夠反映牽引電機整體絕緣狀況,但無法據(jù)此確定具體故障原因,未能實現(xiàn)對PD類型識別。
通過牽引電機定子PD類型的識別,可以確定導(dǎo)致定子絕緣缺陷的具體原因;這對牽引電機的維護有重要意義。因此,本文針對牽引電機的PD類型識別做進一步研究。
不同類型的定子絕緣缺陷會表現(xiàn)出不同的PD模式,不同放電模式的放電信號具有不同的特征屬性:可以通過這個特性對PD類型進行識別。
傳統(tǒng)方法提取的PD信號特征維度過高,存在冗余特征,信號的重要特征信息不集中。文獻[6]提取了PD信號的27個特征參數(shù)作為分類器的輸入;但由于特征信息維度高,過多的無效信息導(dǎo)致識別結(jié)果不穩(wěn)定。
針對特征維度過高、無效信息過多的問題,有學(xué)者提出了相應(yīng)的降維算法。文獻[7]在提取PD信號特征后,采用主成分分析(principal component analysis,PCA)算法對其進行特征降維,從而得到新的特征參數(shù);這使得識別速度有了明顯的提高。但是,降維處理后的傳統(tǒng)特征對于PD的表征不明顯,且PCA降維算法可能會使部分重要信息丟失,導(dǎo)致降維后的參數(shù)對于信號的分類效果不佳。
傳統(tǒng)的PD信號識別算法有反向傳播神經(jīng)網(wǎng)絡(luò)(backpropagation neural network,BPNN)、概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)和支持向量機(support vector machines,SVM)等[8-10]。這些算法也因識別效果不佳逐漸被替代與改進。
文獻[11]采用深度信念網(wǎng)絡(luò)(deep belief networks,DBN)識別不同的典型PD類型,獲得了較高的識別準確率;但DBN算法的結(jié)構(gòu)比較復(fù)雜,訓(xùn)練的時間也比較慢,參數(shù)選擇不當(dāng)會導(dǎo)致陷入局部最優(yōu),使識別效果變差。
文獻[12]采用遺傳算法(genetic algorithm,GA)分別優(yōu)化BPNN與PNN,并對PD信號進行了識別。雖然識別效果優(yōu)于未改進算法,但改進之后的算法結(jié)構(gòu)更加復(fù)雜,需要調(diào)節(jié)的參數(shù)增加,導(dǎo)致訓(xùn)練迭代的計算時間增加且迭代過程中易陷入極小值。
分形特征由于其區(qū)分能力強而在信號處理領(lǐng)域被廣泛應(yīng)用。將分形特征應(yīng)用于牽引電機定子PD信號的特征提取,并與傳統(tǒng)特征結(jié)合再進行降維,可以實現(xiàn)PD信號特點的更好表征,克服傳統(tǒng)方法的不足。
隨機森林算法是一個由決策樹分類器組成的集成算法,能夠較快地處理高維度數(shù)據(jù)且不易發(fā)生過度擬合,在模式識別領(lǐng)域有廣泛的應(yīng)用[13,14]。隨機森林算法在PD模式識別中的應(yīng)用較少。
基于上述分析,本文提出一種基于KPCA和隨機森林的牽引電機定子PD信號模式識別方法。將分形特征與傳統(tǒng)特征結(jié)合,以提高特征算法對PD信號的表征效果;采用KPCA算法代替常用的PCA特征降維算法,以深度挖掘特征信息,同時解決降維后易丟失重要信息的問題;采用隨機森林算法進行PD類型識別,發(fā)揮其處理高維度數(shù)據(jù)速度較快且不易發(fā)生過度擬合的優(yōu)勢,提升識別效率。
分形理論提出,維數(shù)不一定是整數(shù),可以分數(shù)的形式表示出,即分形維數(shù)[15,16]。
定義(F,D)為一個度量幾何空間的數(shù)學(xué)模型,設(shè)R是F的非空緊集族,令B(f,ε)為一個球心為f、半徑為正整數(shù)ε的封閉小圓球,將其視作一個小盒 子。設(shè)A?R2是一個非空集合,令N(A,ε)等于 覆蓋A的最小盒子數(shù),公式為:
式中:f1,f2,…,fM為F中的不同中心點。
進一步對非空集合A進行定義:
式中:g(x)為y對于X的映射函數(shù),是一個連續(xù)函數(shù)。
計算分形維數(shù):
針對采樣后的離散信號,對公式(3)進行簡化。對接收的信號進行離散化采樣后得s(t1),s(t2),···,s(tN+1)。對其進行分組,N取偶數(shù),令:
式中:(dΔ)表示N組相鄰的采樣點之間幅度絕對值差的和。隨著采樣點跳變程度的變大,()dΔ的值也會越大。
簡化后的分形維數(shù)計算公式如下:
由公式(5)可知,分形維數(shù)反映了各組相鄰離散采樣點之間幅度跳變程度的相互關(guān)系;所以,分形維數(shù)可以作為一種特征參數(shù),用以完成不同類型PD信號的識別。
KPCA算法是一種非線性數(shù)據(jù)降維算法,可以用來去掉不重要信息,具體運算步驟如下[17,18]。
假設(shè)特征空間樣本滿足中心化,則特征空間F有協(xié)方差矩陣
引入n階核矩陣K,其第i行j列的元素為。求解矩陣的特征值和特征向量,兩邊同時乘以φ(xi),帶入。令,得
求解該式得到特征值λ1,λ2,…,λn及對應(yīng)的特征向量v1,v2,…,vn。前k個主成分所包含的信息 貢獻率如下
如果d維數(shù)據(jù)前k個特征值貢獻率明顯大于后d-k個特征值,則數(shù)據(jù)可以通過前k個特征向量來表達[19,20]。
本文采用KPCA算法進行降維處理,選擇貢獻率大于90%的前幾個特征。
隨機森林(random forest,RF)算法:采用重抽樣法,從N個訓(xùn)練樣本集中隨機抽取樣本,重復(fù)N次組成一個與原訓(xùn)練樣本數(shù)目相同的新訓(xùn)練集。新訓(xùn)練集中的每個樣本被選中的概率均為1/N。這樣重復(fù)k次。將訓(xùn)練集分成k個新訓(xùn)練集,對新訓(xùn)練集進行建模得到對應(yīng)k個互不相關(guān)的模型。以此模型為基礎(chǔ)構(gòu)成k個決策樹,形成森林。通過每個模型對樣本各決策樹投票,哪一類得票多即歸為哪一類[21,22]。
RF算法可以有效解決過擬合和決策樹準確性不高的問題,其優(yōu)點是實現(xiàn)方式簡單、分類準確度高且分類速度快。算法訓(xùn)練步驟如下[23]。
步驟1:通過重抽樣方法,從原始樣本集中隨機選取k個訓(xùn)練樣本集和k個袋外數(shù)據(jù)集。袋外數(shù)據(jù)集對應(yīng)的決策樹會對樣本進行投票得到預(yù)測結(jié)果,于是分類錯誤樣本占總樣本的比率就是袋外誤差??梢灾苯邮褂么庹`差對其進行泛化性評估。
步驟2:從特征參數(shù)中隨機選取最優(yōu)特征,作為決策樹節(jié)點分裂的分裂屬性節(jié)點。
步驟3:用訓(xùn)練集和抽取的特征子集訓(xùn)練決策樹。k個訓(xùn)練樣本集分別得到k顆決策樹。
步驟4:將每顆決策樹的輸出結(jié)果線性集成,最終得到RF算法整體的輸出。最終的分類決策輸出為
式中:H(X)為組合分類模型;hi(x)為單個決策樹分類模型;Y為輸出變量;I(·)為指示函數(shù)。
為了驗證本文方法的實用性,對牽引電機定子PD的表面放電、內(nèi)部放電、自由放電共3類特高頻故障信號進行處理。
采樣頻率為2 GHz。每個PD信號含10 000個采樣點。對應(yīng)信號波形如圖1所示。
圖1 PD信號波形 Fig. 1 PD signal waveform
采用連續(xù)自適應(yīng)小波軟閾值去噪法進行去噪處理。去噪后的信號波形如圖2所示。由圖2可以看出,PD信號已被有效分離出來。
圖2 PD信號去噪波形 Fig. 2 PD signal denoising waveform
通過集合經(jīng)驗?zāi)B(tài)分解,將PD信號分解為各個固有模態(tài)分量(intrinsic mode function,IMF),進而得到各個頻段的信號的特性。
自由放電去噪信號經(jīng)分解后,其波形如圖3、圖4所示。在信號分解后,進一步對IMF進行分形維數(shù)的計算,計算結(jié)果如圖5所示。
圖3 自由放電信號分解波形(IMF1—IMF4) Fig. 3 Free discharge signal decomposition waveform (IMF1—IMF4)
圖4 自由放電信號分解波形(IMF5—IMF8) Fig. 4 Free discharge signal decomposition waveform (IMF5—IMF8)
圖5 不同PD信號的分形維數(shù) Fig. 5 Fractal dimension of different PD signals
從圖5可以看出,不同類型的PD信號在各個IMF階次的分形維數(shù)存在著明顯不同,因此可以把PD信號在各個IMF上的分形維數(shù)作為模式識別的特征參數(shù)。
針對傳統(tǒng)PD特征對信號表征不明顯的問題,將分形特征與傳統(tǒng)的時頻域特征結(jié)合,使特征能夠從不同角度刻畫PD信號的狀態(tài)。這些特征的名稱如表1所示。
表1 特征參數(shù)名稱 Tab. 1 Feature parameter name
表1中,序號為1—12的參數(shù)為時域特征參數(shù),13—16為頻域特征參數(shù),17—24為時頻域特征參數(shù),25—32為分形維數(shù)。
加入分形特征之后,數(shù)據(jù)特征維度會過高,這將導(dǎo)致識別速度慢;因此,有必要對特征集進行數(shù)據(jù)挖掘降維。
由于PD信號的特征很難滿足線性關(guān)系,故采用KPCA降維——將非線性信號特征投影到高維空間,使其線性可分。
降維后的核主成分貢獻率越大,所含PD信息越相關(guān)。本文將貢獻率大于90%的前k個主特征作為分類器的輸入特征。
核主成分特征貢獻占比如圖6所示。從圖6中可見,第1個核主成分的貢獻率占總貢獻率的45%左右,第2個核主成分的貢獻率占總貢獻率的15%左右,其中貢累計獻率超過90%的核主成分為前9個;因此,本文選擇前9個核主成分作為輸入特征。
圖6 主成分貢獻率 Fig. 6 Principal component contribution rate
本文采用RF算法建立PD分類模型。首先,隨機選取450個樣本作為訓(xùn)練樣本進行訓(xùn)練。訓(xùn)練結(jié)束后,用剩余的150個樣本測試PD模式識別的準確性。
RF分類器性能分析如圖7所示:空間中央正方體部分為識別模糊區(qū)域,很難歸類;靠近端點處劃分明顯。
圖7 RF分類器性能分析 Fig. 7 RF classifier performance analysis
經(jīng)過計算,隨機森林算法對不同類型牽引電機定子PD類型的識別準確率均在90%以上。
為了驗證RF算法的優(yōu)勢,選取遺傳算法優(yōu)化的反向傳播神經(jīng)網(wǎng)絡(luò)(GA-BP)、遺傳算法優(yōu)化的概率神經(jīng)網(wǎng)絡(luò)(GA-PNN)和DBN算法與RF算法進行比較。分別輸入傳統(tǒng)特征(TR)與結(jié)合分形特征的降維特征(FR)進行PD信號分類測試。
10次實驗識別結(jié)果如圖8、圖9、表2所示。
表2 模式識別結(jié)果對比 Tab. 2 Pattern recognition results comparison
由圖8和圖9所示的識別準確率曲線可以看出,相較于其他方法,F(xiàn)R特征和RF算法結(jié)合的牽引電機定子PD模式識別方法的識別結(jié)果更加準確,其準確率穩(wěn)定在90%以上。
圖8 基于分形降維特征的算法識別 Fig. 8 Algorithm recognition based on fractal dimension features
圖9 基于傳統(tǒng)的統(tǒng)計參數(shù)信號特征的算法識別 Fig. 9 Algorithm recognition based on traditional statistical parameter signal features
同時,在多次測試中,隨機森林算法比其他算法的識別過程更加穩(wěn)定。
由表2可以得出:采用分形特征與傳統(tǒng)特征結(jié)合進行KPCA降維,可以縮減PD模式識別所需時間。
本文提出了一種基于KPCA和RF的牽引電機定子PD模式識別方法:將牽引電機PD信號的分形特征與傳統(tǒng)特征結(jié)合,采用KPCA算法進行降維處理,通過RF算法進行PD類型識別。
(1)將傳統(tǒng)特征與分形特征融合,可以更好地表征不同類型PD信號的特點。
(2)與普通降維算法相比,KPCA算法不僅減少了特征參數(shù)的數(shù)目且更好地保留了PD信號的特征信息,縮減了PD模式識別的時間。
(3)相比于其他的識別算法,RF算法在識別過程中準確率與識別穩(wěn)定性有顯著的提高:識別準確率均在90%以上,識別時間均在0.5 s以下。
綜上所述,本文所提方法明顯優(yōu)于傳統(tǒng)特征參數(shù)和其他常用識別算法。