吳忠強, 曹碧蓮, 侯林成, 馬博巖, 胡曉宇
(燕山大學 工業(yè)計算機控制工程河北省重點實驗室,河北 秦皇島 066004)
光伏發(fā)電站通常設(shè)置在沙漠、山區(qū)等面積廣闊、環(huán)境惡劣的地方,要想進行維護監(jiān)測,需要耗費大量的人力,物力資源,因此找到既能節(jié)省資源又能達到檢測目的的方法對提高光伏發(fā)電效率,改善光伏發(fā)電運行工況尤為重要[1~4]。
早期,人們通過觀察數(shù)據(jù)的變化趨勢進行故障診斷[5],這種方法不利于大量復(fù)雜數(shù)據(jù)的分析處理。隨著智能算法的出現(xiàn)及系統(tǒng)智能化程度的不斷提升,如何利用智能算法在復(fù)雜環(huán)境下進行有效便捷的故障診斷[6],是當前需要深入研究的問題。文獻[7]提出一種基于BP(back propagation)神經(jīng)網(wǎng)絡(luò)的故障診斷方法對光伏陣列的正常、短路和異常老化進行診斷,但是存在過度擬合的問題。文獻[8]用支持向量機(support vector machine,SVM)算法創(chuàng)建一個決策邊界來預(yù)測某個故障是否已經(jīng)發(fā)生,但是算法泛化能力較差。文獻[9]根據(jù)光伏組件溫度、電流和電壓在最大功率點條件下的關(guān)系,提出了基于卡爾曼濾波器的故障檢測模型,但這種方法只能用來檢測故障,而無法準確判斷出故障類型。文獻[10]使用粒子群算法(particle swarm optimization,PSO)對深度置信網(wǎng)絡(luò)(deep belief network,DBN)進行優(yōu)化,從而實現(xiàn)故障診斷,但過程較為復(fù)雜。文獻[11]利用模糊C均值聚類算法(fuzzy C-means,F(xiàn)CM)使每一類故障的非相似性指標值最大,并由隸屬度的大小判別故障數(shù)據(jù)與故障模式的相似程度,從而達到診斷光伏系統(tǒng)故障的目的,但是也存在算法較為復(fù)雜的問題。
小波包變換(wavelet packet transformation,WPT)是小波變換(wavelet transformation, WT)的延伸[12,13]。小波變換只對信號的低頻部分做進一步分解,而對高頻部分即信號的細節(jié)部分不再繼續(xù)分解,小波包變換可以對高頻部分提供更精細的分解,而且這種分解既無冗余,也無疏漏,適合于對包含大量中、高頻信息的信號進行更好的時頻局部化分析。把小波包變換應(yīng)用于光伏系統(tǒng)的故障診斷中,利用小波包變換對故障數(shù)據(jù)進行特征提取,可進一步提高故障分類的準確性。
隨機森林算法(random forest,RF)是Breiman L[14]于2001年提出結(jié)合Bagging集成學習理論與隨機子空間方法的一種機器學習算法,RF具有實現(xiàn)簡單、訓(xùn)練速度快、不易被噪聲干擾的優(yōu)點,在某些特征損失的情況下,仍可以維持一定的準確率。目前,隨機森林算法已經(jīng)應(yīng)用在圖像識別[15]、電能質(zhì)量分析[16]、多電平逆變器故障診斷[17]等方面,但在光伏系統(tǒng)故障分類領(lǐng)域的應(yīng)用還較少。
本文將小波包與隨機森林算法相結(jié)合并首次應(yīng)用于光伏系統(tǒng)故障分類中。利用小波包變換對采集的光伏系統(tǒng)故障電壓數(shù)據(jù)進行分解,提取各頻帶能量作為故障特征,將故障特征樣本送入RF中進行分類。對比RBF神經(jīng)網(wǎng)絡(luò)的分類結(jié)果表明,RF方法有效提高了光伏系統(tǒng)故障分類的準確性。
光伏系統(tǒng)在運行過程中會出現(xiàn)各種故障,影響系統(tǒng)的輸出功率,一般來說,光伏系統(tǒng)中的故障總體分為外部環(huán)境故障、光伏系統(tǒng)電力故障和物理故障等。按位置分為交流級故障和直流級故障。交流故障包括門控和開關(guān)故障,開路和短路故障,以及電路中導(dǎo)致濾波器故障的諧波;而直流故障包括各種基于模塊的故障,最大功率點跟蹤(MPPT)算法的故障,以及與DC-DC轉(zhuǎn)換器相關(guān)的故障等。對光伏系統(tǒng)的各種故障進行統(tǒng)計,見表1。
表1 光伏系統(tǒng)故障Tab.1 Photovoltaic system failure
光伏系統(tǒng)中的每一種故障的發(fā)生都對輸出電壓和電流有特定影響,與正常運行情況相比,會導(dǎo)致輸出的波形不同。這些波形在時域和頻域中具有不同的特征,而小波包變換具有同時對時域和頻域進行分析的能力,因此,首先采用小波包變換提取光伏系統(tǒng)故障特征,再利用RF對其進行分類,以便進一步提高故障分類的準確性。
小波包變換是小波變換的延伸,它將小波變換沒有分解的高頻信號繼續(xù)向底層分解,提高了信號的時頻分辨率,三層小波包分解樹結(jié)構(gòu)如圖1所示,其中:A表示低頻信號;D表示高頻信號;下角標數(shù)字表示分解的層數(shù)。
小波包變換滿足雙尺度方程[18]:
(1)
圖1 三層小波包分解樹結(jié)構(gòu)示意圖Fig.1 Three-layer wavelet packet decomposition tree structure diagram
基于小波包變換提取故障特征的步驟如下:
(1) 小波包分解:對故障信號進行j層小波包分解,得到2j個不同信號的子頻帶,并按低頻到高頻的順序重新排列,采用正交小波包變換對信號X(t)進行分解,則l層k點的小波包分解系數(shù)如式(2)和(3)所示:
(2)
(3)
式中:l為小波包分解層數(shù);r=0,1,2,…,2l-1為相應(yīng)層數(shù)下節(jié)點的個數(shù);k=1,2,3,…,2l是第j層的第k個節(jié)點。
(4)
(5)
(6)
由此,特征向量A的構(gòu)造如式(7)所示:
A=[El1,El2,…,El2l]
(7)
隨機森林算法(RF)是一種基于Bagging[19]和決策樹[20]的有監(jiān)督學習算法,它的基本原理就是以分類回歸樹(classification and regression,CART)生成的決策樹作為基分類器,每個基分類器都會相應(yīng)地產(chǎn)生一個分類結(jié)果,最后采用眾數(shù)投票的方式獲得最終的分類結(jié)果。RF分類模型利用自助抽樣和隨機子空間思想(兩重隨機性),能對多維、多特征數(shù)據(jù)進行快速有效處理。同時RF能夠很好地解決單個分類器性能提升的瓶頸問題以及過擬合的問題,有較強的泛化能力,適用于解決分類問題。
因為RF模型是由單棵決策樹構(gòu)建的,所以單棵決策樹的分類能力以及決策樹之間的關(guān)聯(lián)性對RF模型的分類準確率有重要影響,可由RF算法的泛化誤差界PE*表征為
(8)
式中:a代表每棵決策樹的分類能力;θ表示不同決策樹之間的關(guān)聯(lián)性。
由式(8)可知,泛化誤差界與a成負相關(guān),與θ成正相關(guān),當a越大,θ越小時,泛化誤差界越小,相應(yīng)的分類準確度越高。
RF的特點就是利用了兩重隨機性,一是自助抽樣:對T個原始樣本集進行隨機抽樣選擇,得到一定的樣本子集用于決策樹訓(xùn)練;二是隨機子空間思想:對m個樣本特征屬性進行隨機抽樣,選擇d個特征,來劃分樣本,兩重隨機性進一步提升了RF的分類性能。RF分類模型構(gòu)建過程主要包括以下3個步驟:
(1) Bootstrap重采樣:利用Bootstrap法在原始訓(xùn)練樣本集T中隨機有放回地進行l(wèi)次抽樣,形成l(l (9) 當l→∞時,有 (10) 在RF中未被抽中的約38%的樣本數(shù)據(jù)被稱為袋外數(shù)據(jù)(out of bag,OOB)[21],在生成每一棵決策樹時,都可以同時計算得到一個OOB誤差估計,將RF中的所有決策樹的OOB誤差估計取平均值,即可得到RF的泛化誤差估計。 (2) 決策樹基分類器構(gòu)建:利用CART算法構(gòu)建相應(yīng)的決策樹并組合成隨機森林。采用隨機子空間思想從m個特征變量中隨機等概率抽取d個子變量組成該節(jié)點的分裂特征變量子集,并利用CART算法中基尼系數(shù)(Gini index,Gini)值最小原則選出一個最優(yōu)的分裂特征變量和最優(yōu)分裂值對該節(jié)點進行分裂,遞歸建樹直到每個特征變量被用作分裂節(jié)點,重復(fù)上述隨機過程N次,即建立了N棵決策樹,組合成隨機森林。定義Gini系數(shù): (11) 式中:di是當前某一所選特征變量;k是特征變量di所對應(yīng)的類別數(shù);pk是樣本點屬于第k類的概率。 (3) 投票表決:針對輸入的測試樣本集,每個決策樹都會相應(yīng)地有一個分類結(jié)果,對其進行投票表決,將決策樹分類結(jié)果得票數(shù)量多的作為最終的決策,如式(12)所示。 (12) 式中:Y(x)是RF對測試集樣本最終的分類結(jié)果;yn(x)=i是第n棵決策樹的輸出結(jié)果為i;λ(*)是滿足括號中表達式的個數(shù);z是隨機森林類別的數(shù)量。 RF構(gòu)建的分類流程圖如圖2所示。 圖2 RF算法構(gòu)建分類流程圖Fig.2 RF algorithm construction classification flowchart 基于小波包和RF的光伏發(fā)電系統(tǒng)故障分類融合了不同特征的故障分類信息,圖4為故障分類流程圖。 圖3 光伏系統(tǒng)的故障分類原理圖Fig.3 Schematic diagram of fault classification of photovoltaic system 圖4 故障分類流程圖Fig.4 Fault classification flowchart 在1 000 W/m2輻照度和25 ℃的標準測試條件下,利用PSCAD/EMTDC仿真軟件搭建兩級獨立光伏發(fā)電系統(tǒng),見圖5。系統(tǒng)包括:光伏陣列、DC-DC升壓轉(zhuǎn)換器、逆變器和交流負載,其中MPPT算法采用擾動觀察法[22](Perturb & Observe,P&O),以占空比(PWM)的形式控制升壓轉(zhuǎn)換器,光伏系統(tǒng)的輸出為230 V,50 Hz交流電,為恒定負載供電。選取12種光伏系統(tǒng)關(guān)鍵故障。 圖5中各故障電壓數(shù)據(jù)通過搭建的PSCAD/EMTDC模型獲取,采樣時長為1 s,采樣間隔為0.2 ms。為了測試所提出的診斷策略的有效性,在電壓樣本中隨機加入10%的高斯噪聲,每類故障重復(fù)采集50次,總共獲得600個樣本集。對樣本集采用小波包變換提取故障特征,選擇有較強魯棒性,受噪聲影響小的‘db5’小波基函數(shù),對12種故障狀態(tài)(包括無故障狀態(tài))下的數(shù)據(jù)進行3層小波包分解。提取各頻帶能量作為故障特征,共得到8個樣本特征,則每個故障類別有50×8個樣本特征矩陣,12種故障狀態(tài)共有600×8個樣本矩陣。選取其中360個樣本用于訓(xùn)練RF分類器,剩余240個樣本用于測試RF的分類性能。詳細故障類型及其類別標簽見表2。 圖5 PSCAD/EMTDC模擬的光伏系統(tǒng)故障示意圖Fig.5 Schematic diagram of photovoltaic system failure simulated by PSCAD/EMTDC 給出Boost電路二極管短路故障(故障5),在t=0.3 s時,升壓轉(zhuǎn)換器二極管短路,監(jiān)測到的電壓變化曲線如圖6所示。 采集故障5電壓數(shù)據(jù),選擇‘db5’小波基函數(shù)對電壓信號S進行3層小波包分解、重構(gòu),得到單支重構(gòu)信號S3(1),…,S3(8),如圖7所示。 利用小波包變換提取各頻帶能量作為故障特征,用于訓(xùn)練分類器,經(jīng)3層小波包分解后提取得到能量值(是每個單支重構(gòu)信號的幅值和,無量綱),如圖8所示,可明顯的觀察到故障狀態(tài)下提取的能量值之間有較大區(qū)別,適用于模型的訓(xùn)練與測試。 表2 故障類型及類別標簽Tab.2 Fault type and category label 圖6 Boost轉(zhuǎn)換器二極管短路故障下的電壓變化Fig.6 Voltage change under diode short circuit fault of Boost converter 圖7 二極管短路故障下的電壓DWT單支重構(gòu)信號Fig.7 Reconstruction signal of voltage DWT single branch under diode short circuit fault 圖8 Boost轉(zhuǎn)換器二極管短路故障電壓的小波包能量值Fig.8 Wavelet Packet Energy Value of Boost Converter Diode Short-circuit Fault Voltage 在算法運行前,需要設(shè)置RF中決策樹的棵數(shù)(ntree),初始默認值為500,根據(jù)故障數(shù)據(jù)來判斷決策樹棵數(shù)對RF的性能影響,將決策樹棵數(shù)設(shè)置為300棵時故障診斷準確性相對較高。對RF分類器進行訓(xùn)練后,利用240個測試集對構(gòu)建好的隨機森林模型進行分類準確率驗證,分類結(jié)果如圖9所示。 圖9 RF測試集分類結(jié)果Fig.9 RF test set classification results RF的實際分類結(jié)果表明,測試集分類準確率為97.92%,其中無故障狀態(tài),故障2、3、5、7、8、9、12這8種故障的分類準確率均為100%;故障4和故障11的分類準確率分別為80%和95%;測試樣本的混淆矩陣如表3所示。 表3 RF測試集混淆矩陣Tab.3 RF test set confusion matrix 將RF分類結(jié)果與RBF神經(jīng)網(wǎng)絡(luò)進行對比,用第4.2節(jié)小波包提取特征后的樣本數(shù)據(jù)送入RBF神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練和測試, 采用歐式距離計算兩樣本之間的間距,徑向基的擴展速度Spread值設(shè)置為0.3時,分類準確率最高,最終的分類結(jié)果見圖10。表4為兩種算法分類準確率對比,可見RF算法能較好地對光伏系統(tǒng)的故障進行分類識別,分類準確率高于RBF神經(jīng)網(wǎng)絡(luò),說明隨機森林算法分類精度較高、能夠很好地實現(xiàn)光伏系統(tǒng)的故障分類。 圖10 RBF測試集分類結(jié)果Fig.10 RBF test set classification results 表4 兩種算法的分類準確率對比Tab.4 Comparison of classification accuracy between the two algorithms (%) 提出一種基于小波包變換和隨機森林算法相結(jié)合的分類器對光伏系統(tǒng)進行故障分類。首先利用小波包變換提取光伏系統(tǒng)故障特征,再將提取到的特征樣本送入RF中訓(xùn)練分類器。小波包變換具有同時對時域和頻域進行分析的能力,可進一步提高故障分類的準確性。RF是一種結(jié)合集成學習理論和隨機子空間方法的新算法,能對多維、多特征數(shù)據(jù)進行快速有效處理,同時具有不易被噪聲干擾、容噪能力強、能避免過擬合等優(yōu)點,可對多種故障出準確分類;仿真結(jié)果表明:該方法可快速有效的識別出光伏系統(tǒng)12種故障狀態(tài),分類準確率達到97.92%,而傳統(tǒng)的RBF神經(jīng)網(wǎng)絡(luò)的分類準確率為93.75%,這表明本文方法使故障分類準確率提高了4.17%,可應(yīng)用于光伏發(fā)電系統(tǒng)的故障診斷。3.3 光伏系統(tǒng)故障分類原理和流程
4 仿真分析
4.1 光伏系統(tǒng)故障模擬
4.2 RF分類結(jié)果對比分析
5 結(jié) 論