蘆佩雯,黃永晶,張 恒,董鳳珠
(1.成都紡織高等??茖W校電氣信息工程學院,成都 611731;2.西華大學電氣與電子信息學院,成都 610039)
變壓器是發(fā)電廠和變電所的核心設(shè)備之一,對變壓器故障診斷展開研究,對于降低故障發(fā)生率,提高電力系統(tǒng)的可靠性,具有重要的現(xiàn)實意義[1]。
變壓器出現(xiàn)故障后,其油液溶解的氣體與正常工作狀態(tài)下的氣體濃度具有明顯差異,變壓器油中溶解氣體分析(dissolved gas analysis,DGA)基于此對變壓器故障類別進行識別[2],方法簡單實用,但故障類型的判定過于依賴專家經(jīng)驗,存在故障類別判定不全,無法識別多故障類別的局限。
尹豪杰[3]在DGA的基礎(chǔ)上,將4種常見的單一預測方法和馬爾科夫理論、誘導有序加權(quán)平均算子結(jié)合起來,提出了一種新的DGA預測模型;劉佳佳[4]將DGA和指標加權(quán)法結(jié)合起來,建立了一種變壓器故障在線監(jiān)測方法;葛許良[5]在DGA的基礎(chǔ)上,構(gòu)建了分類深度置信網(wǎng)絡(luò)(CDBN)診斷模型,提出了變壓器在線監(jiān)測與故障診斷方法;朱遙野[6]利用BP神經(jīng)網(wǎng)絡(luò)和灰色理論建立組合模型實現(xiàn)變壓器故障性質(zhì)診斷;賈京龍[7]分別選取深度學習機、極限學習機對變壓器故障進行診斷;李春茂、徐牧等分別將粗糙集[8-9]、神經(jīng)網(wǎng)絡(luò)[10]、支持向量機[11-12]、專家系統(tǒng)[13]、模糊理論[14]等人工智能方法用于變壓器的故障診斷,并取得較好的診斷效果。但是,這些方法在使用過程中,受到隨機因素的影響,穩(wěn)定性較差,并且隨機初始化權(quán)值具有缺陷,容易陷入極限值,其可靠性和適應(yīng)性有待提高。
本文對基于Bagging的集成算法做了進一步理論分析,提出基于SMOTE的Bagging改進算法,既克服了傳統(tǒng)Bagging和Boosting算法存在盲目性和隨機性的缺點,保證整體的分類準確率,又提高對少數(shù)類分類精度,并在基于DGA的變壓器故障診斷中驗證該方法的性能。
與標準AdaBoost只適用于二分類任務(wù)不同,Bagging能不經(jīng)修改地用于多分類、回歸等任務(wù)。Bagging(bootstrap aggregating)算法通過構(gòu)造預測函數(shù)系列,再以一定的方式重新組合成新的預測函數(shù)提高學習算法的準確度。邏輯上講Bagging模型就是利用并行訓練多個弱分類器,構(gòu)成一個強分類器。單個弱學習算法通過多次使用該學習算法,得到新的預測函數(shù)序列,可以有效減少數(shù)據(jù)變化帶來的誤差,提升預測準確率。
Bagging算法分為兩個步驟:(1)分類,對每個基分類器抽樣并訓練得到強學習機,以強學習機作為模型,將多個弱分類器集成為強分類器;(2)自助采樣,對基分類器的結(jié)果用加權(quán)或投票的方式進行合并,提高集成模型的預測精度,完成待診斷記錄的故障判別[15]。
具體算法如下。
輸入:訓練集合T,測試數(shù)據(jù)x,分類方法C;
輸出:x的類別判別R。
begin
for i=1,2,…,Ndo
Ti=bootstrap(T);
Ci=C(Ti);
Ri=Ci(x);
endfor.
R=CntMax(Ri);
end.
其中,CntMax表示尋求最多的支持類別,由N個分類器的判定結(jié)果得到。
自助采樣也是Bagging的一個優(yōu)點:因為每個基學習器只使用了初始訓練集中約60%的樣本,剩下的40%的樣本可用作驗證集對泛化性能進行“包外估計”,所以,記錄每個基學習器的訓練樣本,并且令Tn表示tn實際使用的訓練樣本集,令Toob()
x表示對樣本x的包外預測,即僅考慮那些未使用訓練的基學習器在x上的預測,有:
則Bagging泛化誤差的包外估計為:
Bagging主要關(guān)注降低方差,因此它在支持向量機、神經(jīng)網(wǎng)絡(luò)等容易受樣本擾動的學習器上效果更為明顯。本文將支持向量機、神經(jīng)網(wǎng)絡(luò)等作為基學習器,將Bagging算法進行改進以提高變壓器故障診斷的性能。
傳統(tǒng)的Bagging算法,對訓練集樣本隨機采樣,泛化能力強,分類精度高,但集成規(guī)模大,輸出預測結(jié)果的速度較慢,并不是最理想的算法。
虛擬少數(shù)類向上采樣是Chawla等[16]提出的一種向上采樣方法,簡稱為SMOTE(synthetic minority over-sampling technique),假設(shè)X是少數(shù)類樣本的輸入,它有a個同類最近鄰,記為a1~an,隨機選擇ai,在X和ai之間進行隨機線性插值,即可構(gòu)造出新的少數(shù)類樣本,新樣本為
式中:u(0,1)為(0,1)之間的隨機數(shù)。
SMOTE算法在原有訓練集樣本的基礎(chǔ)上,按照一定的方法生成新樣本,擴大樣本個數(shù),使分類器的分類平面從少數(shù)類向多數(shù)類擴展,從而不用擔心分類器過度擬合的問題。
基于SMOTE的Bagging改進算法,首先利用SMOTE算法生成新樣本,提高少數(shù)類樣本與多數(shù)類樣本之間的平衡性;接著通過對少數(shù)類樣本加權(quán)的方式使基分類器偏重少數(shù)類樣本,提高少數(shù)類的分類精度;最后利用Bagging算法進行集成改進,既提高了少數(shù)類分類精度,又保證了整體分類的準確率,具有很好效果。
定義:X為樣本總集;n為樣本數(shù)組;Xmin為X中的少數(shù)類樣本;Xmax為X中的多數(shù)類數(shù)組樣本;k為計數(shù)數(shù)組;w為樣本權(quán)重;IB、OB為樣本集合;R為任意樣本;abs()為求絕對值,Mean()為求均值;Square()為求方差。
闡述算法步驟如下。
(1)確定少數(shù)類樣本
分別記錄樣本總集X中每個類別所包含樣本個數(shù)k和樣本數(shù)組n;計算k的均值Mean(k)、方差Square(k);若樣本k[i]<Mean(k)且 abs(k[i]-Mean(k))>Square(k),則此類為少數(shù)類樣本:Xmin[j]=n[i];反之為多數(shù)類樣本:Xmax[j]=n[i]。
(2)增加少數(shù)類樣本的數(shù)量
根據(jù)SMOTE算法,對少數(shù)類樣本Xmin中的任意樣本R求5個同類最近鄰a1~a5,選擇其中一個最近鄰ai,計算R與ai的屬性差值向量R-ai;選取(0,1)之間的隨機數(shù)u,由式(1)得到新樣本Rnew=R+u(0,1)·(R-ai),以此類推,每個樣本通過這種方式得到10個新樣本,將所有新樣本加入原樣本總集,得到新的樣本總集Xnew。
(3)確定訓練樣本權(quán)重
對新樣本總集Xnew中的任意樣本R,若R∈Xmax[]j,則樣本的權(quán)重為:
式中:k[j]為Xmax[j]包含樣本的個數(shù);∑k[i]為所有樣本的個數(shù)。
若R∈Xmin[]j,則樣本的權(quán)重為:
式中:k[j]為Xmin[j]包含樣本的個數(shù);∑k[i]為所有樣本的個數(shù)。
(4)對基分類器進行訓練
IB為使用Bagging算法從新樣本集Xnew抽取的樣本,OB為未抽取的樣本,用IB進行基分類器的訓練,用OB對基分類器進行測試,測試結(jié)果作為每個基分類器的權(quán)重w,再以此為基礎(chǔ)進行投票,即可確定分類結(jié)果。
為了驗證Bagging改進算法的性能,選用接受者操作特性曲線(receiver operating characteristic curve,ROC曲線)下的面積(AUC)作為評價指標[17]。使用UCI中的不平衡類數(shù)據(jù)集Pima-Indians-Diabetes作為測試數(shù)據(jù),Bagging算法的AUC=0.798,而Bagging改進算法的AUC=0.948,測試結(jié)果如圖1所示。由圖可知Bagging改進算法總體上表現(xiàn)出了良好的性能,X值從0.3開始,Y值幾乎就達到了最佳并一直保持。由此可知,基于SMOTE的Bag-ging改進算法可以平衡少數(shù)類樣本與多數(shù)類樣本之間的差距,提高兩者的平衡性,利用Bagging算法使用加權(quán)的形式進行集成,可以同時保證整體和少數(shù)類分類的分類精度。
圖1 Pima-Indians-Diabetes數(shù)據(jù)集ROC曲線
變壓器發(fā)生故障前往往會伴隨一段放電或放熱的過程,變壓器油會溶解釋放出氫氣、甲烷、乙烷、乙烯、乙炔等5種特征氣體,根據(jù)變壓器正常狀態(tài)和發(fā)生故障時5種特征氣體的含量會發(fā)生改變的特點,通過對各氣體成分含量的分析就可判斷變壓器故障。變壓器的故障類別可以分為:(1)局部放電;(2)低能放電;(3)低能放電及過熱;(4)電弧放電;(5)電弧放電及過熱;(6)無故障;(7)低溫過熱;(8)中溫過熱;(9)高溫過熱。
圖2 Bagging改進算法的流程原理圖
對變壓器故障診斷來說,數(shù)據(jù)樣本選取的合理性與故障預測正確率高低有密切聯(lián)系,數(shù)據(jù)樣本選取后,首先要對數(shù)據(jù)進行處理,以便建立可靠的訓練模型。然后按照基于SMOTE的Bagging改進算法的步驟對數(shù)據(jù)樣本進行訓練、分類并最終確定結(jié)果。Bagging改進算法的流程原理圖如圖2所示。
利用Matlab將分類標簽以及輸入數(shù)據(jù)矩陣分開,把數(shù)據(jù)樣本導入生成一張數(shù)據(jù)表格,對訓練及預測數(shù)據(jù)樣本集劃分,將故障類別數(shù)據(jù)樣本中的每一種故障樣本數(shù)據(jù)劃分成訓練集和預測集兩部分,再將兩者分別重新組合在一起形成新的訓練集和預測集,最后對數(shù)據(jù)采用X=normr(X)進行歸一化預處理,使數(shù)據(jù)庫中數(shù)據(jù)的行或列標準化。
本文以變壓器油中氣體含量的差異作為故障類別判斷的依據(jù),以文獻[12]中的原始數(shù)據(jù)作為樣本集,60%的數(shù)據(jù)用于訓練集,40%用于測試集。180個故障樣本,將其中的105個樣本作為訓練集,余下75個樣本作為測試集。
運用Bagging改進算法對所選取的105個訓練樣本進行訓練學習,其中弱分類器包含神經(jīng)網(wǎng)絡(luò)和k近鄰、支持向量機、貝葉斯分類等。仿真模型運用Matlab集成學習工具箱中的fitcensemble 實 現(xiàn) , 其 中 :“goodResults={′TotalBoost′,′RUSBoost′,...,′LPBoost′,′AdaBoostM2,′Bag′;Mdl=fitcensemble(X,Y,′Method,′Bag,..′NumLearningCycles′,500,′Learners′,t)”。
圖3 迭代曲線
建立Bagging的預測模型時,首先對樣本數(shù)據(jù)進行500次的交叉驗證學習,使得到的結(jié)果能夠達到最佳訓練效果,預測精確趨近理想值,迭代曲線如圖3所示。
對75組測試樣本集,9種故障類別進行預測仿真試驗,為了便于圖形的可視化效果,對預測結(jié)果進行可視化處理,如圖4所示。從圖中可以看出,75組測試樣本中,僅有7組樣本的預測結(jié)果與實際結(jié)果不符,且集中在低溫過熱、中溫過熱和高溫過熱3種故障狀態(tài),其余故障狀態(tài)則能夠?qū)崿F(xiàn)100%的準確預測。
圖4 Bagging改進算法的變壓器故障預測分類圖
為了證明Bagging改進算法的性能,本文選取同一組樣本集,同時用 TotalBoost,RUSBoost,LPBoost,AdaBoostM2 等Boosting衍生算法以及單分類器構(gòu)成的SVMonly、BP神經(jīng)網(wǎng)絡(luò)和Bagging幾種方法進行故障診斷預測精度比較試驗,結(jié)果如表1所示。
表1 多種方法的故障診斷預測精度比較
從表中很容易看出,BP神經(jīng)網(wǎng)絡(luò)和單分類器SVMonly的預測精度最差,這也說明了變壓器故障診斷難以建立精確的數(shù)學模型,使用單一分類器很難取得良好的預測效果,必須使用集成算法提高預測精度。從表中還可以看出,在同樣的預測條件下,Bagging算法與Boosting算法性能基本接近,預測精度在84%~86.3%的區(qū)間范圍內(nèi),說明了集成算法在變壓器故障診斷中具有優(yōu)越性,預測精度較高。
本文提出的Bagging改進算法通過增加少數(shù)類樣本數(shù)量,減少少數(shù)類與多數(shù)類的不平衡性,調(diào)用弱學習算法完成對樣本集的訓練得到強學習機,利用強學習機作為變壓器故障診斷模型,將多個弱分類器集成為強分類器,通過對模型的反復學習來提高集成模型的預測精度,提取數(shù)列具有的深層規(guī)律特征,以完成待診斷記錄的故障判別。仿真實驗得出Bagging改進算法的預測精度達到90.67%,超過其他幾種方法,驗證了此方法有較好的適應(yīng)性和較高的診斷率,同時也證明了該算法的準確性和有效性。
(1)本文提出的Bagging改進算法使分類器的分類平面向多數(shù)類空間伸展,在一定程度上避免了分類器過度擬合,可以同時保證整體分類和少數(shù)類分類的準確度;
(2)針對變壓器故障前后階段油液中5類特征氣體容量不同的特點,應(yīng)用本文提出的Bagging改進算法進行變壓器油中氣體故障判別,具有較好的魯棒性與泛化能力,故障診斷精度高;
(3)不同方法的變壓器故障診斷實驗表明,本文提出的Bagging改進算法預測精度優(yōu)于BP神經(jīng)網(wǎng)絡(luò)方法和單分類器的SVM only,也優(yōu)于幾種Boosting的衍生算法和經(jīng)典的Bagging算法,其性能更加穩(wěn)定可靠。