基于Bagging改進算法變壓器油中氣體故障診斷研究*

2020-05-30 01:01蘆佩雯黃永晶董鳳珠

機電工程技術(shù) 2020年4期

蘆佩雯，黃永晶，張恒，董鳳珠

（1.成都紡織高等?？茖W校電氣信息工程學院，成都 611731;2.西華大學電氣與電子信息學院，成都 610039）

0 引言

變壓器是發(fā)電廠和變電所的核心設(shè)備之一，對變壓器故障診斷展開研究，對于降低故障發(fā)生率，提高電力系統(tǒng)的可靠性，具有重要的現(xiàn)實意義[1]。

變壓器出現(xiàn)故障后，其油液溶解的氣體與正常工作狀態(tài)下的氣體濃度具有明顯差異，變壓器油中溶解氣體分析(dissolved gas analysis，DGA)基于此對變壓器故障類別進行識別[2]，方法簡單實用，但故障類型的判定過于依賴專家經(jīng)驗，存在故障類別判定不全，無法識別多故障類別的局限。

尹豪杰[3]在DGA的基礎(chǔ)上，將4種常見的單一預測方法和馬爾科夫理論、誘導有序加權(quán)平均算子結(jié)合起來，提出了一種新的DGA預測模型；劉佳佳[4]將DGA和指標加權(quán)法結(jié)合起來，建立了一種變壓器故障在線監(jiān)測方法；葛許良[5]在DGA的基礎(chǔ)上，構(gòu)建了分類深度置信網(wǎng)絡(luò)(CDBN)診斷模型，提出了變壓器在線監(jiān)測與故障診斷方法；朱遙野[6]利用BP神經(jīng)網(wǎng)絡(luò)和灰色理論建立組合模型實現(xiàn)變壓器故障性質(zhì)診斷；賈京龍[7]分別選取深度學習機、極限學習機對變壓器故障進行診斷；李春茂、徐牧等分別將粗糙集[8-9]、神經(jīng)網(wǎng)絡(luò)[10]、支持向量機[11-12]、專家系統(tǒng)[13]、模糊理論[14]等人工智能方法用于變壓器的故障診斷，并取得較好的診斷效果。但是，這些方法在使用過程中，受到隨機因素的影響，穩(wěn)定性較差，并且隨機初始化權(quán)值具有缺陷，容易陷入極限值，其可靠性和適應(yīng)性有待提高。

本文對基于Bagging的集成算法做了進一步理論分析，提出基于SMOTE的Bagging改進算法，既克服了傳統(tǒng)Bagging和Boosting算法存在盲目性和隨機性的缺點，保證整體的分類準確率，又提高對少數(shù)類分類精度，并在基于DGA的變壓器故障診斷中驗證該方法的性能。

1 Bagging算法

1.1 Bagging算法的引入

與標準AdaBoost只適用于二分類任務(wù)不同，Bagging能不經(jīng)修改地用于多分類、回歸等任務(wù)。Bagging（bootstrap aggregating）算法通過構(gòu)造預測函數(shù)系列，再以一定的方式重新組合成新的預測函數(shù)提高學習算法的準確度。邏輯上講Bagging模型就是利用并行訓練多個弱分類器，構(gòu)成一個強分類器。單個弱學習算法通過多次使用該學習算法，得到新的預測函數(shù)序列，可以有效減少數(shù)據(jù)變化帶來的誤差，提升預測準確率。

1.2 Bagging算法過程

Bagging算法分為兩個步驟：（1）分類，對每個基分類器抽樣并訓練得到強學習機，以強學習機作為模型，將多個弱分類器集成為強分類器；（2）自助采樣，對基分類器的結(jié)果用加權(quán)或投票的方式進行合并，提高集成模型的預測精度，完成待診斷記錄的故障判別[15]。

具體算法如下。

輸入：訓練集合T，測試數(shù)據(jù)x，分類方法C；

輸出：x的類別判別R。

begin

for i=1，2，…，Ndo

Ti=bootstrap(T)；

Ci=C(Ti)；

Ri=Ci(x)；

endfor.

R=CntMax(Ri)；

end.

其中，CntMax表示尋求最多的支持類別，由N個分類器的判定結(jié)果得到。

自助采樣也是Bagging的一個優(yōu)點：因為每個基學習器只使用了初始訓練集中約60%的樣本，剩下的40%的樣本可用作驗證集對泛化性能進行“包外估計”，所以，記錄每個基學習器的訓練樣本，并且令Tn表示tn實際使用的訓練樣本集，令Toob()

x表示對樣本x的包外預測，即僅考慮那些未使用訓練的基學習器在x上的預測，有：

則Bagging泛化誤差的包外估計為：

Bagging主要關(guān)注降低方差，因此它在支持向量機、神經(jīng)網(wǎng)絡(luò)等容易受樣本擾動的學習器上效果更為明顯。本文將支持向量機、神經(jīng)網(wǎng)絡(luò)等作為基學習器，將Bagging算法進行改進以提高變壓器故障診斷的性能。

2 Bagging改進算法

傳統(tǒng)的Bagging算法，對訓練集樣本隨機采樣，泛化能力強，分類精度高，但集成規(guī)模大，輸出預測結(jié)果的速度較慢，并不是最理想的算法。

虛擬少數(shù)類向上采樣是Chawla等[16]提出的一種向上采樣方法，簡稱為SMOTE(synthetic minority over-sampling technique)，假設(shè)X是少數(shù)類樣本的輸入，它有a個同類最近鄰，記為a1～an，隨機選擇ai，在X和ai之間進行隨機線性插值，即可構(gòu)造出新的少數(shù)類樣本，新樣本為

式中：u(0，1)為（0，1）之間的隨機數(shù)。

SMOTE算法在原有訓練集樣本的基礎(chǔ)上，按照一定的方法生成新樣本，擴大樣本個數(shù)，使分類器的分類平面從少數(shù)類向多數(shù)類擴展，從而不用擔心分類器過度擬合的問題。

基于SMOTE的Bagging改進算法，首先利用SMOTE算法生成新樣本，提高少數(shù)類樣本與多數(shù)類樣本之間的平衡性；接著通過對少數(shù)類樣本加權(quán)的方式使基分類器偏重少數(shù)類樣本，提高少數(shù)類的分類精度；最后利用Bagging算法進行集成改進，既提高了少數(shù)類分類精度，又保證了整體分類的準確率，具有很好效果。

定義：X為樣本總集；n為樣本數(shù)組；Xmin為X中的少數(shù)類樣本；Xmax為X中的多數(shù)類數(shù)組樣本；k為計數(shù)數(shù)組；w為樣本權(quán)重；IB、OB為樣本集合；R為任意樣本；abs()為求絕對值，Mean()為求均值；Square()為求方差。

闡述算法步驟如下。

（1）確定少數(shù)類樣本

分別記錄樣本總集X中每個類別所包含樣本個數(shù)k和樣本數(shù)組n；計算k的均值Mean(k)、方差Square(k)；若樣本k[i]＜Mean(k)且 abs(k[i]-Mean(k))＞Square(k)，則此類為少數(shù)類樣本：Xmin[j]=n[i]；反之為多數(shù)類樣本：Xmax[j]=n[i]。

（2）增加少數(shù)類樣本的數(shù)量

根據(jù)SMOTE算法，對少數(shù)類樣本Xmin中的任意樣本R求5個同類最近鄰a1～a5，選擇其中一個最近鄰ai，計算R與ai的屬性差值向量R-ai；選取(0，1)之間的隨機數(shù)u，由式（1）得到新樣本Rnew=R+u(0，1)·(R-ai)，以此類推，每個樣本通過這種方式得到10個新樣本，將所有新樣本加入原樣本總集，得到新的樣本總集Xnew。

（3）確定訓練樣本權(quán)重

對新樣本總集Xnew中的任意樣本R，若R∈Xmax[]j，則樣本的權(quán)重為：

式中：k[j]為Xmax[j]包含樣本的個數(shù)；∑k[i]為所有樣本的個數(shù)。

若R∈Xmin[]j，則樣本的權(quán)重為：

式中：k[j]為Xmin[j]包含樣本的個數(shù)；∑k[i]為所有樣本的個數(shù)。

（4）對基分類器進行訓練

IB為使用Bagging算法從新樣本集Xnew抽取的樣本，OB為未抽取的樣本，用IB進行基分類器的訓練，用OB對基分類器進行測試，測試結(jié)果作為每個基分類器的權(quán)重w，再以此為基礎(chǔ)進行投票，即可確定分類結(jié)果。

為了驗證Bagging改進算法的性能，選用接受者操作特性曲線（receiver operating characteristic curve，ROC曲線）下的面積（AUC）作為評價指標[17]。使用UCI中的不平衡類數(shù)據(jù)集Pima-Indians-Diabetes作為測試數(shù)據(jù)，Bagging算法的AUC=0.798，而Bagging改進算法的AUC=0.948，測試結(jié)果如圖1所示。由圖可知Bagging改進算法總體上表現(xiàn)出了良好的性能，X值從0.3開始，Y值幾乎就達到了最佳并一直保持。由此可知，基于SMOTE的Bag-ging改進算法可以平衡少數(shù)類樣本與多數(shù)類樣本之間的差距，提高兩者的平衡性，利用Bagging算法使用加權(quán)的形式進行集成，可以同時保證整體和少數(shù)類分類的分類精度。

圖1 Pima-Indians-Diabetes數(shù)據(jù)集ROC曲線

3 基于Bagging改進算法的變壓器故障診斷

3.1 變壓器故障類別的判定依據(jù)

變壓器發(fā)生故障前往往會伴隨一段放電或放熱的過程，變壓器油會溶解釋放出氫氣、甲烷、乙烷、乙烯、乙炔等5種特征氣體，根據(jù)變壓器正常狀態(tài)和發(fā)生故障時5種特征氣體的含量會發(fā)生改變的特點，通過對各氣體成分含量的分析就可判斷變壓器故障。變壓器的故障類別可以分為：（1）局部放電；（2）低能放電；（3）低能放電及過熱；（4）電弧放電；（5）電弧放電及過熱；（6）無故障；（7）低溫過熱；（8）中溫過熱；（9）高溫過熱。

圖2 Bagging改進算法的流程原理圖

3.2 Bagging改進算法的流程

對變壓器故障診斷來說，數(shù)據(jù)樣本選取的合理性與故障預測正確率高低有密切聯(lián)系，數(shù)據(jù)樣本選取后，首先要對數(shù)據(jù)進行處理，以便建立可靠的訓練模型。然后按照基于SMOTE的Bagging改進算法的步驟對數(shù)據(jù)樣本進行訓練、分類并最終確定結(jié)果。Bagging改進算法的流程原理圖如圖2所示。

利用Matlab將分類標簽以及輸入數(shù)據(jù)矩陣分開，把數(shù)據(jù)樣本導入生成一張數(shù)據(jù)表格，對訓練及預測數(shù)據(jù)樣本集劃分，將故障類別數(shù)據(jù)樣本中的每一種故障樣本數(shù)據(jù)劃分成訓練集和預測集兩部分，再將兩者分別重新組合在一起形成新的訓練集和預測集，最后對數(shù)據(jù)采用X=normr(X)進行歸一化預處理，使數(shù)據(jù)庫中數(shù)據(jù)的行或列標準化。

3.3 仿真試驗

本文以變壓器油中氣體含量的差異作為故障類別判斷的依據(jù)，以文獻[12]中的原始數(shù)據(jù)作為樣本集，60%的數(shù)據(jù)用于訓練集，40%用于測試集。180個故障樣本，將其中的105個樣本作為訓練集，余下75個樣本作為測試集。

運用Bagging改進算法對所選取的105個訓練樣本進行訓練學習，其中弱分類器包含神經(jīng)網(wǎng)絡(luò)和k近鄰、支持向量機、貝葉斯分類等。仿真模型運用Matlab集成學習工具箱中的fitcensemble 實現(xiàn) ，其中：“goodResults={′TotalBoost′，′RUSBoost′，...，′LPBoost′，′AdaBoostM2，′Bag′;Mdl=fitcensemble(X，Y，′Method，′Bag，..′NumLearningCycles′，500，′Learners′，t)”。

圖3 迭代曲線

建立Bagging的預測模型時，首先對樣本數(shù)據(jù)進行500次的交叉驗證學習，使得到的結(jié)果能夠達到最佳訓練效果，預測精確趨近理想值，迭代曲線如圖3所示。

對75組測試樣本集，9種故障類別進行預測仿真試驗，為了便于圖形的可視化效果，對預測結(jié)果進行可視化處理，如圖4所示。從圖中可以看出，75組測試樣本中，僅有7組樣本的預測結(jié)果與實際結(jié)果不符，且集中在低溫過熱、中溫過熱和高溫過熱3種故障狀態(tài)，其余故障狀態(tài)則能夠?qū)崿F(xiàn)100%的準確預測。

圖4 Bagging改進算法的變壓器故障預測分類圖

為了證明Bagging改進算法的性能，本文選取同一組樣本集，同時用 TotalBoost，RUSBoost，LPBoost，AdaBoostM2 等Boosting衍生算法以及單分類器構(gòu)成的SVMonly、BP神經(jīng)網(wǎng)絡(luò)和Bagging幾種方法進行故障診斷預測精度比較試驗，結(jié)果如表1所示。

表1 多種方法的故障診斷預測精度比較

從表中很容易看出，BP神經(jīng)網(wǎng)絡(luò)和單分類器SVMonly的預測精度最差，這也說明了變壓器故障診斷難以建立精確的數(shù)學模型，使用單一分類器很難取得良好的預測效果，必須使用集成算法提高預測精度。從表中還可以看出，在同樣的預測條件下，Bagging算法與Boosting算法性能基本接近，預測精度在84%～86.3%的區(qū)間范圍內(nèi)，說明了集成算法在變壓器故障診斷中具有優(yōu)越性，預測精度較高。

本文提出的Bagging改進算法通過增加少數(shù)類樣本數(shù)量，減少少數(shù)類與多數(shù)類的不平衡性，調(diào)用弱學習算法完成對樣本集的訓練得到強學習機，利用強學習機作為變壓器故障診斷模型，將多個弱分類器集成為強分類器，通過對模型的反復學習來提高集成模型的預測精度，提取數(shù)列具有的深層規(guī)律特征，以完成待診斷記錄的故障判別。仿真實驗得出Bagging改進算法的預測精度達到90.67%，超過其他幾種方法，驗證了此方法有較好的適應(yīng)性和較高的診斷率，同時也證明了該算法的準確性和有效性。

4 結(jié)束語

（1）本文提出的Bagging改進算法使分類器的分類平面向多數(shù)類空間伸展，在一定程度上避免了分類器過度擬合，可以同時保證整體分類和少數(shù)類分類的準確度；

（2）針對變壓器故障前后階段油液中5類特征氣體容量不同的特點，應(yīng)用本文提出的Bagging改進算法進行變壓器油中氣體故障判別，具有較好的魯棒性與泛化能力，故障診斷精度高；

（3）不同方法的變壓器故障診斷實驗表明，本文提出的Bagging改進算法預測精度優(yōu)于BP神經(jīng)網(wǎng)絡(luò)方法和單分類器的SVM only，也優(yōu)于幾種Boosting的衍生算法和經(jīng)典的Bagging算法，其性能更加穩(wěn)定可靠。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡