,,,,,,, (.廣東電網有限責任公司河源供電局,廣東 河源 55000;.廣東工業(yè)大學自動化學院,廣東 廣州 50006)
油浸式變壓器是電力系統(tǒng)的核心設備之一,研究變壓器的絕緣老化對電網的安全穩(wěn)定運行具有十分重要的作用。油浸式變壓器的使用壽命取決于其絕緣狀態(tài),復合油紙絕緣狀態(tài)則是評估變壓器絕緣水平的重要指標[1]?;貜碗妷悍?recovery voltage method, RVM)通過提取回復電壓極化譜的特征量來評估變壓器油紙絕緣狀態(tài)。利用回復電壓法能夠無損診斷絕緣狀態(tài),并且準確地反映變壓器油紙絕緣內部緩慢的馳豫過程,在實際應用中取得了很好的效果[2]。
目前,國內外研究者對回復電壓法特征量和變壓器絕緣狀態(tài)展開了定性研究,如文獻[3]利用實驗證明回復電壓最大值越大,變壓器油紙絕緣老化越嚴重。文獻[4]通過熱加速老化論證了絕緣老化程度隨著中心時間常數(shù)變小而增大。由于大部分研究都是基于單個特征量進行定性地分析,并沒有充分挖掘多個特征量之間的內在聯(lián)系,對于多個特征量變化趨勢不一致的情況,將無法做出準確地判斷。為了獲得變壓器絕緣狀態(tài)更準確的信息,有研究者利用人工智能算法建立了綜合評判模型。例如,文獻[5]在搜集大量測試數(shù)據(jù)的基礎上,利用層次分析法建立了變壓器絕緣的標準狀態(tài)向量表。文獻[6]考慮絕緣狀態(tài)的不確定性,將各指標模糊化,并結合粗糙集理論對變壓器進行狀態(tài)評估。為了克服單一方法的局限性,研究人員開發(fā)出了將不同方法組合起來的綜合模型,如粗糙集與貝葉斯理論相結合、神經網絡與范例推理、聚類分析和模糊理論的結合等等。
上述方法都是基于單一分類器對絕緣狀態(tài)進行分類,單一分類器存在局部收斂、過擬合等問題。而分類器群則是基于集成學習的思想,通過不同的樣本集和特征集訓練多個基分類器,最后對各個分類器的輸出進行綜合分析得出最終評估結果。研究表明[7],分類器群不僅可以克服單分類器的局限性,還能夠提高分類的準確性。不同的屬性特征可以從不同的方面進行分類,集成學習將各分類結果加權綜合,能有效地降低陷入局部最優(yōu)的風險。
鑒于以上分析,在回復電壓法所得相關特征量較少的情況下,單個的分類器往往不能提取出有效地分類信息。下面融合核主成分分析與集成學習理論,建立變壓器油紙絕緣的分類器群模型。首先對所測樣本集進行矩陣變換,利用核函數(shù)的映射特性,得到高維的特征屬性集,有效地提取出分類特征量。然后在核空間中用隨機森林法建立集成學習的分類器群,對各基分類器進行加權求和,得到變壓器絕緣油紙狀態(tài)評估結果。
RVM是通過回復電壓測試儀,測得回復電壓曲線的特征量,進而對變壓器油紙絕緣狀態(tài)進行評估,由于其無損特性,在絕緣狀態(tài)評估領域得到了廣泛應用[8]?;驹砣缦拢菏紫扔弥绷鞲邏菏菇^緣介質兩端極化,保持充電狀態(tài)一段時間tc,使束縛電荷游離到介質表面;然后撤掉直流電壓并且短接兩極,這時候會發(fā)生放電過程,表面電荷釋放,內部則會緩慢地去極化,持續(xù)放電時間為td;當td 圖1 回復電壓測試電路 圖2 回復電壓曲線 選取回復電壓極化譜峰值電壓Urmp、主時間常數(shù)tcdom、最大初始斜率Srmax作為電力變壓器油紙絕緣狀態(tài)評估指標[10]。 極化譜峰值電壓Urmp取回復電壓曲線中的極大值,其值的大小與變壓器絕緣狀態(tài)成反比,其表達式為 Urmp=max(Urmax(tc)) (1) 式中:tc為測試時間;Urmax為回復電壓最大值。 主時間常數(shù)tcdom為極化譜峰值所對應的測量時間,其值越小,變壓器絕緣狀態(tài)越差,其表達示為 tcdom=argmax(Urmax(tc)) (2) 最大初始斜率Srmax反映了絕緣介質極化的速率,其值越大,極化響應速度越快,即絕緣狀態(tài)越差,其表達式為 (3) 式中,ur為回復電壓值。 隨著電力系統(tǒng)的不斷發(fā)展,準確的電力變壓器狀態(tài)評估對電網的規(guī)劃運行有重大的指導意義。基于變壓器狀態(tài)特征量的分類技術是當前較為常用的分類技術之一,它主要根據(jù)變壓器的某些屬性,例如油中溶解氣體、油中糖醛含量、運行年限等統(tǒng)計信息,借助機器學習的分類方法映射到不同的類狀態(tài)。目前,使用較為廣泛的分類技術主要有樸素貝葉斯(naive bayes, NB)、支持向量機(support vector machine, SVM)、決策樹(decision tree, DT)、神經網絡(neural networks, NN)等。但是這些單分類器存在過擬合、大量調參、局部最優(yōu)等問題,對于復雜的大數(shù)據(jù)并不能取得很好的效果,于是使用多個元分類器進行分類,綜合分類結果形成最終結果的分類器群的思想應運而生。隨機森林作為一種集成算法被提出來,能夠有效地克服單分類器的缺陷,且速度快、可擴展,更不需要調整大量參數(shù)[11]。 集成學習的集成效果取決于單個學習器的準確性和各學習器之間的差異性。如何提高這兩方面的性能,是集成學習的研究重點。隨機森林中為了提高各基學習器的差異性,對樣本和屬性都進行了隨機選擇,差異性的擴大進一步提升了隨機森林模型的泛華能力[12]。 基本步驟分為兩個部分:隨機采樣與完全分裂。 1)隨機采樣:首先對輸入的樣本矩陣進行行采樣,也就是隨機抽取一定量的樣本,每一次抽取都采用有放回的方式,保證抽取的樣本個數(shù)小于原始的樣本集,這樣得到的樣本集可能存在重復的樣本。用抽樣得到的部分樣本來訓練一個決策樹,每棵樹輸入樣本的隨機性極大地降低了出現(xiàn)過擬合的概率;而對于特征量的選取,采用隨機的列采樣,隨機得到的部分屬性用于決策樹的分裂。 2)完全分裂:決策樹的分裂屬性可以選擇信息增益[13]等策略,并且保證每一個節(jié)點都不能繼續(xù)分裂。 按照上面方法得到的每一棵決策樹,并沒有用到所有的樣本和所有的特征屬性,所以單棵樹分類性能較低。但是把多個較弱的分類器組合成分類器群后,分類能力就會大大增強,并且只有兩個參數(shù)需要控制,使得分類過程大大簡化。 每個決策樹都將得到一個分類結果,對分類結果進行投票,選取票數(shù)最多的類別將作為最終的結果,具體流程如圖3所示。 圖3 算法流程 單個分類器之間的差異性是影響分類器群性能的關鍵因素,而對于特征量偏少的數(shù)據(jù)集,將會導致各分類器之間差異性不大,往往不能提取出有效的分類信息。而核主成分分析是一種調整數(shù)據(jù)集維數(shù),并提取主要特征量的有效手段[14]。通過特定的核函數(shù)將輸入空間的主成分呈非線性關系映射到新的核特征空間,新的特征空間可以是任意維數(shù),甚至是無窮維。核主成分分析可以增加樣本特征量維數(shù),廣泛應用于特征提取、回歸分析等領域[15]。 設有一組樣本集xk∈Rn(k=1,…,m),通過核函數(shù)進行非線性映射,其協(xié)方差矩陣表示為 (4) 式中:?為非線性映射函數(shù)。 由于?(x)無法直接求出,所以引入核函數(shù)[16]來求解C的特征值和特征向量,即 nλa=Ka (5) (6) 通過求解矩陣方程,可以得到K′的特征值和特征向量,利用式(7)可以求得樣本矩陣X經非線性變換?后在v上的投影,即 (7) 1)利用回復電壓法測量所需特征量,并建立樣本矩陣X。 2)z-score標準化是一種基于均值和標準差的數(shù)據(jù)處理方法,可有效地減小樣本信息的丟失,故采用z-score標準化來處理原始數(shù)據(jù),其公式為 X′=(x-μ)/δ (8) 式中:X′為標準化后的樣本矩陣;μ和δ分別為X的平均數(shù)和標準差。 3)對X′進行核主成分分析,核函數(shù)用高斯徑向基函數(shù),即 (9) 式中,核參數(shù)σ取0.1。 4)由于特征值的大小與特征量對樣本集影響呈正相關,所以去掉特征值≤10-6的特征量,剩下的特征量即可看作是核主成分。 5)將經過核主成分分析的樣本集輸入隨機森林分類器進行訓練得到所需評估模型。 為了獲取數(shù)據(jù)樣本,在實驗室搭建了變壓器油紙絕緣物理模型,并在130℃下進行加速老化試驗。將測得的數(shù)據(jù)分為3類:第1類是絕緣紙聚合度大于500的,認為其絕緣良好;第2類是絕緣紙聚合度在250~500范圍內的,認為其絕緣較差,需引起注意;第3類是絕緣紙聚合度小于250的,認為其絕緣劣化嚴重,需進行檢修或退出運行[17]。 為驗證所建立模型的有效性和正確性,將基于核主成分分析的隨機森林分類(RFC)模型、BP神經網絡和模糊C均值分類器進行比較。BP網絡分類器分為3層,其中輸入層為3節(jié)點,隱含層為9節(jié)點,輸出為對應變壓器油紙絕緣狀態(tài)發(fā)展階段1~3。FCM選用的聚類系數(shù)m=2,分類數(shù)c=3。 通過實驗得到的330組樣本分為兩部分:一部分用于訓練分類器;一部分用于分類器的測試。通過對測試結果進行統(tǒng)計分析,分類器群RFC模型的準確率達到較高的92.2%,比單分類器的BP、FCM分別高6.6%、16.7%。比較而言,所建立的RFC模型明顯優(yōu)于其他兩種典型單分類器。 表1 BP、FCM和RFC模型性能 由表1列出的部分數(shù)據(jù)可以看出,第1個樣本應為第1類,但其特征量m1偏大,導致FCM將其誤判為第2類。第3個樣本由于m2偏大,導致BP和FCM均誤判為第1類。第4個樣本由于m2偏小,導致FCM誤判為第3類。第 5個樣本由于m3偏小,導致BP誤判為第2類。而RFC模型得出的結論則與實際狀態(tài)完全相符。 由于核主成分分析能夠把低維的特征量映射成高維,提取變壓器狀態(tài)信息更為充分,而隨機選擇不同的核特征量來構造不同的基分類器,能夠從不同方面學習數(shù)據(jù)集的狀態(tài)信息,從而提高了變壓器油紙絕緣評估的準確性。 由于實際樣本測試中會存在噪聲數(shù)據(jù),所以對實驗所得樣本集添加了5%的隨機噪聲。對于加噪的特征量進行分類,BP、FCM和RFC模型的準確率分別為73%、69%和87%。3種模型準確率均有所下降,但是RFC模型受到的影響明顯要低于BP和FCM,這是由于隨機森林理論構造的分類器群能夠將單分類器之間的偶然因素抵消,進而縮小分類器群的誤差,體現(xiàn)出更好的抗干擾能力和更好的穩(wěn)定性。 1)利用回復電壓法能夠無損地診斷電力變壓器油紙絕緣狀態(tài),并通過對極化譜特征量的提取分析建立油紙絕緣評估體系。 2)分類器群能夠克服單分類器的局限性,提高分類預測的能力,具有更好的魯棒性。 3)采用核主成分分析將低維的特征量非線性地映射到高維的核特征空間,有助于分類器狀態(tài)信息的提取,并且擴大了單個分類器之間的差異性,提高了分類器群的分類性能。 [1] 王有元,袁園,李劍,等.變壓器油紙絕緣可靠性的威布爾混合評估模型[J].高電壓技術, 2010,36(4):842-848. [2] 郭洪英.基于回復電壓極化譜小波包變換的變壓器絕緣老化診斷方法[J].電力系統(tǒng)保護與控制,2016,44(24):170-175. [3] 廖瑞金,孫會剛,袁泉.等.采用回復電壓法分析油紙絕緣老化特征量[J].高電壓技術, 2011,37(1):136-142. [4] 鄒陽,蔡金錠.油紙絕緣變壓器時域極化譜特性實驗分析[J].電工技術學報,2015,30(12):307-313. [5] 黃云程,蔡金錠.融合改進層次分析與灰色關聯(lián)法評估油紙絕緣狀態(tài)[J].儀器儀表學報,2015,36(9):2083-2090. [6] 謝松,鄒陽,蔡金錠.基于模糊粗糙集的變壓器油紙絕緣狀態(tài)評估[J].儀器儀表技術,2017,38(1):190-197. [7] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-37. [8] 江修波,黃彥婕,張濤.變壓器油紙絕緣水分的回復電壓分析法[J].高電壓技術,2010,36(12):2984-2989. [9] 周利軍,李先浪,王曉劍,等.基于回復電壓曲線的油紙絕緣狀態(tài)評估[J].高電壓技術,2014,40(2):489-496. [10] Tapan K Saha, Prithwiraj Purkait, Frank Muller. Deriving an Equivalent Circuit of Transformers Insulation for Understanding the Dielectric Response Measurements[J].IEEE Transactions on Power Delivery,2005,20(1):149-157. [11] 邱一卉, 米紅.基于隨機森林和轉導推理的特征值提取方法[J].廈門大學學報(自然科學版),2010,49(3):333-338. [12] 趙騰,王林童,張焰,等.采用互信息與隨機森林算法的用戶用電關聯(lián)因素辨識及用電量預測方法[J].中國電機工程學報,2016,36(3):604-614. [13] 賀建章, 王海波, 季知祥,等.基于隨機森林理論的配電變壓器重過載預測[J].電網技術,2017,41(8):2593-2597. [14] 肖慧,劉蘇東,黃小燕,等.基于核主成分的神經網絡集合預報建模研究[J].計算機仿真, 2010,27(12):163-166. [15] 胡青,孫才新,杜林,等.核主成分分析與隨機森林相結合的變壓器故障診斷方法[J].高電壓技術,2010,36(7):1725-1729. [16] 王向紅,朱昌明,毛漢領,等.基于核主成分分析及支持向量機的水輪機葉片裂紋源定位[J].振動與沖擊, 2010,29(11):226-229. [17] 單長星. 基于回復電壓法的變壓器絕緣測試系統(tǒng)的研制及應用[D].成都:西南交通大學,2013.1.2 特征量的選取
2 基于隨機森林的分類器群
3 核主成分分析
4 評估模型的建立
5 實例分析
6 結 語