陳新崗,陳姝婷,楊定坤,羅 浩,楊 平,崔煒康
1.重慶理工大學(xué)電氣與電子工程學(xué)院,重慶 400054 2.重慶市能源互聯(lián)網(wǎng)工程技術(shù)研究中心,重慶 400054 3.重慶大學(xué)輸配電裝備及系統(tǒng)安全與新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,重慶 400054
電力變壓器的正常運(yùn)行關(guān)乎電力的安全生產(chǎn)和供電可靠性,是電力系統(tǒng)中非常重要的設(shè)備。油浸式變壓器一般采用絕緣油和以纖維素為主要成分的絕緣油紙作為其內(nèi)絕緣結(jié)構(gòu),運(yùn)行過程中受到熱應(yīng)力、電場應(yīng)力、機(jī)械應(yīng)力及環(huán)境應(yīng)力等影響,絕緣能力逐漸降低。能夠適時對變壓器內(nèi)部油紙絕緣狀態(tài)進(jìn)行準(zhǔn)確的評估,對電網(wǎng)的安全、穩(wěn)定運(yùn)行具有重要意義[1]。
目前對變壓器進(jìn)行老化檢測的方法多為油中溶解氣體檢測,糠醛檢測,聚合度檢測等,但是這些檢測方法在實(shí)際運(yùn)用中還存在一定的局限性。油中溶解氣體的檢測步驟較為復(fù)雜,需要對氣體與油進(jìn)行分離且不能做到樣品的無損檢測;糠醛的檢測需要用到甲醇萃取,操作過程復(fù)雜,對操作人員技術(shù)及環(huán)境要求較高;聚合度的檢測需要停電吊芯,不容易獲取相關(guān)數(shù)據(jù)。選擇拉曼光譜檢測技術(shù)對變壓器油混合物進(jìn)行檢測,可以不與油樣直接接觸,檢測重復(fù)性較好;同時,拉曼光譜法對電磁波抗干擾能力強(qiáng),降低了變壓器油紙絕緣老化評估時對實(shí)際檢測環(huán)境的要求;且拉曼光譜法還可以與光纖傳感技術(shù)很好的結(jié)合起來,能夠?qū)崿F(xiàn)對現(xiàn)場變壓器快速準(zhǔn)確的評估。
為了將變壓器油拉曼檢測光譜與能夠反映不同老化程度的特征物聯(lián)系起來,需要探索更適合現(xiàn)有數(shù)據(jù)特征背景的算法[2],繼而對變壓器油紙絕緣老化更精確的評估。為了使樣本分布稀疏,重疊性少,易于分類,需要增加實(shí)驗(yàn)次數(shù)以擴(kuò)充數(shù)據(jù)庫;隨著實(shí)驗(yàn)的進(jìn)行,樣本數(shù)量逐漸增多,且每條光譜的信息特征點(diǎn)較多,樣本數(shù)據(jù)集維數(shù)升高;高維樣本數(shù)據(jù)集的特點(diǎn)一般為:數(shù)據(jù)規(guī)模較大,包含的信息價(jià)值密度低,容易引起維數(shù)災(zāi)難,且對高維樣本數(shù)據(jù)建模的過程中容易出現(xiàn)訓(xùn)練效率低或者時間成本升高等很多問題。因此引入三種不同類型的算法對得到的光譜樣本數(shù)據(jù)進(jìn)行分析。
本文研究中,通過模擬現(xiàn)場變壓器油紙絕緣加速熱老化過程,得到不同老化時間的油樣本,運(yùn)用實(shí)驗(yàn)室搭建的老化特征物拉曼檢測平臺,對樣本原始拉曼光譜信號進(jìn)行采集[3-4];采用復(fù)合稀疏導(dǎo)數(shù)建模法對原始光譜進(jìn)行去噪和基線校正處理;引入Filter法對差異較大的特征進(jìn)行選擇[5];基于特征選擇后的樣本,分別采用K-means聚類算法[6]、Fisher算法[7]和隨機(jī)森林算法[8]對變壓器油紙絕緣老化程度進(jìn)行判別分析,建立老化狀態(tài)評估模型,對測試集樣本進(jìn)行歸類,診斷樣本屬于哪一老化天數(shù)(老化程度)類別;基于多種評價(jià)因素,對比分析各類模型的判別能力。
評估算法有無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)之分,無監(jiān)督學(xué)習(xí)不考慮已有類別判斷,對樣本中心進(jìn)行迭代計(jì)算并歸類;有監(jiān)督算法在模型訓(xùn)練時輸入已知類別樣本信息進(jìn)行參考,對模型的建立有一定的影響。有監(jiān)督分類器算法有強(qiáng)分類器和弱分類器之分。強(qiáng)分類器隨機(jī)抽取訓(xùn)練集的子集,建立多個均具有判別效力的模型,通過投票機(jī)制匯總判別結(jié)果,進(jìn)而得出最終分類結(jié)果;弱分類器訓(xùn)練數(shù)據(jù)構(gòu)建單一判別模型,其分類效率由輸入的數(shù)據(jù)特征決定,輸入總體樣本中不同的訓(xùn)練集,測試集判別的結(jié)果也不相同。本文分別采用代表無監(jiān)督學(xué)習(xí)的K-means聚類算法、代表有監(jiān)督學(xué)習(xí)弱分類器的Fisher算法和代表有監(jiān)督學(xué)習(xí)強(qiáng)分類器隨機(jī)森林算法對變壓器油紙絕緣老化拉曼光譜分析。
K-means聚類是快速聚類中運(yùn)用歐氏距離進(jìn)行樣本-聚點(diǎn)計(jì)算的一種聚類形式,確定所需要劃分的類別數(shù),隨機(jī)選擇相應(yīng)類別數(shù)不相交的初始化聚點(diǎn),并計(jì)算其他各樣本到達(dá)類聚點(diǎn)的歐氏距離,如式(1)
(1)
以每個樣本最靠近初始聚點(diǎn)原則歸類,將樣本劃分成初始類別后,迭代計(jì)算各類別新的聚點(diǎn)并重新歸類,直到所有類別聚點(diǎn)不再有變化則迭代結(jié)束。
Fisher算法的原理是通過某些決策函數(shù)的計(jì)算,將高維數(shù)據(jù)集樣本投影到低維子空間上,使得這些不同類別的數(shù)據(jù)集樣本在低維子空間上的分離性最佳。
設(shè)樣本訓(xùn)練總體為{Gi} (i∈{1,2,…,10}),Gi是第i類樣本的集合。判別函數(shù)是構(gòu)成Fisher判別模型的重要部分;Fisher算法中構(gòu)造判別函數(shù)的原則是不同類別之間距離最大,類別中所有樣本距離最小,即要滿足式(2)達(dá)到最大。
(2)
其中,wT為投影向量,μk為樣本質(zhì)心,vk為協(xié)方差矩陣。
Fisher判別模型建立后,將測試集樣本各變量帶入判別函數(shù),得到各樣本觀測值的具體空間位置,計(jì)算各樣本距離類別組質(zhì)心位置,距離哪一類別組質(zhì)心位置最近,就歸為此類。
隨機(jī)森林算法是Breiman在2001年提出的決策樹集成分類器,主體思想是將多個單一分類器聯(lián)系起來,對隨機(jī)選取的不同特征建立決策樹群,之后通過對所有決策樹結(jié)果進(jìn)行投票來決定類別歸屬。該算法在近些年來被廣泛運(yùn)用,在電氣研究領(lǐng)域展現(xiàn)了不錯的數(shù)據(jù)處理能力[9],具有以下優(yōu)點(diǎn)[10]:能夠有效地運(yùn)用在高維數(shù)據(jù)集中;能夠處理高維數(shù)據(jù)且不需要降維;內(nèi)部生成誤差為無偏估計(jì);運(yùn)行效率高;具有較高分類精度且泛化能力強(qiáng)。
設(shè)計(jì)如圖1所示的拉曼光譜檢測平臺,為了避免高溫引起過高的暗電流和閱讀噪聲以提高CCD探測器的靈敏度,檢測前將其內(nèi)部工作溫度降至零下10 ℃;為了避免室內(nèi)光線對樣品檢測的干擾,整個檢測過程在黑暗環(huán)境中進(jìn)行;實(shí)驗(yàn)室環(huán)境溫度為25 ℃;設(shè)置儀器恒定激光功率為300 mW,數(shù)據(jù)采集積分時間為0.3 s,積分次數(shù)為10。
圖1 拉曼光譜檢測實(shí)驗(yàn)平臺結(jié)構(gòu)示意圖Fig.1 Schematic diagram of Raman spectroscopy detection experimental platform
依據(jù)IEEE導(dǎo)則進(jìn)行油紙絕緣加速熱老化樣本的制備。流程圖如圖2。定期取樣并獲取10類老化時間分別為0,1,3,5,7,9,12,17,21和24 d的100個油紙絕緣樣本拉曼光譜。
圖2 油紙絕緣加速老化實(shí)驗(yàn)流程圖Fig.2 Flow chart of accelerated aging experiment of oil-paper insulation
從實(shí)驗(yàn)中獲取到10類不同老化天數(shù)的變壓器油老化拉曼光譜圖,圖3反映了各類光譜圖的顯著差異。
圖3 不同老化天數(shù)變壓器油拉曼光譜Fig.3 Raman spectra of transformer oil for different aging time
采用復(fù)合稀疏導(dǎo)數(shù)建模法對原始拉曼光譜數(shù)據(jù)進(jìn)行預(yù)處理。此方法能夠?qū)⒒€校正和噪聲去除兩部分合并處理,極大地簡化了預(yù)處理步驟。
復(fù)合稀疏導(dǎo)數(shù)建模法的原理是逆行推導(dǎo)光譜信號的分解過程,建立基于構(gòu)造一個凸優(yōu)化問題來封裝基線和光譜峰的非參數(shù)模型,代數(shù)推導(dǎo)過程見文獻(xiàn)[11]。將原始拉曼光譜信號y建模為三個部分,如式(3)
y=x+f+w
(3)
其中,x為稀疏狀峰值信號,f為低通基線,w為平穩(wěn)白色高斯噪聲。
(4)
圖4 復(fù)合稀疏導(dǎo)數(shù)建模預(yù)處理Fig.4 Preprocessing with compound sparse derivative modeling
針對拉曼光譜,前期一般使用特征提取的方法,例如主成分分析,小波包能量熵等方法,這些方法雖然可以快速提取樣本中大部分有效信息,但是在整合信息的同時,提取出來的重要成分不能與每個光譜信息點(diǎn)的物理意義聯(lián)系起來,也不方便對油中溶解物質(zhì)的老化機(jī)理進(jìn)行后續(xù)研究。
如圖5,根據(jù)不同老化程度光譜圖對比,可以看到其中有很多差異譜段,還有一些譜段處于高度重合狀態(tài),若將光譜圖全部導(dǎo)入判別模型,可能會因?yàn)闊o效信息過量造成干擾現(xiàn)象。遂采用差異特征選擇[12]的方法進(jìn)行處理,同時保留了光譜信息點(diǎn)包含的物理含義。研究發(fā)現(xiàn),油中溶解的某些化學(xué)物質(zhì)有其對應(yīng)的拉曼頻移特征點(diǎn)[13-14],對于差異特征點(diǎn)的抽取,有利于進(jìn)一步探究隨著變壓器油紙絕緣不斷老化,同一拉曼頻移下對應(yīng)的光譜差異特征點(diǎn)強(qiáng)度變化與油中溶解物質(zhì)的老化機(jī)理關(guān)系。
圖5 不同老化程度油樣拉曼光譜對比Fig.5 Comparison of Raman spectra of oil under different aging degrees
(5)
方差可以表示一組數(shù)據(jù)的顯著差異,能夠較好的將差異特征點(diǎn)提取出來。
如圖6,通過對所有拉曼頻移下的數(shù)據(jù)集方差按從小到大依次排列作圖,可以觀察到,當(dāng)方差值小于0.5時,基本處于平穩(wěn)狀態(tài),表示不同老化程度下,光譜圖部分曲線基本無太大的變化,由于數(shù)據(jù)預(yù)處理出現(xiàn)的微小差異可以忽略不計(jì),當(dāng)方差大于0.5時,曲線走勢漸陡,數(shù)據(jù)集差異顯著增大,表示這部分?jǐn)?shù)據(jù)集在老化過程中存在某些物質(zhì)量的變化,能夠與不同老化程度下絕緣油中物質(zhì)的老化機(jī)理聯(lián)系起來,具有可研究性。遂設(shè)定方差閾值為0.5,對每個樣本抽取出的304個特征信息點(diǎn)進(jìn)行后續(xù)分析。
圖6 同一拉曼頻移下數(shù)據(jù)集方差篩選Fig.6 Data set variance screening under the same Raman shift
將預(yù)處理后的的100組樣本數(shù)據(jù)按7∶3比例隨機(jī)進(jìn)行訓(xùn)練集和測試集分配,且運(yùn)用不同算法建模的數(shù)據(jù)集相同,測試時的數(shù)據(jù)集也相同。
3.3.1 K-means聚類算法應(yīng)用
根據(jù)K-means算法原理對預(yù)處理后的訓(xùn)練集及測試集一起進(jìn)行聚類處理,預(yù)計(jì)分為10類,選擇最大迭代次數(shù)為20進(jìn)行計(jì)算,如圖7,迭代次數(shù)為9時,聚點(diǎn)變動趨于穩(wěn)定。
圖7 聚類中心隨迭代次數(shù)增加的變動Fig.7 Changes of cluster centers with increasing number of iterations
通過訓(xùn)練集樣本已知類別對劃分的類別進(jìn)行重新標(biāo)記,統(tǒng)計(jì)測試集樣本預(yù)測類別,并與其實(shí)際類別進(jìn)行比較,如圖8。K-means聚類算法判別結(jié)果顯示:一共錯判了9個測試樣本,其中,屬于1,3,5和21 d的部分測試樣本錯判到相鄰類別,表明相鄰類別的特征易于混淆,采用無監(jiān)督聚類的方法對于相鄰類別的判別效果并不顯著;實(shí)際類別為12 d的測試樣本全都判別到1和3 d類別,說明此算法在聚類時對于12 d的關(guān)鍵特征信息不敏感,導(dǎo)致對這一類別的全部錯判。
圖8 K-means聚類算法判別分析結(jié)果Fig.8 Results of the discriminant analysis with K-means clustering algorithm
3.3.2 Fisher算法應(yīng)用
研究中使用2016年5月7日~8日、10日~11日共4個時相的高分四號衛(wèi)星全色多光譜衛(wèi)星圖像,見圖2,數(shù)據(jù)格式為Geotiff,均為經(jīng)過系統(tǒng)輻射校正的1A級數(shù)據(jù)產(chǎn)品.該時間段內(nèi)衛(wèi)星覆蓋區(qū)域內(nèi)的積雪為天山山脈等高山地區(qū)積雪,圖像上云層覆蓋范圍普遍較大,整體云蓋量占整幅圖像范圍的47%~57%之間.
根據(jù)Fisher算法原理對訓(xùn)練集樣本總體計(jì)算,根據(jù)表1,威爾克Lambda表示組內(nèi)平方和與總平方和的比例,值越小表示組間差異越大,可以看到前三個判別函數(shù)的威爾克Lambda檢驗(yàn)顯著性均小于0.05,即表示用這三個判別函數(shù)建立的模型是有效的。
表1 判別函數(shù)有效性檢驗(yàn)Table 1 Effectiveness test of discriminant function
反映判別函數(shù)所能解釋的方差變異程度的特征值貢獻(xiàn)率恰恰印證了這一結(jié)果,如圖9,前三個判別函數(shù)累積貢獻(xiàn)率顯著提升,能夠解釋的變量占比達(dá)到了98.0%,最大程度的對數(shù)據(jù)集變量進(jìn)行了處理,之后的判別函數(shù)能解釋變量的能力逐漸減弱,累積貢獻(xiàn)率曲線趨于平緩,起伏較小。
圖9 判別函數(shù)累積貢獻(xiàn)率Fig.9 Cumulative contribution of discriminant function
通過對70個樣本總體的訓(xùn)練,建立了3個主要判別函數(shù)。將30個測試樣本帶入判別函數(shù),得到各測試樣本的空間坐標(biāo);對各測試樣本與類質(zhì)心的距離進(jìn)行計(jì)算,判別細(xì)節(jié)如圖10,從圖10可以看出,單一的判別函數(shù)不能完全的將不同類別劃分出來,需要多種判別函數(shù)相結(jié)合,才能使不同類別盡可能分開,從而較容易判別未知樣本。
圖10 測試樣本類別判別Fig.10 Discriminant analysis of test samples
圖11為Fisher模型對測試樣本的判別結(jié)果,在1,3,5,12和21 d類分別錯判1個,由于部分類別組質(zhì)心分布過于密集,導(dǎo)致相近類別誤判情況略為明顯。
圖11 Fisher算法判別分析結(jié)果Fig.11 Results of the discriminant analysis with Fisher algorithm
3.3.3 隨機(jī)森林算法應(yīng)用
一般來說,構(gòu)建隨機(jī)森林模型時生成的樹越多,容錯率就越高;但在實(shí)際運(yùn)用中,會選擇模型錯誤率降低至趨近于平穩(wěn)時所需CART的最少棵數(shù),以減少運(yùn)算量,提高預(yù)測速度。
如圖12(a),設(shè)置決策樹數(shù)量為1 000,畫出錯誤率和決策樹數(shù)量的關(guān)系圖,從圖上看出,當(dāng)決策樹數(shù)量在600~800左右時,錯誤率穩(wěn)定。生成600~800,步長為1的數(shù)列,迭代計(jì)算出錯誤率最小時需要的棵樹,如圖12(b),當(dāng)決策樹棵樹為744時,模型最優(yōu)。
圖12 決策樹數(shù)量與錯誤率關(guān)系圖Fig.12 Diagram of the number of decision trees and the error rate
計(jì)算指定節(jié)點(diǎn)中用于決策樹的變量個數(shù),調(diào)整好參數(shù)后進(jìn)行隨機(jī)森林建模,通過計(jì)算,OBB袋外估計(jì)錯誤率為5.71%,確定了建立的分類模型是較為可靠且穩(wěn)定的,這與隨機(jī)森林模型內(nèi)部計(jì)算泛化誤差的無偏估計(jì)結(jié)果一致。將測試集輸入已建好的模型中,得到如圖13的判別結(jié)果。
圖13 隨機(jī)森林判別分析結(jié)果Fig.13 Results of the discriminant analysis with Random Forest algorithm
運(yùn)用隨機(jī)森林模型對測試樣本進(jìn)行類別評估,在1和3 d類分別錯判1個。除了出現(xiàn)極少數(shù)的相近類別判斷錯誤的問題,實(shí)際老化時間為3 d類的一個測試樣本被判別到9 d類,類別錯判差異較大。
3.3.4 三種判別方法結(jié)果對比
引入多種評價(jià)因子[15]對模型及其預(yù)測結(jié)果進(jìn)行效果對比。如表2。
表2 評估方法效果對比Table 2 Comparison of evaluation methods
計(jì)算可知,K-means聚類算法判別準(zhǔn)確率為70%,F(xiàn)isher判別算法判別準(zhǔn)確率為83.33%,隨機(jī)森林算法判別準(zhǔn)確率為93.33%,表明了隨機(jī)森林算法在變壓器油紙絕緣老化拉曼光譜高維數(shù)據(jù)集處理上的可靠性與有效性;模型提升度是比較模型之間預(yù)測能力的提升狀況指數(shù),就三種模型的提升度來看,以無監(jiān)督K-means聚類模型為基準(zhǔn),有監(jiān)督的Fisher判別模型和隨機(jī)森林模型分別提升了1.166 6和1.95,表明了加入已知樣本的類別信息,可能會影響模型的分辨能力,使得模型能更好地判別未知樣本;Kappa指數(shù)是評價(jià)分類結(jié)果一致性和信度的重要指標(biāo),從三種模型的Kappa指數(shù)來看,樣本判別的實(shí)際一致率和隨機(jī)一致率差別并不顯著,但總體來說,隨機(jī)森林的Kappa指數(shù)要高于另外兩種模型,表明了強(qiáng)分類器在樣本增多,數(shù)據(jù)維度增大后具有良好的表現(xiàn),隨機(jī)森林算法經(jīng)決策樹數(shù)量和分離節(jié)點(diǎn)參數(shù)調(diào)整后具有較強(qiáng)的分類能力。由于訓(xùn)練集和測試集為程序隨機(jī)分配,該評價(jià)結(jié)果也具有一定的普適性。
在實(shí)驗(yàn)中進(jìn)行變壓器油加速熱老化實(shí)驗(yàn),獲取到10類不同老化天數(shù)的100個油老化樣本。運(yùn)用拉曼光譜檢測方法對實(shí)驗(yàn)室制備不同老化程度油樣本進(jìn)行檢測。
(1)選用復(fù)合稀疏導(dǎo)數(shù)建模法對拉曼光譜進(jìn)行預(yù)處理,能夠一步完成去噪和基線校正,且預(yù)處理效果較好,與原始光譜曲線相比更平滑。
(2)選取Filter法對光譜圖中同一拉曼頻移差異較大光譜特征點(diǎn)進(jìn)行特征選擇,并設(shè)定閾值將差異較大的特征信息點(diǎn)抽取出來,相比于特征提取的方法來說較為直接,且輸入數(shù)量較少的特征信息點(diǎn)有利于之后建模訓(xùn)練效率的提升。
(3)將樣本總體按7∶3比例分配訓(xùn)練集與測試集,分別建立變壓器油紙絕緣拉曼光譜的K-means聚類模型、Fisher判別模型與隨機(jī)森林分類模型,通過多種評價(jià)因素來驗(yàn)證各模型在高維數(shù)據(jù)集的分類效率。結(jié)果表明,隨機(jī)森林模型能更準(zhǔn)確的評判實(shí)驗(yàn)樣本的老化程度,判別正確率達(dá)到了93.3%;相比K-means聚類算法和Fisher算法的判別正確率來看,上升了23.33%和10%;有效解決了無監(jiān)督算法過于依賴數(shù)據(jù)集的構(gòu)成和單一分類器在建模時學(xué)習(xí)的局限性問題,體現(xiàn)了油樣本增多后,有監(jiān)督學(xué)習(xí)相對于無監(jiān)督學(xué)習(xí),強(qiáng)分類器相對于弱分類器,在變壓器油紙絕緣老化評估上的判別優(yōu)勢,為變壓器油紙絕緣老化的評估打下了基礎(chǔ)。