杜國(guó)慶,石頡
(蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009)
低壓斷路器是保障低壓配電系統(tǒng)安全的關(guān)鍵設(shè)備,其健康狀態(tài)影響著配電系統(tǒng)的性能和穩(wěn)定性[1]。其中分合閘線圈電流能夠很好地反映出低壓斷路器電磁系統(tǒng)參數(shù)變化以及故障的情況[2]。
隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,目前許多機(jī)器學(xué)習(xí)方法都被廣泛運(yùn)用到故障診斷中[3],而機(jī)器學(xué)習(xí)從不平衡數(shù)據(jù)中提取的特征往往是不準(zhǔn)確的,其判別結(jié)果往往趨向于多數(shù)類,故不平衡數(shù)據(jù)集極大限制了機(jī)器學(xué)習(xí)模型對(duì)故障的準(zhǔn)確診斷[4]。傳統(tǒng)對(duì)于數(shù)據(jù)集不平衡的問(wèn)題,主要通過(guò)樣本擴(kuò)充[5]和改良診斷模型[6]兩方面。雖然這些方法對(duì)不平衡數(shù)據(jù)集存在的問(wèn)題做了改進(jìn),但還是難以生成逼真的樣本數(shù)據(jù)。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,Gan) 最初由Goodfellow 等人提出,最近被廣泛應(yīng)用于對(duì)輸入樣本進(jìn)行學(xué)習(xí)與訓(xùn)練[7],為了提高GAN 訓(xùn)練過(guò)程的穩(wěn)定性以及各類別的差異性,本文引入最小二乘損失函數(shù)與標(biāo)簽信息,首先通過(guò)將損失函數(shù)替換為最小二乘損失函數(shù),提高了訓(xùn)練過(guò)程的穩(wěn)定性;其次引入不同類型數(shù)據(jù)的標(biāo)簽,使得訓(xùn)練出來(lái)的數(shù)據(jù)更符合其標(biāo)簽描述,最后通過(guò)皮爾森相關(guān)系數(shù)、歐幾里得距離和余弦相似度驗(yàn)證了生成數(shù)據(jù)的相似性。
生成對(duì)抗網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)通常包括生成器與判別器兩部分。其中生成器G輸入簡(jiǎn)單的隨機(jī)噪聲,通過(guò)學(xué)習(xí)到與真實(shí)樣本間的映射關(guān)系,輸出盡可能真實(shí)的樣本數(shù)據(jù);而判別器D的任務(wù)是盡可能判別出生成的樣本與真實(shí)的樣本[8],其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1 所示。通過(guò)兩者的對(duì)抗博弈訓(xùn)練,不斷優(yōu)化各自性能,最后到達(dá)納什平衡[9]。其目標(biāo)函數(shù)公式如下:
圖1 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖
式中:Pr為真實(shí)樣本分布,Pz為隨機(jī)噪聲分布,E(·)表示計(jì)算期望,G(z)表示生成器生成的樣本,D(·)表示判別器輸出的結(jié)果。
原始GAN由于采用交叉熵作為目標(biāo)函數(shù),在訓(xùn)練過(guò)程中可能由于生成樣本與真實(shí)樣本分布差異較大,導(dǎo)致訓(xùn)練過(guò)程中出現(xiàn)梯度消失的問(wèn)題,從而導(dǎo)致生成的數(shù)據(jù)質(zhì)量很差。故本文引入最小二乘生成對(duì)抗網(wǎng)絡(luò)(Least Squares Generative Adversarial Networks,LSGAN) ,將GAN 的目標(biāo)函數(shù)由交叉熵改為最小二乘損失函數(shù),解決了梯度易消失以及生成數(shù)據(jù)質(zhì)量不高的問(wèn)題。LSGAN的目標(biāo)函數(shù)如式(2) 所示:
式中:a,b分別為生成樣本與真實(shí)樣本的標(biāo)簽,c是判別器D對(duì)生成樣本判別為真的期望值,本文設(shè)置a=0,b=c=1。
原始GAN只能保證生成的數(shù)據(jù)盡可能真實(shí),但是忽略了生成的數(shù)據(jù)是否符合對(duì)其描述的要求。因此本文引入了條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial nets, CGAN) ,將對(duì)樣本描述的條件信息C作為輸入,加入網(wǎng)絡(luò)中進(jìn)行一起訓(xùn)練,以此來(lái)指引GAN 的生成方向,使得生成的樣本數(shù)據(jù)更可控,更符合真實(shí)樣本規(guī)律,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。CGAN 的目標(biāo)函數(shù)公式如下:
圖2 條件生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖
式中:c為標(biāo)簽信息,本文中該標(biāo)簽信息設(shè)置為各類故障所對(duì)應(yīng)的標(biāo)簽。
基于最小二乘條件生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)方法(Least Square Condition Generative Adversarial Networks,LSCGAN) 流程設(shè)計(jì)主要分為三個(gè)環(huán)節(jié):1)數(shù)據(jù)集準(zhǔn)備;2)模型訓(xùn)練;3)模型測(cè)試。具體步驟描述如下:
1) 將采集的斷路器分合閘線圈電流信號(hào)隨機(jī)劃分為訓(xùn)練集與測(cè)試集。
2) 設(shè)計(jì)生成器與判別器網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)模型參數(shù)初始化,以最小二乘作為損失函數(shù)。首先訓(xùn)練判別器50 次使其具有稍好的判別功能,接著,讓生成器與判別器進(jìn)行對(duì)抗博弈訓(xùn)練,使兩者達(dá)到納什平衡,此時(shí)生成器生成的樣本數(shù)據(jù)達(dá)到以假亂真的程度。
3) 使用生成器生成的數(shù)據(jù)與測(cè)試集進(jìn)行對(duì)比,對(duì)兩者的相似程度進(jìn)行比較。
本文以“CW1-1600”型低壓萬(wàn)能式斷路器為實(shí)驗(yàn)對(duì)象,通過(guò)NI USB-6002 數(shù)據(jù)采集卡以50kHz 進(jìn)行ad采樣,使用“CMS0 50NPT”型霍爾電流傳感器采集分合閘線圈電流,采集了:0-正常工作;1-動(dòng)作電壓過(guò)低;2-合閘線圈老化;3-合閘鐵芯空行程過(guò)大;4-鐵芯卡澀狀態(tài)下的分合閘線圈電流數(shù)據(jù),其中正常工作狀態(tài)100組,其余4種故障狀態(tài)各25組,每組波形包含了10 000個(gè)采樣點(diǎn),各狀態(tài)典型電流波形如圖3所示。
圖3 分合閘線圈各狀態(tài)典型電流圖
為了評(píng)估生成樣本與真實(shí)樣本的相似性,本文通過(guò)皮爾森相關(guān)系數(shù)、歐幾里得距離和余弦相似度三個(gè)指標(biāo)展示生成樣本的平均性能。
皮爾森相關(guān)系數(shù)用于度量?jī)蓚€(gè)向量之間的線性相關(guān)性,其值介于-1 與1 之間。相關(guān)系數(shù)越接近于1或-1,相關(guān)度越強(qiáng);相關(guān)系數(shù)越接近于0,相關(guān)度越弱。兩個(gè)向量間的皮爾森相關(guān)系數(shù)計(jì)算公式如下:
歐幾里得距離用于度量m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,它主要用于評(píng)價(jià)兩個(gè)向量在位置上的差異性,其值越小,表示兩者相似度越高。兩個(gè)向量間的歐幾里得距離計(jì)算公式如下:
余弦相似度將空間中兩個(gè)向量夾角間的余弦值作為衡量?jī)蓚€(gè)個(gè)體之間差異的大小,余弦值接近1,夾角趨于0,表明兩個(gè)向量越相似;余弦值接近于0,夾角趨于90度,表明兩個(gè)向量越不相似。兩個(gè)向量間的余弦相似度計(jì)算公式如下:
本文實(shí)驗(yàn)基于PyTorch 開發(fā)環(huán)境搭建的網(wǎng)絡(luò)模型,批處理量設(shè)為64,學(xué)習(xí)率設(shè)為0.000 1,迭代次數(shù)設(shè)為500,并使用SGD優(yōu)化算法進(jìn)行優(yōu)化,訓(xùn)練集與驗(yàn)證集比例劃分為7:3。最終訓(xùn)練完成的生成器生成的分合閘線圈各狀態(tài)電流波形如圖4所示。
圖4 生成分合閘線圈各狀態(tài)電流圖
為驗(yàn)證生成樣本與真實(shí)樣本的相似性,利用生成器生成的樣本與測(cè)試集通過(guò)皮爾森相關(guān)系數(shù)、歐幾里得距離和余弦相似度進(jìn)行驗(yàn)證,為直觀反映出各狀態(tài)波形的相似性,通過(guò)引入混淆矩陣來(lái)展示每一個(gè)狀態(tài)的相似程度,其中橫軸表示生成樣本的類型編號(hào),縱軸表示真實(shí)樣本的類型編號(hào),如圖5所示。從皮爾森相關(guān)系數(shù)可以看出,同類型生成與真實(shí)樣本之間的皮爾森相關(guān)系數(shù)為0.999,而不同類型間的皮爾森系數(shù)偏小,說(shuō)明同類型間的線性相關(guān)性較好。通過(guò)歐幾里得距離可以很明顯地看出,同類型間的歐幾里得距離最小,且相差較大,說(shuō)明同類型間的位置差異性較小。通過(guò)余弦相似度可以看出,同類型間的余弦相似度最高,說(shuō)明同類型間的方向差異性較小。由此可見,相同類型的生成樣本與真實(shí)樣本相似度較高,而不同類型間的差異較大,說(shuō)明本文所提方法可以很好地學(xué)習(xí)到各類型真實(shí)樣本的特征與差異,能夠較好地完成對(duì)不平衡數(shù)據(jù)集進(jìn)行擴(kuò)充及平衡數(shù)據(jù)集的任務(wù)。
圖5 生成樣本與真實(shí)樣本相似性相關(guān)指標(biāo)對(duì)比
本文提出了一種基于改進(jìn)GAN 的斷路器線圈電流數(shù)據(jù)增強(qiáng)方法,該方法通過(guò)最小二乘替換原模型損失函數(shù),提高了模型訓(xùn)練的穩(wěn)定性;通過(guò)加入樣本標(biāo)簽信息一起訓(xùn)練,提高了生成模型的可控性。通過(guò)皮爾森相關(guān)系數(shù)、歐幾里得距離和余弦相似度這三個(gè)相似性指標(biāo)驗(yàn)證了生成樣本質(zhì)量的可靠性。結(jié)果表明,本文所提方法可以作為低壓斷路器線圈電流數(shù)據(jù)增強(qiáng)的一種有效手段,具有一定的工程應(yīng)用價(jià)值。