郭民揚(yáng),鐘羽中,趙 濤,佃松宜
(四川大學(xué)電氣工程學(xué)院,成都 610065)
氣體絕緣金屬封閉開關(guān)設(shè)備(gas insulated switchgear)由斷路器、隔離開關(guān)、接地開關(guān)、變壓器、避雷器、母線、連接器和出線終端等組成[1]。GIS設(shè)備因結(jié)構(gòu)緊湊、占地面積小、安全性高等特點(diǎn),在電力行業(yè)得到廣泛應(yīng)用,對(duì)于維持電力系統(tǒng)的正常運(yùn)行起著重要作用。隨著GIS設(shè)備用量的增長,GIS設(shè)備的故障率也在逐年增加。據(jù)統(tǒng)計(jì),GIS設(shè)備最大故障比例是由電氣設(shè)備制造、組裝和運(yùn)輸過程中產(chǎn)生的異物引起的,甚至在檢修過程中也會(huì)產(chǎn)生異物遺落[2]。GIS中遺留下來的異物如果不及時(shí)清理,會(huì)對(duì)GIS設(shè)備安全運(yùn)行造成影響,尤其是異物放電引起絕緣擊穿,嚴(yán)重時(shí)會(huì)影響到整個(gè)電力系統(tǒng)行業(yè)。傳統(tǒng)GIS設(shè)備異物檢測(cè)方法,主要有超聲波檢測(cè)法[3]、X射線檢測(cè)法[4]等。機(jī)器視覺具有廉價(jià)、快速、高精度特點(diǎn),采用視覺技術(shù)進(jìn)行電氣設(shè)備維修檢測(cè)已經(jīng)成為非常重要的發(fā)展方向。
隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)發(fā)展,出現(xiàn)了很多深度學(xué)習(xí)圖像分割算法,如FCN[5]、U-Net[6]、SegNet[7]、PSPNet[8]、DeepLab[10-13]系列等。同時(shí)也有不少研究將語義分割用于異物缺陷檢測(cè)中。如楊永嬌等[14]通過改進(jìn)FCN用于絕緣子缺陷檢測(cè),張宏偉等[15]將U-Net網(wǎng)絡(luò)用于襯衫缺陷檢測(cè)。此外,趙鶴等[16]針對(duì)金屬表面缺陷噪聲大、對(duì)比度低以及缺陷尺寸差別大問題,設(shè)計(jì)一種注意力機(jī)制網(wǎng)絡(luò),下采樣融合殘差塊構(gòu)成全卷積網(wǎng)絡(luò);上采樣利用位置注意力將權(quán)重圖與特征圖融合進(jìn)行結(jié)果預(yù)測(cè),提高了檢測(cè)精度。然而傳統(tǒng)的卷積操作在彩色圖像處理中很少關(guān)注像素通道之間關(guān)系,它們更傾向于對(duì)彩色圖像分通道處理,從而忽略了顏色通道之間色彩相關(guān)性。同時(shí),在GIS腔體中,內(nèi)部環(huán)境封閉,存在光照不均勻和光照強(qiáng)反射現(xiàn)象,容易造成算法對(duì)異物的檢測(cè)精度下降。
針對(duì)傳統(tǒng)卷積忽略像素通道之間空間關(guān)系、GIS腔體強(qiáng)反射造成的異物輪廓分割不準(zhǔn)確、網(wǎng)絡(luò)參數(shù)量大問題,為了實(shí)現(xiàn)輕量、準(zhǔn)確的異物輪廓分割,本文提出一種融合四元數(shù)、Gabor濾波的改進(jìn)DeepLabV3+網(wǎng)絡(luò)進(jìn)行GIS腔體異物檢測(cè),該算法有效保留了像素色彩通道間相關(guān)獨(dú)立性,通過Gabor濾波器從圖像上提取到了多方向、多尺度的特征以及Gabor濾波對(duì)光的不敏感性[17],有效地緩解了GIS腔體環(huán)境光照不均勻造成的異物強(qiáng)反射現(xiàn)象。
HAMILTON[18]提出的四元數(shù),作為一種超復(fù)數(shù),相對(duì)于復(fù)數(shù)集合組成二維空間,四元數(shù)集合組成四維空間。因此,四元數(shù)可以形象直觀地描述三維空間中的旋轉(zhuǎn)。由于四元數(shù)的這種性質(zhì),它被廣泛應(yīng)用在計(jì)算機(jī)圖形學(xué)、信號(hào)處理與機(jī)器人等領(lǐng)域中[19]。
四元數(shù)定義如下,它由1個(gè)實(shí)部以及3個(gè)虛部組成:
q=r+xi+yj+zk
(1)
式中,r、x、y、z是實(shí)數(shù);i、j、k是滿足下列關(guān)系的虛數(shù)運(yùn)算符:
i2=j2=k2=ijk=-1
(2)
式(2)又可以寫成:
(3)
RGB彩色圖像可以看作一個(gè)實(shí)部為0的純四元數(shù)矩陣。
Q=0+Ri+Gj+Bk
(4)
彩色圖像通過四元數(shù)表示,在對(duì)四元數(shù)整體處理時(shí),避免分通道處理,保留原圖像的顏色信息和各顏色通道的相關(guān)性。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通過正向卷積計(jì)算預(yù)測(cè)輸出,利用反向傳播調(diào)整卷積核,使得預(yù)測(cè)輸出接近真實(shí)目標(biāo)。但是,傳統(tǒng)的實(shí)值卷積神經(jīng)網(wǎng)絡(luò)采用獨(dú)立卷積核分通道卷積。一個(gè)好的模型,應(yīng)該有效地編碼輸入特征的局部關(guān)系與結(jié)構(gòu)關(guān)系。以四元數(shù)形式存在的特征,四元數(shù)卷積保持了顏色空間的獨(dú)立性,并自然地處理通道之間的耦合。
兩個(gè)四元數(shù)的乘法采取哈密頓積的形式:
Q1?Q2=(r1r2-x1x2-y1y2-z1z2)+
(r1x2+x1r2+y1z2-z1y2)i+
(r1y2-x1z2+y1r2+z1x2)j+
(r1z2+x1y2-y1x2+z1r2)k
(5)
因此,將哈密頓積計(jì)算式(5)嵌入到卷積計(jì)算中,即可得到四元數(shù)卷積過程:
(6)
為了便于計(jì)算,以矩陣計(jì)算的方式來表達(dá)式(5)、式(6)組成的卷積操作,其中Y、W、X分別為輸出矩陣、權(quán)重矩陣和輸入矩陣:
(7)
此外,相比于實(shí)值卷積神經(jīng)網(wǎng)絡(luò),四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)需要的網(wǎng)絡(luò)參數(shù)更少[20],圖1表明實(shí)值神經(jīng)網(wǎng)絡(luò)與四元數(shù)神經(jīng)網(wǎng)絡(luò)的計(jì)算不同。
圖1 兩種神經(jīng)網(wǎng)絡(luò)計(jì)算過程
在實(shí)值神經(jīng)網(wǎng)絡(luò)中,4個(gè)輸入神經(jīng)元生成4個(gè)輸出神經(jīng)元,需要4×4=16個(gè)權(quán)重參數(shù);而在四元數(shù)神經(jīng)網(wǎng)絡(luò)中,1個(gè)四元數(shù)輸入神經(jīng)元與1個(gè)四元數(shù)權(quán)重通過哈密頓積在輸出神經(jīng)元中每個(gè)分量都有權(quán)重的4個(gè)分量參與,所以僅僅需要4個(gè)參數(shù)。因此相比實(shí)值神經(jīng)網(wǎng)絡(luò),在不改變神經(jīng)網(wǎng)絡(luò)規(guī)模(網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)量)情況下,四元數(shù)神經(jīng)網(wǎng)絡(luò)的參數(shù)規(guī)模是實(shí)值神經(jīng)網(wǎng)絡(luò)的1/4。
Gabor濾波器是一個(gè)經(jīng)典的特征描述符[21]。作為一種可調(diào)制濾波器,它可以提取多尺度、多方向的紋理特征,Gabor由于這種可調(diào)制屬性以及對(duì)光的不敏感性,廣泛用于人臉識(shí)別中。但是傳統(tǒng)Gabor濾波器仍然是在圖像上進(jìn)行分通道處理。結(jié)合四元數(shù)表征的Gabor濾波器綜合了四元數(shù)處理彩色圖像的特點(diǎn),又具有提取多尺度多方向特征的優(yōu)勢(shì)[22]。四元數(shù)Gabor濾波器[23]的形式如下:
(8)
式中,θ為方向參數(shù);λ和γ為尺度參數(shù),通過設(shè)置不同參數(shù)可以提取不同方向、尺度特征圖。
針對(duì)GIS腔體異物分割,基于DeepLabV3+算法,本文提出QG-QDeepLabV3+算法。DeepLabV3+中的空洞卷積和空間金字塔池化層,以不同擴(kuò)張率空洞卷積得到不同感受野的特征圖,對(duì)小目標(biāo)識(shí)別效果好,適合用來分割GIS腔體中的金屬等其他異物。
QG-QDeepLabV3+網(wǎng)絡(luò)由兩部分組成,圖2為網(wǎng)絡(luò)結(jié)構(gòu)圖。第1部分是在DeepLabv3+上引入四元數(shù)改進(jìn)編解碼結(jié)構(gòu)QDeepLabV3+,用于彩色圖像處理,保留色彩通道間相關(guān)性;第2部分是結(jié)合四元數(shù)Gabor濾波器引入的Quaternion Gabor Attention機(jī)制,通過Gabor對(duì)光不敏感特性,在原圖上提取多方向、多尺度的特征來增強(qiáng)腔體異物邊緣的分割效果。
圖2 QG-QDeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)
由于MobileNet-V2[24]不僅采用深度可分離卷積策略,同時(shí)MobileNet-V2作為主干網(wǎng)絡(luò)具有更少的參數(shù)量,更高的計(jì)算速度,在異物分割實(shí)時(shí)性上更有優(yōu)勢(shì)。所以本文選取MobileNet-V2當(dāng)做算法的主干網(wǎng)絡(luò)。MobileNet-V2在原始圖像上進(jìn)行低層和深層特征提取,對(duì)深層特征使用空間金字塔池化模塊(atrous spatial pyramid pooling,ASPP)提取4個(gè)不同膨脹率特征和一個(gè)池化特征,對(duì)5個(gè)特征圖進(jìn)行融合,使用一個(gè)1×1的卷積調(diào)整通道。深層特征有強(qiáng)大的語義信息,淺層特征擁有豐富的細(xì)節(jié)信息。低層特征經(jīng)1×1卷積通道調(diào)整與處理過的深層特征進(jìn)行堆疊,利用3×3卷積進(jìn)行融合,最后采用雙線性插值方法進(jìn)行四倍上采樣得到與原圖大小相同的預(yù)測(cè)結(jié)果。
將DeepLabV3+中的卷積操作與四元數(shù)結(jié)合,卷積采用式(7)計(jì)算。在不改變網(wǎng)絡(luò)規(guī)模(網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)量)情況下最大程度保留圖像色彩通道間相關(guān)性,進(jìn)一步減少網(wǎng)絡(luò)參數(shù),減緩內(nèi)存壓力。
在DeepLabV3+中采用深度可分離卷積策略,可以減少計(jì)算量和參數(shù)量。對(duì)于提出的QDeepLabV3+,特征是以四元數(shù)形式存在,無限制分離會(huì)破壞四元數(shù)數(shù)據(jù)之間的相關(guān)性,因此引入了深度可分離四元數(shù)卷積(depthwise separable quaternion convolution)策略。與深度可分離卷積策略一樣包括逐通道卷積和逐點(diǎn)卷積兩部分,不同的是一個(gè)分離是以通道為單位,一個(gè)是以4個(gè)通道組成的四元數(shù)神經(jīng)元為單位。圖3和圖4為深度可分離四元數(shù)卷積的計(jì)算過程。
圖3 四元數(shù)逐通道卷積 圖4 四元數(shù)逐點(diǎn)卷積
在逐通道卷積中,一個(gè)四通道組成的四元數(shù)輸入被一個(gè)四元數(shù)濾波器卷積操作,生成中間四元數(shù)特征;逐點(diǎn)卷積與常規(guī)卷積類似,它的卷積核通道數(shù)等于中間四元數(shù)特征數(shù)量,將四元數(shù)中間特征轉(zhuǎn)換成四元數(shù)輸出神經(jīng)元。
Gabor濾波器作為一種可調(diào)制濾波器,可以從圖像上提取多方向、多尺度的特征圖,從而改善模型泛化能力[25]通過可視化說明卷積是冗余學(xué)習(xí)的,且深度卷積提取的特征與Gabor濾波提取的特征是類似的。但是,定向?qū)W習(xí)方向和尺寸能力是卷積所沒有的,深度卷積神經(jīng)網(wǎng)絡(luò)需要通過復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)與大量數(shù)據(jù)才能具有較好的魯棒性。此外,由于Gabor小波對(duì)光不敏感特性,使得對(duì)于GIS腔體內(nèi)部光照變化、不均勻現(xiàn)象呈現(xiàn)出一定的魯棒性。將四元數(shù)與Gabor濾波器融合可以使Gabor濾波器保留色彩、特征空間的相關(guān)性。因此,本文選擇四元數(shù)Gabor濾波作為注意力機(jī)制。
圖5為不同θ與λ的四元數(shù)Gabor卷積濾波器,將濾波器與原圖像卷積后的結(jié)果堆積在一起,就可以得到圖像多尺度、多方向特征圖。
圖5 四元數(shù)Gabor濾波提取特征圖
之后提取出的多方向多尺度特征,經(jīng)兩次3×3大小的四元數(shù)卷積做兩次2倍下采樣,再經(jīng)過1×1大小的四元數(shù)卷積做特征融合。設(shè)T(x)為QDeepLabV3+提取融合出來的深層和淺層特征,M(x)為四元數(shù)Gabor濾波卷積、融合之后的多方向、多尺度特征,G(x)為語義特征與紋理特征融合后的特征,則有:
G(x)=(1+M(x))?(T(x))
(9)
式中,?代表通道之間對(duì)應(yīng)元素相乘,對(duì)得到的最終融合特征G(x)再做插值和預(yù)測(cè)。
本文實(shí)驗(yàn)操作系統(tǒng)為Windows10,計(jì)算機(jī)有關(guān)參數(shù)CPU:Intel(R) Core(TM) i7-10700k;GPU:NVIDIA GeForce RTX 3070;顯存大小為8 G。模型基于Pytorch深度學(xué)習(xí)框架搭建神經(jīng)網(wǎng)絡(luò),安裝了CUDA V11.1版本用于GPU加速。
本實(shí)驗(yàn)所有數(shù)據(jù)來源于電氣設(shè)備GIS腔體模擬環(huán)境中。通過操作GIS機(jī)器人在GIS環(huán)境中運(yùn)動(dòng)以及調(diào)整機(jī)器人本體上的光源強(qiáng)度,增加異物樣本的多樣性,從而得到不同光照下的異物圖。經(jīng)過采集之后,共有752個(gè)異物圖片目標(biāo),異物以及背景一共被分為了4個(gè)類別。部分?jǐn)?shù)據(jù)如圖6所示,可以看到,GIS環(huán)境中存在光照不均勻現(xiàn)象,距離光源近的金屬異物存在強(qiáng)反射現(xiàn)象,距離光源遠(yuǎn)的異物存在模糊現(xiàn)象。本實(shí)驗(yàn)將所有的異物圖片按照7:1.5:1.5的比例隨即劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,3個(gè)數(shù)據(jù)集中的數(shù)據(jù)相互獨(dú)立。
(a) 低光照 (b) 強(qiáng)反射圖6 部分?jǐn)?shù)據(jù)集展示
為了證明本實(shí)驗(yàn)采用的方法,采用mIoU、mPA、F1-Score、Weights等4個(gè)評(píng)價(jià)指標(biāo)。
(1)mIoU是平均交并比,它是平均每一類預(yù)測(cè)值、實(shí)際值之間交集和并集的占比,一定程度上反映分割的輪廓效果,計(jì)算式(10)~式(11)。
(10)
(11)
(2)mPA為平均像素準(zhǔn)確率,分別計(jì)算每個(gè)像素被正確分類比例,然后再求平均,它一定程度上可以反映分割準(zhǔn)確率。公式為:
(12)
(13)
(3)F1-Score是綜合精確率(Precision)和召回率(Recall)的一個(gè)指標(biāo),是精確率和召回率的調(diào)和平均數(shù)。它反映了分類準(zhǔn)確率,具體如式(14)和式(15)所示。
(14)
(15)
(4)Params是整個(gè)網(wǎng)絡(luò)模型參數(shù)的數(shù)量,它反映了網(wǎng)絡(luò)模型的參數(shù)規(guī)模以及空間復(fù)雜度。
3.3.1 消融實(shí)驗(yàn)
為了證明本文的算法,表1進(jìn)行了4次消融實(shí)驗(yàn)。
表1 QG-QDeepLabV3+消融實(shí)驗(yàn)
表1顯示,在將四元數(shù)與DeepLabV3+融合之后,mIoU和mPA有了較小提升,原因是在彩色圖像上四元數(shù)卷積相比于實(shí)值卷積更好的保留了像素色彩通道間相關(guān)獨(dú)立性,但是引入四元數(shù)并沒有從根本上解決GIS腔體光照強(qiáng)反射問題,所以提升是微小的。同時(shí)四元數(shù)卷積使得模型權(quán)重大小由22.4 MB下降到了6.2 MB,顯著降低了模型復(fù)雜度。然后在QDeepLabV3+基礎(chǔ)上,我們將四元數(shù)Gabor注意力機(jī)制引入到網(wǎng)絡(luò)中,mIoU提升了1.43%,mPA提升了0.92%,有了明顯提升,表明了四元數(shù)Gabor對(duì)光照不敏感特性可以改善GIS腔體內(nèi)部光照強(qiáng)反射現(xiàn)象,提取多方向、多尺度特征也提升了網(wǎng)絡(luò)在異物識(shí)別上的泛化能力。最后,將Gabor注意力機(jī)制直接加入到原DeepLabV3+網(wǎng)絡(luò)中,實(shí)驗(yàn)結(jié)果提升也表明Gabor濾波在GIS腔體中的有效性。Gabor濾波器中提取方向尺度數(shù)量為128,同時(shí)所有網(wǎng)絡(luò)都采用了深度可分離四元數(shù)卷積策略來減少網(wǎng)絡(luò)參數(shù)量與計(jì)算量。
3.3.2 方向尺度特征數(shù)量選取實(shí)驗(yàn)
為了選取合適的方向尺度特征數(shù)量,本文通過調(diào)整Gabor濾波器不同方向參數(shù)、尺度參數(shù)的值以及數(shù)量,來得到不同數(shù)量以及不同效果的方向尺度特征,融入QDeepLabV3+網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn)。
表2取了不同數(shù)量和不同參數(shù)的方向尺度作為實(shí)驗(yàn)觀察結(jié)果,可以看到具有128個(gè)四元數(shù)Gabor特征圖的算法精度取得了最高值。同時(shí)我們觀察到,進(jìn)一步取256個(gè)特征圖時(shí),算法的性能出現(xiàn)下降趨勢(shì),原因是方向、尺度數(shù)量過多,造成了特征冗余,出現(xiàn)過擬合。因此,我們?nèi)×艘粋€(gè)特征數(shù)量的較優(yōu)值128進(jìn)行對(duì)比實(shí)驗(yàn)。
表2 方向尺度特征的數(shù)量
3.3.3 與現(xiàn)有先進(jìn)算法的比較
為進(jìn)一步證明本文算法,表3與現(xiàn)有幾種先進(jìn)算法進(jìn)行比較。我們的算法在mIoU上比PSPNET提升12.03%,比U-Net提升2.94%,較DeepLabV3+提升1.80%。在mPA和F1-Score上也有明顯提升,同時(shí)我們的算法權(quán)重只有6.5 MB,大大降低了網(wǎng)絡(luò)參數(shù),減緩顯存壓力。表4為本文算法對(duì)不同類別分割的結(jié)果。
表3 與現(xiàn)有算法對(duì)比
表4 不同類別分割結(jié)果
圖7是算法的部分異物分割效果展示。從圖7可以看出, PSPNET出現(xiàn)分割不完整、輪廓過于尖銳現(xiàn)象,原因是PSPNET在金字塔池化模塊使用卷積最后一層來做多尺度融合,丟失了底層邊緣輪廓信息。U-Net的跳躍連接以及DeepLabV3+的ASPP金字塔融合深層特征與底層特征模塊,在一定程度上緩解了分割不完整現(xiàn)象。但是受光照不均勻和強(qiáng)反射影響,光照反射強(qiáng)烈的金屬異物會(huì)出現(xiàn)分割不完全以及將反射影子誤分割的現(xiàn)象,同時(shí)3種算法對(duì)于分布密集異物出現(xiàn)了分割連續(xù)現(xiàn)象,無法將密集異物單獨(dú)分開出來。本文算法基于DeepLabV3+的網(wǎng)絡(luò)框架,不僅融合了深層特征與底層特征,并且通過引入了QG-Attention機(jī)制,充分利用了語義特征與紋理特征,使得分割出來的異物輪廓邊緣更為清晰準(zhǔn)確,同時(shí)Gabor小波對(duì)光照變化的不敏感性,使得本文算法在GIS封閉腔體中對(duì)于光照強(qiáng)反射現(xiàn)象具有較好的魯棒性。
圖7 部分異物分割展示
針對(duì)GIS腔體內(nèi)部光照不均勻、嵌入式平臺(tái)計(jì)算資源有限等問題,本文提出了用于GIS腔體內(nèi)部異物分割的QG-QDeepLabV3+算法。該算法通過融合四元數(shù),使網(wǎng)絡(luò)最大程度保留了色彩通道間相關(guān)獨(dú)立性;Gabor濾波器對(duì)光不敏感特性,也使得算法可以有效緩解GIS腔體內(nèi)部光照不均勻現(xiàn)象,增強(qiáng)異物邊緣輪廓分割效果。同時(shí)該算法有著更低的模型復(fù)雜度,緩解了嵌入式平臺(tái)計(jì)算資源不足問題。通過在GIS腔體里面實(shí)驗(yàn)表明該算法的有效性,相比于其他先進(jìn)算法,該算法有更好的分割效果和精度。Gabor算子提取的多方向、多尺度特征過多會(huì)存在冗余特征,通過改善參數(shù)和優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來提取更有效特征,是下一步研究方向。