鄭含博 李金恒 劉 洋 崔耀輝 平 原
基于改進(jìn)YOLOv3的電力設(shè)備紅外目標(biāo)檢測模型
鄭含博 李金恒 劉 洋 崔耀輝 平 原
(廣西大學(xué)電氣工程學(xué)院 南寧 530004)
紅外圖像檢測技術(shù)因具有非接觸、快速等優(yōu)點(diǎn),被廣泛應(yīng)用于電力設(shè)備的監(jiān)測與診斷中,而對設(shè)備快速精確地檢測定位是實(shí)現(xiàn)自動檢測與診斷的前提。與普通目標(biāo)的可見光圖像相比,電力設(shè)備的紅外圖像可能存在背景復(fù)雜、對比度低、目標(biāo)特征相近、長寬比偏大等特征,采用原始的YOLOv3模型難以精確定位到目標(biāo)。針對此問題,該文對YOLOv3模型進(jìn)行改進(jìn):在其骨干網(wǎng)絡(luò)中引入跨階段局部模塊;將路徑聚合網(wǎng)絡(luò)融合到原模型的特征金字塔結(jié)構(gòu)中;加入馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)技術(shù)和Complete-IoU(CIoU)損失函數(shù)。將改進(jìn)后的模型在四類具有相似波紋外觀結(jié)構(gòu)的電力設(shè)備紅外圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練測試,每類的檢測精度均能達(dá)到92%以上。最后,將該文方法的測試結(jié)果與其他三個(gè)主流目標(biāo)檢測模型進(jìn)行對比評估。結(jié)果表明:不同閾值下,該文提出的改進(jìn)模型獲得的平均精度均值優(yōu)于Faster R-CNN、SSD和YOLOv3模型。改進(jìn)后的YOLOv3模型盡管在檢測速度上相比原YOLOv3模型有所犧牲,但仍明顯高于其他兩種模型。對比結(jié)果進(jìn)一步驗(yàn)證了所提模型的有效性。
電力設(shè)備檢測 YOLOv3 卷積神經(jīng)網(wǎng)絡(luò) 紅外圖像
電力設(shè)備的安全穩(wěn)定運(yùn)行是確保電網(wǎng)可靠供電的關(guān)鍵。通過及時(shí)檢測電力設(shè)備的運(yùn)行狀態(tài),能夠預(yù)防由設(shè)備缺陷或故障引起的電網(wǎng)事故發(fā)生。紅外熱成像技術(shù)提供了一種非接觸的檢測方式來獲取電力設(shè)備的熱狀態(tài)信息,使電力設(shè)備的狀態(tài)檢測能在不斷電的情況下進(jìn)行,被廣泛應(yīng)用于電力設(shè)備的帶電檢測中。不同場景下電力設(shè)備的紅外圖像如圖1所示,紅外圖像能夠顯示設(shè)備的溫度分布和范圍,并通過不同等級的色調(diào)來表示設(shè)備不同部位的溫度[1]。但目前對電力設(shè)備紅外圖像數(shù)據(jù)的分析與診斷仍需依賴經(jīng)驗(yàn)豐富的電力工程師[2],這就消耗了大量的人力和時(shí)間成本,極大地降低了電力設(shè)備狀態(tài)檢測與評估的效率。因此,研究更快、更準(zhǔn)確的電力設(shè)備狀態(tài)自動檢測方法已成為近年的熱點(diǎn)課題[1-3],而對設(shè)備快速精確地定位是實(shí)現(xiàn)自動檢測與診斷的前提和關(guān)鍵[4]。
圖1 不同場景下電力設(shè)備的紅外圖像
針對電力設(shè)備圖像目標(biāo)定位研究,一些傳統(tǒng)的目標(biāo)檢測方法[5-8]通常分三個(gè)階段:①利用選擇性搜索方法在給定的圖像上選擇候選區(qū)域;②利用構(gòu)造的特征描述符提取圖像特征;③使用分類器對特征進(jìn)行分類。文獻(xiàn)[6]先使用基于分水嶺變換的數(shù)字圖像處理算法分割出避雷器區(qū)域,再用模糊神經(jīng)網(wǎng)絡(luò)對分割數(shù)據(jù)進(jìn)行訓(xùn)練分類。分水嶺算法對圖像中噪聲和不均勻光照具有較強(qiáng)的魯棒性,但該方法需要待檢測設(shè)備位于圖像中間才能被正確檢測,因此在應(yīng)用中具有一定的局限性。文獻(xiàn)[7]利用半局部算子提取絕緣子圖像的紋理特征,再將新定義的凸能量函數(shù)加入主動輪廓模型,進(jìn)一步提取出絕緣子輪廓,但該方法計(jì)算量大且模型不能自動初始化。這類傳統(tǒng)方法的特征提取過程往往需要人工干預(yù)來獲取與目標(biāo)特征相關(guān)的原始圖像信息[9],且通常需要對網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練以進(jìn)行多類目標(biāo)的定位,因此不能滿足電網(wǎng)快速發(fā)展的需求[10]。
近年來,基于深度學(xué)習(xí)的目標(biāo)檢測研究已成為電力設(shè)備視覺檢測的研究熱點(diǎn)。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是深度學(xué)習(xí)中最重要的模型之一[11]。自從AlexNet網(wǎng)絡(luò)[12]在ImageNet圖像庫上實(shí)現(xiàn)了巨大突破后,CNN獲得了廣泛的關(guān)注[13]。文獻(xiàn)[14]提出了一種新穎的帶級聯(lián)結(jié)構(gòu)的深度CNN,解決了絕緣子定位和缺陷檢測的兩級問題。該級聯(lián)結(jié)構(gòu)的上級網(wǎng)絡(luò)結(jié)合了VGG網(wǎng)絡(luò)(visual geometry group network)[15]和區(qū)域建議網(wǎng)絡(luò)來確定絕緣子的區(qū)域,能夠快速定位絕緣子的位置。文獻(xiàn)[16]將多尺度特征圖與相對位置特征引入Faster R-CNN[17]模型中,用于檢測變壓器的六類組件,獲得了較高的識別精度。文獻(xiàn)[18]優(yōu)先考慮目標(biāo)各部分之間的方向一致性,提出了一種基于任意方向定位的深度卷積神經(jīng)網(wǎng)絡(luò),用來檢測紅外圖像下四類變電設(shè)備的小部件。文獻(xiàn)[19]在LeNet_5[20]模型中引入隨機(jī)配置網(wǎng)絡(luò)分類器,并添加反饋機(jī)制,提高了絕緣子檢測的精度。文獻(xiàn)[21]首次提出了YOLOv3的檢測模型,其單階段的檢測算法在檢測速度和精度上均表現(xiàn)出了很大優(yōu)勢[22],在不同研究領(lǐng)域得到了推廣和應(yīng)用[23-26]。
與普通目標(biāo)的可見光圖像相比,變電站電力設(shè)備的紅外圖像存在以下特征:①圖像背景復(fù)雜,目標(biāo)受干擾、遮擋情況較多;②紅外熱圖像可能存在溫度過于集中的部分,導(dǎo)致圖像對比度低;③設(shè)備外觀輪廓特征相近,且多為大尺度目標(biāo),長寬比偏大。然而,研究發(fā)現(xiàn)原始YOLOv3模型存在幾個(gè)缺陷:對中等或大尺寸的目標(biāo)物體檢測效果較差,容易出現(xiàn)誤檢、漏檢或重復(fù)檢測[21]的問題;對重疊目標(biāo)難以區(qū)分、對目標(biāo)位置定位不夠精確等問題[27]。針對以上問題,本研究對YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了兩處改進(jìn):在YOLOv3骨干網(wǎng)絡(luò)DarkNet53的每個(gè)殘差塊中加上跨階段局部模塊(Cross Stage Partial,CSP)[28],CSP模塊能有效提升卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,減少計(jì)算量,在輕量化的同時(shí)進(jìn)一步提高模型的分類精度;在原模型的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[29]后加入自底向上的特征融合模塊路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[30],PAN是對FPN的補(bǔ)充,它能較好地保存淺層特征信息,自底向上傳遞強(qiáng)定位特征。FPN與PAN的組合模塊能從不同的主干層對不同的檢測層進(jìn)行參數(shù)聚合,進(jìn)一步提高檢測模型的特征提取能力。網(wǎng)絡(luò)深度的加深以及結(jié)構(gòu)的復(fù)雜化使改進(jìn)后的模型在檢測速度上相較原模型有所降低。除網(wǎng)絡(luò)結(jié)構(gòu)上的改進(jìn)外,本文還在模型的輸入端增加了馬賽克(Mosaic)技術(shù),以增強(qiáng)模型的訓(xùn)練效果;CIoU損失函數(shù)被用作新模型的定位損失,能讓模型在邊框回歸時(shí)取得更好的收斂速度和精度。最后,通過實(shí)驗(yàn)及對比評估進(jìn)一步論證了提出模型的有效性與優(yōu)勢。
本文提出的改進(jìn)方案從原始YOLOv3模型的輸入端、骨干網(wǎng)絡(luò)、頸部和檢測頭四個(gè)方面進(jìn)行優(yōu)化:輸入端引入Mosaic數(shù)據(jù)增強(qiáng)處理;在骨干網(wǎng)絡(luò)DarkNet53中引入CSP模塊,并將Leaky_ReLU(LReLU)激活函數(shù)[31]替換為Mish激活函數(shù)[32],新骨干網(wǎng)絡(luò)為CSPDarkNet53;在頸部的空間金字塔池化(Spatial Pyramid Pooling,SPP)[33]模塊與FPN后融入PAN結(jié)構(gòu);檢測頭部分為YOLO_Head模塊,這部分主要通過邊框回歸和非極大值抑制確定目標(biāo)邊界框的最終位置,原始回歸損失函數(shù)方均誤差(Mean Square Error,MSE)被替換為CIoU損失[34]。改進(jìn)后的模型架構(gòu)如圖2所示。
圖2 改進(jìn)YOLOv3模型的網(wǎng)絡(luò)架構(gòu)
新模型在輸入端加入了Mosaic數(shù)據(jù)增強(qiáng)處理,它是CutMix[35]數(shù)據(jù)增強(qiáng)方式的改進(jìn)版。CutMix每次處理兩張圖像,首先將一張圖像的部分區(qū)域剪切掉并不填充零像素,然后隨機(jī)填充數(shù)據(jù)集中其他圖像的區(qū)域像素值。Mosaic數(shù)據(jù)增強(qiáng)則是每次讀取四張圖像,通過隨機(jī)縮放、裁剪及排布、色域變化中的一種或多種方法把四張圖拼成一張,如圖3所示。然后將拼接好的圖像和調(diào)整后的標(biāo)簽傳入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
圖3 Mosaic數(shù)據(jù)增強(qiáng)
輸入端的Mosaic處理,豐富了被檢測目標(biāo)的背景,增加了數(shù)據(jù)集的多樣性。特別是隨機(jī)縮放進(jìn)一步增加了不同尺度的目標(biāo),增強(qiáng)了網(wǎng)絡(luò)的魯棒性。此外,模型一次可以計(jì)算四張圖片數(shù)據(jù),因而具有更低的訓(xùn)練門檻,在GPU資源有限的條件下也能獲得較好的結(jié)果。
1.2.1 CSPNet
CSPDarkNet53是在YOLOv3主干網(wǎng)絡(luò)DarkNet53的基礎(chǔ)上,借鑒2019年CSPNet的經(jīng)驗(yàn)[28],產(chǎn)生的優(yōu)化骨干網(wǎng)絡(luò)。從圖2可以看出,CSPDarkNet53主要由5個(gè)CSP模塊組成。其中,CSP模塊是將DarkNet53的殘差模塊按照CSPNet結(jié)構(gòu)改進(jìn)所產(chǎn)生的,它由5個(gè)卷積模塊和個(gè)Res_unit的疊加模塊組成。
文獻(xiàn)[28]指出,神經(jīng)網(wǎng)絡(luò)推理計(jì)算量過大的問題是由于網(wǎng)絡(luò)優(yōu)化中的梯度信息重復(fù)導(dǎo)致的。而CSPNet就是從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的角度來解決神經(jīng)網(wǎng)絡(luò)在推理過程中需要較大計(jì)算量的問題,它將基礎(chǔ)層的特征映射劃分為兩個(gè)部分,然后通過跨階段層次結(jié)構(gòu)將它們合并。其實(shí)質(zhì)是將梯度的變化集成到特征圖中,通過分割梯度流,使梯度流通過不同的網(wǎng)絡(luò)路徑傳播。因此,帶有CSPNet結(jié)構(gòu)的CSPDarkNet53網(wǎng)絡(luò)有三大優(yōu)點(diǎn):①增強(qiáng)CNN的學(xué)習(xí)能力,能夠在網(wǎng)絡(luò)輕量化的同時(shí)保持準(zhǔn)確性;②提升每個(gè)計(jì)算單元的利用率,降低計(jì)算瓶頸;③降低網(wǎng)絡(luò)的內(nèi)存占用。
1.2.2 Mish激活函數(shù)
CSPDarkNet53將原骨干網(wǎng)絡(luò)的LReLU激活函數(shù)替換為Mish函數(shù),如式(1)所示。與LReLU函數(shù)相比,Mish函數(shù)有助于保持更小的負(fù)值,從而穩(wěn)定網(wǎng)絡(luò)的梯度流;其平滑特性能有效地允許信息深入地滲透到神經(jīng)網(wǎng)絡(luò)中,從而獲得更好的準(zhǔn)確性和泛化性能。因此,隨著網(wǎng)絡(luò)層數(shù)的增加,使用Mish函數(shù)的網(wǎng)絡(luò)表現(xiàn)出了比使用LReLU函數(shù)的網(wǎng)絡(luò)更高的測試精度,這對于復(fù)雜網(wǎng)絡(luò)的優(yōu)化更加有效[36]。
本文模型的頸部由SPP與FPN+PAN組合模塊構(gòu)成。SPP用于提升模型的感受野,通過池化特征圖中不同分辨率的特征挖掘出更重要的目標(biāo)信息。FPN與PAN是兩種特征融合技巧,它們在本文模型中的組合結(jié)構(gòu)如圖4所示。
圖4 FPN+PAN特征融合組合
一般地,低層特征圖的語義信息較少,但是目標(biāo)位置信息豐富;高層特征圖的語義信息比較豐富,而目標(biāo)位置則比較粗略。原模型的FPN模塊是通過自頂向下的上采樣方式傳遞目標(biāo)的強(qiáng)語義特征,但是對目標(biāo)的定位信息傳遞較少。針對原模型的定位問題,新模型在FPN模塊的后面添加一個(gè)自底向上的金字塔結(jié)構(gòu)的PAN模塊,該模塊通過改進(jìn)PANet結(jié)構(gòu)得到。它將低層的強(qiáng)定位特征通過自底向上的下采樣方式傳遞上去,是對FPN模塊的補(bǔ)充優(yōu)化。FPN與PAN的組合模塊能從不同的主干層對不同的檢測層進(jìn)行參數(shù)聚合,進(jìn)一步提高了模型的特征提取能力。
本文模型的輸入是尺寸為608×608的電力設(shè)備紅外圖像,通過對特征圖進(jìn)行32、16和8倍下采樣,得到分辨率為19×19、38×38和76×76三種不同尺度的特征圖,它們分別被用于定位大尺度、中尺度和小尺度的設(shè)備目標(biāo),如圖5所示。YOLO_Head模塊在三個(gè)特征圖的每個(gè)網(wǎng)格單元上預(yù)測三個(gè)邊界框,每個(gè)預(yù)測框均帶有類別、置信度和位置信息,其中包括四個(gè)類別變量v(=1, 2, 3, 4),一個(gè)置信度變量c和四個(gè)位置變量(v,v,v,v),以上變量組成了模型的預(yù)測結(jié)果。
圖5 三種不同尺度的特征圖
利用softmax函數(shù)將輸出的類別變量按多類概率分布進(jìn)行變換,每類電力設(shè)備對應(yīng)的概率計(jì)算式為
這里將交叉熵?fù)p失函數(shù)作為分類損失的目標(biāo)函數(shù),定義為
式中,為目標(biāo)的標(biāo)簽類別是否為預(yù)測類別,其值為0或1。
置信度反映了預(yù)測框內(nèi)存在目標(biāo)的概率,用sigmoid函數(shù)進(jìn)行轉(zhuǎn)換,有
同樣將交叉熵?fù)p失函數(shù)作為置信度損失的目標(biāo)函數(shù),定義為
式中,為預(yù)測框中是否存在目標(biāo),其值為0或1。
定位損失被用來確定最終的邊界框位置,本文的定位損失定義為
其中
式中,CIoU為邊界框回歸預(yù)測的計(jì)算方式,預(yù)測過程如圖6所示;為預(yù)測框中心點(diǎn)與標(biāo)簽框中心點(diǎn)之間的歐式距離;為預(yù)測框與標(biāo)簽框的最小包圍框的對角線距離;box為預(yù)測框;box為標(biāo)簽框;IoU為兩個(gè)框的交集區(qū)域面積與并集區(qū)域面積的比值;為約束量,能夠控制預(yù)測框的長寬盡快地與標(biāo)簽框的長寬接近,其中,為用于衡量預(yù)測框和標(biāo)簽框兩者長寬比一致性的參數(shù),為平衡長寬比例的權(quán)衡參數(shù)。CIoU考慮了重疊面積、中心點(diǎn)距離、長寬比三種因素,能讓模型在邊框回歸時(shí)取得更好的收斂速度和精度。
圖6 邊界框回歸預(yù)測
實(shí)驗(yàn)選取了包含避雷器、互感器、絕緣子、斷路器四類具有相似外觀結(jié)構(gòu)的電力設(shè)備紅外數(shù)據(jù)集。本節(jié)將本文模型與Faster R-CNN、SSD[37]和YOLOv3三種主流模型在選取的數(shù)據(jù)集上進(jìn)行訓(xùn)練測試,并進(jìn)行對比評估。
本文研究的電力設(shè)備紅外原始數(shù)據(jù)集來自于某電網(wǎng)公司對其轄下變電站設(shè)備帶電檢測獲取的數(shù)據(jù)。由于深度學(xué)習(xí)需要大量數(shù)據(jù)樣本對網(wǎng)絡(luò)進(jìn)行訓(xùn)練[38],因此本研究對原數(shù)據(jù)集進(jìn)行了圖像增強(qiáng)和擴(kuò)充預(yù)處理,處理后的數(shù)據(jù)集共包含4 323張?jiān)O(shè)備圖像,利用LabelImg圖像標(biāo)注工具共標(biāo)記出635個(gè)避雷器、2 470個(gè)互感器、6 084個(gè)絕緣子和1 291個(gè)斷路器設(shè)備。為了較好地評估網(wǎng)絡(luò)性能、驗(yàn)證模型訓(xùn)練測試的泛化性能,本文將數(shù)據(jù)集隨機(jī)分為比例基本相同的訓(xùn)練和測試數(shù)據(jù),即訓(xùn)練與測試集分別包括2 162和2 161張圖像。
對實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練與測試均在同一個(gè)Ubuntu 16.04操作系統(tǒng)的深度學(xué)習(xí)服務(wù)器上進(jìn)行,該服務(wù)器帶有Intel Xeon W-2145 CPU,兩個(gè)GeForce RTX 2080Ti 11-GB GPU和64-GB DDR4 RAM。數(shù)據(jù)集的訓(xùn)練和測試均利用DarkNet框架實(shí)現(xiàn),單張圖片的檢測效果通過OpenCV工具庫可視化。
訓(xùn)練開始階段利用遷移學(xué)習(xí)來初始化模型的權(quán)重。遷移學(xué)習(xí)是將一個(gè)領(lǐng)域內(nèi)學(xué)習(xí)到的知識應(yīng)用到另一個(gè)相似領(lǐng)域的技術(shù)[39],它可以提取原始問題數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的潛在特征或共同結(jié)構(gòu)[40],從而加速模型的訓(xùn)練并提高模型的性能。訓(xùn)練過程采用批歸一化的方式優(yōu)化,一個(gè)批次訓(xùn)練64個(gè)樣本,每次將1個(gè)樣本送入模型進(jìn)行前向計(jì)算。設(shè)置模型的初始學(xué)習(xí)率為1.3×10-3,動量為0.949,權(quán)重衰減為0.000 5,共訓(xùn)練30 000個(gè)批次。
圖7為訓(xùn)練過程中平均損失值(Avg_loss)與平均精度均值(mAP)隨迭代次數(shù)(iterations)增加而變化的曲線。其中,mAP曲線是模型每訓(xùn)練4個(gè)epoch(本文即神經(jīng)網(wǎng)絡(luò)迭代136次)計(jì)算一次mAP值,共215個(gè)mAP值組合得到的。從圖7可以看出,訓(xùn)練開始后損失值隨著訓(xùn)練迭代次數(shù)的增加而逐漸減小,收斂速度較快,且誤差波動范圍逐漸縮小。當(dāng)?shù)螖?shù)達(dá)到5 000時(shí),訓(xùn)練損失下降明顯變慢,迭代20 000次后損失值在1左右波動,并且不再趨于降低,這表明模型達(dá)到了較為理想的訓(xùn)練效果。mAP曲線在訓(xùn)練迭代5 000次時(shí)已經(jīng)達(dá)到較高值,但波動較大,迭代20 000次之后波動范圍變小,并在迭代23 440次時(shí)mAP達(dá)到最大值0.960 37。因此選取第23 440次迭代的訓(xùn)練權(quán)重作為檢測測試集的最終權(quán)重。
圖7 訓(xùn)練期間的平均損失曲線和mAP曲線
為了驗(yàn)證本文模型的有效性,本部分將Faster R-CNN、SSD、YOLOv3和本文提出的模型在四類電力設(shè)備紅外數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評估,并討論實(shí)驗(yàn)結(jié)果。評估指標(biāo)包括計(jì)算每個(gè)類別的平均精度值(AP)、不同檢測閾值(IoU)下的mAP和檢測速度(FPS)。其中,AP是評價(jià)單一類別檢測效果的重要指標(biāo),可以通過計(jì)算準(zhǔn)確率與召回率(見式(10))曲線所包圍的面積得到,見式(11)。mAP是模型檢測四類電力設(shè)備的平均精度均值,它可以通過計(jì)算所有類別AP的平均值得到,定義為
式中,tp即真正例,表示模型正確識別出目標(biāo)類別的數(shù)量;fp即假正例,表示模型將其他類別誤判為目標(biāo)類別的數(shù)量;fn即假反例,表示模型將目標(biāo)類別誤判為其他類別的數(shù)量。
表1給出了四種模型在不同閾值下(IoU=0.5和0.75)測試相同數(shù)據(jù)集得到的AP、mAP和FPS三個(gè)指標(biāo)的比較結(jié)果。其中,本文模型在閾值為0.5和0.75時(shí)的mAP值分別為96.04%和89.58%,且檢測速度高達(dá)56f/s。將本文模型與其他三種模型的測試結(jié)果進(jìn)行對比,分析如下:在單類別的平均精度方面,本文模型檢測避雷器、斷路器、絕緣子的精度值均高于其他三種方法;在平均精度均值方面,不同閾值下本文模型均比其他模型精度高;在檢測速度方面,由于改進(jìn)的YOLOv3網(wǎng)絡(luò)深度加深,速度略慢于原始YOLOv3模型,但是明顯快于Faster R-CNN和SSD??傮w而言,本文提出的模型在檢測精度和速度上均達(dá)到了令人滿意的結(jié)果。
表1 不同檢測模型的測試結(jié)果
Tab.1 Testing results of the different detection models
圖8展示了本文模型在隨機(jī)挑選的測試集圖像上的檢測結(jié)果,它包括帶標(biāo)簽框的原始圖像和檢測結(jié)果圖。其中避雷器(arrester)、斷路器(breaker)、互感器(transformer)、絕緣子(insulator)的預(yù)測結(jié)果分別如圖8對應(yīng)框中所示,邊界框上方的值為模型預(yù)測該類別的置信度。可以看出,模型不僅能在特定場景下精確地檢測到目標(biāo),而且在目標(biāo)重疊、背景遮擋、復(fù)雜背景環(huán)境等情況下(如圖8c、圖8e、圖8f),模型仍能以很高的準(zhǔn)確率預(yù)測設(shè)備類別,并精確地定位到設(shè)備所在位置。以上結(jié)果表明,在不同場景下,本文所提出的模型在檢測準(zhǔn)確度、速度和定位精度方面均表現(xiàn)出較大的優(yōu)勢,尤其適用于變電站電力設(shè)備的紅外目標(biāo)檢測。
圖8 本文方法在部分圖像上的檢測結(jié)果
本文提出一種改進(jìn)YOLOv3的電力設(shè)備紅外圖像檢測新模型,主要從原模型的輸入端、骨干網(wǎng)絡(luò)、頸部及檢測頭四部分進(jìn)行改進(jìn)。改進(jìn)后的模型針對避雷器、互感器、絕緣子、斷路器四類具有相似外觀結(jié)構(gòu)的電力設(shè)備紅外數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn)。結(jié)果表明:
1)本文模型檢測四類變電設(shè)備的精度均可達(dá)92%以上,獲得了較好的紅外目標(biāo)檢測效果。
2)在IoU閾值為0.5和0.75時(shí),其平均精度均值分別高達(dá)96.04%和89.58%,均高于Faster R-CNN、SSD和YOLOv3模型。
3)在同一臺實(shí)驗(yàn)平臺上進(jìn)行訓(xùn)練測試,提出模型的檢測速度高達(dá)56f/s,略低于原始YOLOv3模型,但明顯高于Faster R-CNN和SSD。本文模型不僅能準(zhǔn)確識別電力設(shè)備類別,而且能快速精確地定位到設(shè)備所在位置,為后續(xù)電力設(shè)備的帶電狀態(tài)評估與診斷奠定了基礎(chǔ)。
[1]Ullah I, Khan R U, Yang Fan, et al. Deep learning image-based defect detection in high voltage electrical equipment[J]. Energies, 2020, 13(2): 392.
[2]馮振新, 周東國, 江翼, 等. 基于改進(jìn) MSER 算法的電力設(shè)備紅外故障區(qū)域提取方法[J]. 電力系統(tǒng)保護(hù)與控制, 2019, 47(5): 123-128. Feng Zhenxin, Zhou Dongguo, Jiang Yi, et al. Fault region extraction using improved MSER algorithm with application to the electrical system[J]. Power System Protection and Control, 2019, 47(5): 123-128.
[3]Jadin M S, Taib S. Recent progress in diagnosing the reliability of electrical equipment by using infrared thermography[J]. Infrared Physics & Technology, 2012, 55(4): 236-245.
[4]Jadin M S, Taib S, Ghazali K H. Finding region of interest in the infrared image of electrical installation[J]. Infrared Physics & Technology, 2015, 71: 329-338.
[5]Zhao Zhenbing, Xu Guozhi, Qi Yincheng. Representation of binary feature pooling for detection of insulator strings in infrared images[J]. IEEE Transactions on Dielectrics and Electrical Insulation, 2016, 23(5): 2858-2866.
[6]Almeida C A L, Braga A P, Nascimento S, et al. Intelligent thermographic diagnostic applied to surge arresters: a new approach[J]. IEEE Transactions on Power Delivery, 2009, 24(2): 751-757.
[7]Wu Qinggang, An Jubai. An active contour model based on texture distribution for extracting inhomogeneous insulators from aerial images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(6): 3613-3626.
[8]朱邵成, 高清維, 盧一相, 等. 基于頻率調(diào)諧的絕緣子識別與定位[J]. 電工技術(shù)學(xué)報(bào), 2018, 33(23): 5573-5580. Zhu Shaocheng, Gao Qingwei, Lu Yixiang, et al. Identification and location of insulator string based on frequency-tuned[J]. Transactions of China Electrotechnical Society, 2018, 33(23): 5573-5580.
[9]Wang Zhujun, Yang Lijian, Gao Songwei. Pipeline magnetic flux leakage image detection algorithm based on multiscale SSD network[J]. IEEE Transactions on Industrial Informatics, 2020, 16(1): 501-509.
[10]Zhong Junping, Liu Zhigang, Han Zhiwei, et al. A CNN-based defect inspection method for catenary split pins in high-speed railway[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(8): 2849-2860.
[11]孫曙光, 李勤, 杜太行, 等. 基于一維卷積神經(jīng)網(wǎng)絡(luò)的低壓萬能式斷路器附件故障診斷[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(12): 2562-2573. Sun Shuguang, Li Qin, Du Taihang, et al. Fault diagnosis of accessories for the low voltage conventional circuit breaker based on one-dimensional convolutional neural network[J]. Transactions of China Electrotechnical Society, 2020, 35(12): 2562-2573.
[12]Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neuralnetworks[C]//NIPS'12 Proceedings of the 25th International Conference on Neural Information Processing Systems, LakeTahoe, USA, 2012: 1097-1105.
[13]李超然, 肖飛, 樊亞翔, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的鋰離子電池SOH估算[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(19): 4106-4119. Li Chaoran, Xiao Fei, Fan Yaxiang, et al. An approach to lithium-ion battery SOH estimation based on convolutional neural network[J]. Transactions of China Electrotechnical Society, 2020, 35(19): 4106-4119.
[14]Tao Xian, Zhang Dapeng, Wang Zihao, et al. Detection of power line insulator defects using aerial images analyzed with convolutional neural networks[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(4): 1486-1498.
[15]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. [2015-04-10]. https://arxiv.org/abs/1409.1556.
[16]Liu Ziquan, Wang Huifang. Automatic detection of transformer components in inspection images based on improved faster R-CNN[J]. Energies, 2018, 11(12): 3496.
[17]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, Montreal, Canada, 2015: 91-99.
[18]Gong Xiaojin, Yao Qi, Wang Mengling, et al. A deep learning approach for oriented electrical equipment detection in thermal images[J]. IEEE Access, 2018, 6: 41590-41597.
[19]張倩, 王建平, 李帷韜. 基于反饋機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)絕緣子狀態(tài)檢測方法[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(16): 3311-3321. Zhang Qian, Wang Jianping, Li Weitao. Insulator state detection of convolutional neural networks based on feedback mechanism[J]. Transactions of China Electrotechnical Society, 2019, 34(16): 3311-3321.
[20]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[21]Redmon J, Farhadi A. YOLOv3: An incremental improvement[J/OL]. [2018-04-8]. https://arxiv.org/ abs/1804.02767.
[22]Liu Yunpeng, Ji Xinxin, Pei Shaotong, et al. Research on automatic location and recognition of insulators in substation based on YOLOv3[J]. High Voltage, 2020, 5(1): 62-68.
[23]Choi J, Chun D, Kim H, et al. Gaussian YOLOV3: an accurate and fast object detector using localization uncertainty for autonomous driving[C]//IEEE International Conference on Computer Vision, Seoul, South Korea, 2019: 502-511.
[24]Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[J/OL]. arXiv preprint arXiv:2004.10934.
[25]Zhao Liquan, Li Shuaiyang. Object detection algorithm based on improved YOLOv3[J]. Electronics, 2020, 9(3): 537.
[26]Tian Yunong, Yang Guodong, Wang Zhe, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[27]徐誠極, 王曉峰, 楊亞東. Attention-YOLO: 引入注意力機(jī)制的YOLO檢測算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(6): 13-23. Xu Chengji, Wang Xiaofeng, Yang Yadong. Attention-YOLO: YOLO detection algorithm that introduces attention mechanism[J]. Computer Engineering and Applications, 2019, 55(6): 13-23.
[28]Wang C Y, Mark Liao H Y, Wu Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, USA, 2020: 390-391.
[29]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2117-2125.
[30]Liu Shu, Qi Lu, Qin Haifang, et al. Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8759-8768.
[31]Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]//Proc. ICML, Atlanta, USA, 2013, 30(1): 3.
[32]Misra D. Mish: a self regularized non-monotonic neural activation function[J/OL]. https://arxiv.org/abs/ 1908.08681, 2019.
[33]He Kaimng, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[34]Zheng Zhaohui, Wang Ping, Liu Wei, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//AAAI Conference on Artificial Intelligence, New York, USA, 2020: 12993-13000.
[35]Yun Sangdoo, Han Dongyoon, ChunSanghyuk, et al. Cutmix: regularization strategy to train strong classifiers with localizable features[C]//IEEE/CVF International Conference on Computer Vision, Seoul, South Korea, 2019: 6023-6032.
[36]Zhu Qinfeng, Zheng Huifeng, Wang Yuebing, et al. Study on the evaluation method of sound phase cloud maps based on an improved YOLOv4 algorithm[J]. Sensors, 2020, 20(15): 4314.
[37]Liu Wei, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 21-37.
[38]李垣江, 張周磊, 李夢含, 等. 采用深度學(xué)習(xí)的永磁同步電機(jī)匝間短路故障診斷方法[J]. 電機(jī)與控制學(xué)報(bào), 2020, 24(9): 173-180. Li Yuanjiang, Zhang Zhoulei, Li Menghan, et al. Fault diagnosis of inter-turn short circuit of permanent magnet synchronous motor based on deep learning[J]. Electric Machines and Control, 2020, 24(9): 173-180.
[39]陳劍, 杜文娟, 王海風(fēng). 采用深度遷移學(xué)習(xí)定位含直驅(qū)風(fēng)機(jī)次同步振蕩源機(jī)組的方法[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(1): 179-190. Chen Jian, Du Wenyjuan, Wang Haifeng. A method of locating the power system subsynchronous oscillation source unit with grid-connected PMSG using deep transfer learning[J]. Transactions of China Electrote-chnical Society, 2021, 36(1): 179-190.
[40]Wen Long, Gao Liang, Li Xinyu. A new deep transfer learning based on sparse auto-encoder for fault diagnosis[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(1): 136-144.
Infrared Object Detection Model for Power Equipment Based on Improved YOLOv3
Zheng Hanbo Li Jinheng Liu Yang Cui Yaohui Ping Yuan
(School of Electrical Engineering Guangxi University Nanning 530004 China)
Infrared image detection technology is widely used in monitoring and diagnosing electrical equipment considering its non-contact and fast advantages. It is generally believed that fast and accurate localization of the equipment is the prerequisite for automatic detection and diagnosis. Compared with visible light images of ordinary objects, the infrared images of power equipment have characteristics of complex background, low contrast, similar object features, and large aspect ratio. Besides, the original YOLOv3 model is difficult to accurately locate the objects of power equipment. In view of the above problems, an improved YOLOv3 model was proposed in this paper: cross stage partial module was introduced into the backbone network; the path aggregation network was integrated into the feature pyramid structure of the original model; in addition, this study also added Mosaic data enhancement technology and CIoU loss function. The improved model was trained and tested on four types of infrared image data sets of power equipment with similar corrugated appearance structures, which showed that the detection accuracy of each type can reach more than 92%. Finally, the results were compared and evaluated with the other three mainstream object detection models. The results show that the mean average precisions of the improved model proposed in this paper were better than Faster R-CNN, SSD and YOLOv3. Although the detection speed of the improved YOLOv3 model is sacrificed compared to the original YOLOv3 model, it is significantly higher than the other two models, further verifying the effectiveness of the proposed model in this paper.
Power equipment detection, YOLOv3, convolutional neural network, infrared image
TM85
10.19595/j.cnki.1000-6753.tces.201324
國家自然科學(xué)基金(51907034)和廣西科技基地和人才專項(xiàng)科技項(xiàng)目(2020AC19010)資助。
2020-09-28
2020-12-14
鄭含博 男,1984年生,副教授,研究方向?yàn)殡姎庠O(shè)備智能檢測與診斷、電工絕緣新材料、智能配電網(wǎng)及新能源應(yīng)用。E-mail:hanbozheng@163.com(通信作者)
李金恒 男,1996年生,碩士研究生,研究方向?yàn)殡姎庠O(shè)備的智能檢測。E-mail:lijinheng2018@163.com
(編輯 郭麗軍)