蘇海鋒,趙 巖,武澤君,程 博,呂林飛
基于改進(jìn)RetinaNet的電力設(shè)備紅外目標(biāo)精細(xì)化檢測模型
蘇海鋒,趙 巖,武澤君,程 博,呂林飛
(華北電力大學(xué) 電力工程系,河北 保定 071000)
電力設(shè)備在運(yùn)行過程中會(huì)產(chǎn)生大量紅外圖像,當(dāng)紅外圖像中的電力設(shè)備存在排列密集、具有傾斜角度、大長寬比的情況時(shí),基于水平矩形框的目標(biāo)檢測網(wǎng)絡(luò)只能給出目標(biāo)概略位置,易發(fā)生目標(biāo)檢測區(qū)域重疊,引入冗余背景信息,使得檢測結(jié)果不夠精細(xì)。針對此問題,提出在RetinaNet目標(biāo)檢測網(wǎng)絡(luò)中引入旋轉(zhuǎn)矩形框機(jī)制,并在網(wǎng)絡(luò)輸入端引入Mosaic數(shù)據(jù)增強(qiáng)技術(shù);將原特征提取網(wǎng)絡(luò)中ReLU函數(shù)替換為梯度流更平滑的Mish激活函數(shù);在原模型FPN模塊后追加PAN模塊進(jìn)一步融合圖像特征。最后利用現(xiàn)場采集的電力設(shè)備紅外圖像制作數(shù)據(jù)集,將改進(jìn)后的模型與Faster R-CNN、YOLOv3、原RetinaNet三種基于水平矩形框定位的目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行對比評估,實(shí)驗(yàn)表明改進(jìn)后的模型可以更為精細(xì)地檢測出密集場景下帶有傾角的電力設(shè)備紅外目標(biāo),在多類別電力設(shè)備檢測準(zhǔn)確率對比上高于以上3種模型。
紅外圖像;RetinaNet;電力設(shè)備;卷積神經(jīng)網(wǎng)絡(luò);目標(biāo)檢測;
電氣設(shè)備的可靠運(yùn)行直接關(guān)系到電力系統(tǒng)的安全與穩(wěn)定,其在故障早期往往會(huì)出現(xiàn)溫度異常的現(xiàn)象。紅外熱成像技術(shù)作為一種非接觸式的測溫技術(shù),可以全天候地獲取電力設(shè)備溫度分布信息并形成熱譜圖進(jìn)行顯示[1],及時(shí)有效地發(fā)現(xiàn)設(shè)備過熱缺陷。目前該技術(shù)已廣泛地應(yīng)用到了變電站電氣設(shè)備運(yùn)行狀態(tài)檢測當(dāng)中,但其產(chǎn)生的大量紅外圖像仍然要靠人工進(jìn)行故障判別與分析[2],效率低下、主觀性強(qiáng),難以提升設(shè)備狀態(tài)檢測過程的實(shí)時(shí)性與可靠性。因此利用快速、準(zhǔn)確地自動(dòng)檢測算法對海量的紅外圖像數(shù)據(jù)進(jìn)行分析成為當(dāng)下研究的重點(diǎn)[3]。而對紅外圖像中出現(xiàn)的多種電氣設(shè)備進(jìn)行精確的定位與識(shí)別,是后續(xù)進(jìn)行設(shè)備故障診斷與精準(zhǔn)報(bào)警的基礎(chǔ)[4]。
近年來深度學(xué)習(xí)的發(fā)展使得越來越多的學(xué)者將基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)引入到電氣設(shè)備的紅外圖像檢測中[5-7]。目前主流的目標(biāo)檢測深度學(xué)習(xí)算法可分為兩大類:①Two-stage檢測算法,此類方法分兩步進(jìn)行,首先利用RPN(region proposal network)等結(jié)構(gòu)生成候選區(qū)域,之后對候選區(qū)域進(jìn)行目標(biāo)分類與位置調(diào)整。代表作有Faster R-CNN[8];②One-stage檢測算法,這類方法無需單獨(dú)生成候選區(qū)域,只通過全卷積的結(jié)構(gòu)即可得出目標(biāo)的分類與邊框回歸參數(shù)。典型方法有YOLOv3(you only look once)[9]、SSD(single shot multibox detector)[10]等。One-stage類算法較Two-stage類算法速度提升明顯,但準(zhǔn)確率低于Two-stage類算法。文獻(xiàn)[11]利用Faster R-CNN對紅外圖像進(jìn)行處理,實(shí)現(xiàn)了變壓器、套管、斷路器等7種電氣設(shè)備的定位與識(shí)別,取得了較高的識(shí)別精度。文獻(xiàn)[12]基于改進(jìn)YOLOv3算法對5種高壓開關(guān)設(shè)備紅外圖像進(jìn)行識(shí)別,并達(dá)到了對異常發(fā)熱點(diǎn)進(jìn)行檢測的目的。
目前用于電氣設(shè)備紅外圖像目標(biāo)檢測的深度學(xué)習(xí)算法主要利用水平矩形框?qū)ξ矬w進(jìn)行定位與識(shí)別,在電力設(shè)備密集、大長寬比、多角度的場景下水平矩形框無法保證足夠的定位精細(xì)度,甚至?xí)蜻x到臨近設(shè)備,造成識(shí)別錯(cuò)位。當(dāng)紅外圖像中的電氣設(shè)備目標(biāo)存在一定旋轉(zhuǎn)角度,尤其是接近45°傾角時(shí),水平矩形框易引入與目標(biāo)無關(guān)的大量背景冗余信息[13],不利于后續(xù)基于設(shè)備區(qū)域顏色值進(jìn)行的狀態(tài)評估操作。針對水平框定位不精細(xì)的問題,本文提出基于改進(jìn)RetinaNet[14]的旋轉(zhuǎn)目標(biāo)精細(xì)化檢測方法,利用帶有角度的旋轉(zhuǎn)矩形框?qū)A斜密集的電氣設(shè)備紅外目標(biāo)進(jìn)行精細(xì)化的定位,以減少目標(biāo)框選過程中的干擾物影響。同時(shí)為進(jìn)一步提升模型在紅外圖像中的檢測準(zhǔn)確率,在原RetinaNet網(wǎng)絡(luò)中引入Mosaic[15]數(shù)據(jù)增強(qiáng)算法、Mish[16]激活函數(shù)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[17]進(jìn)行優(yōu)化。最后在隔離開關(guān)、斷路器、絕緣子串、電壓互感器、電流互感器5類紋理特征理相似,大長寬比,易因拍攝等問題產(chǎn)生傾斜角度的設(shè)備中進(jìn)行對比實(shí)驗(yàn),證明本文所提模型在提升定位精細(xì)化程度上的有效性以及檢測準(zhǔn)確率上的優(yōu)勢。
RetinaNet屬于One-stage方法,該網(wǎng)絡(luò)利用Focal Loss損失函數(shù)降低了圖像中大量簡單背景信息所占權(quán)重,突出圖像目標(biāo)區(qū)域正樣本信息,解決了One-stage目標(biāo)檢測算法中存在的正負(fù)樣本比例失衡的問題,從而使網(wǎng)絡(luò)專注于難分樣本的訓(xùn)練。Focal Loss的利用使得RetinaNet網(wǎng)絡(luò)在COCO數(shù)據(jù)集上的檢測精度首次高于Two-stage算法[14],且保有One-stage算法的速度優(yōu)勢。RetinaNet目標(biāo)檢測網(wǎng)絡(luò)主要包括特征提取網(wǎng)絡(luò)、特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,F(xiàn)PN)[18]、預(yù)測網(wǎng)絡(luò)3部分。特征提取部分采用深度殘差網(wǎng)絡(luò)ResNet101來進(jìn)行圖像特征的初步提取,殘差結(jié)構(gòu)的使用避免了因網(wǎng)絡(luò)層次過深引起的梯度消失與梯度爆炸問題;FPN模塊對特征提取網(wǎng)絡(luò)輸出的特征圖進(jìn)行進(jìn)一步的特征融合,從單一分辨率的圖片構(gòu)建出特征信息豐富、多尺度的特征金字塔,最終輸出包含5個(gè)不同尺度目標(biāo)區(qū)域信息的特征圖集合;預(yù)測網(wǎng)絡(luò)分為目標(biāo)分類子網(wǎng)絡(luò)與邊框位置回歸子網(wǎng)絡(luò)兩條支路,對5個(gè)特征圖進(jìn)行全卷積[19]操作,其中目標(biāo)分類子網(wǎng)負(fù)責(zé)預(yù)測目標(biāo)的類別置信度分布,位置回歸子網(wǎng)用于預(yù)測目標(biāo)邊框的位置信息。
為達(dá)到對紅外圖像中電氣設(shè)備精細(xì)化檢測的目的,本文主要對RetinaNet進(jìn)行4個(gè)方面的改進(jìn):①在原網(wǎng)絡(luò)中引入旋轉(zhuǎn)框機(jī)制,實(shí)現(xiàn)在大長寬比、傾斜密集場景下的電氣設(shè)備紅外目標(biāo)精細(xì)化定位。旋轉(zhuǎn)框與水平框定位效果對比如圖1所示;②在網(wǎng)絡(luò)的圖像輸入端增加Mosaic數(shù)據(jù)增強(qiáng)算法,進(jìn)一步豐富紅外圖像背景信息,增加樣本的多樣性并提升模型的泛化能力;③在特征提取網(wǎng)絡(luò)引入Mish激活函數(shù),用于增強(qiáng)梯度變化的平滑性,避免原ReLU[20]激活函數(shù)導(dǎo)致負(fù)值梯度消失的問題;④最后采用FPN+PAN結(jié)構(gòu)進(jìn)行多尺度特征融合,充分利用多層特征圖的不同信息。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖1 水平框與旋轉(zhuǎn)框定位效果對比
圖2 改進(jìn)RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)后的RetinaNet旋轉(zhuǎn)目標(biāo)檢測網(wǎng)絡(luò)采用Mosaic數(shù)據(jù)增強(qiáng)方法處理輸入端電氣設(shè)備紅外圖片,Mosaic數(shù)據(jù)增強(qiáng)方法每次讀取4張紅外圖片,首先對每張圖片進(jìn)行隨機(jī)縮放、裁剪、色域變換、水平翻轉(zhuǎn)中的一種或多種操作,之后將處理過的4張圖片進(jìn)行隨機(jī)排布拼接成一張圖片,如圖3所示。將拼接好的紅外圖片以及標(biāo)簽數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)進(jìn)行進(jìn)一步的特征提取。Mosaic數(shù)據(jù)增強(qiáng)技術(shù)通過對多張圖片的拼接操作豐富了待檢測電氣設(shè)備目標(biāo)的背景信息,使得改進(jìn)RetinaNet網(wǎng)絡(luò)對復(fù)雜背景的紅外圖像檢測適應(yīng)性更強(qiáng),對圖片的縮放操作進(jìn)一步豐富了圖像內(nèi)部小目標(biāo)電氣設(shè)備樣本的數(shù)目,增強(qiáng)了模型對不同尺度紅外目標(biāo)的魯棒性。該方法一次處理4張圖片的數(shù)據(jù),因而mini-batch大小不需要很大,降低了訓(xùn)練門檻,單GPU即可達(dá)到較好的訓(xùn)練效果[15]。
圖3 Mosaic數(shù)據(jù)增強(qiáng)
原ResNet101網(wǎng)絡(luò)中使用ReLU激活函數(shù),其表達(dá)式如下:
ReLU()=max(0,)(1)
相比于sigmoid和tanh激活函數(shù),ReLU激活函數(shù)存在正區(qū)間不飽和的優(yōu)勢,當(dāng)>0時(shí)激活值輸出始終大于零,解決了正區(qū)間值過大進(jìn)入飽和區(qū)造成的梯度消失的問題。但當(dāng)≤0時(shí)激活值恒為0,對應(yīng)導(dǎo)數(shù)為0,存在著負(fù)區(qū)間梯度消失的缺點(diǎn),在<0時(shí)梯度無法繼續(xù)更新導(dǎo)致神經(jīng)元死亡。為解決ReLU函數(shù)存在的問題,本文將ReLU函數(shù)替換為Mish激活函數(shù),具體表達(dá)式如下:
Mish()=tanh(ln(1+e)) (2)
相較于ReLU函數(shù),Mish函數(shù)在負(fù)值的時(shí)候并非完全截?cái)?,如圖4所示,而是允許一定的負(fù)值梯度存在,從而穩(wěn)定了網(wǎng)絡(luò)的梯度流,其平滑的特性能有效地允許電氣設(shè)備圖像信息深入地滲透到神經(jīng)網(wǎng)絡(luò)中。Mish函數(shù)保證每一點(diǎn)的平滑性,使得訓(xùn)練過程中梯度下降效果優(yōu)于ReLU函數(shù)。隨著特征提取網(wǎng)絡(luò)層數(shù)的加深,利用Mish激活函數(shù)替代ReLU激活函數(shù)取得了比原網(wǎng)絡(luò)更高的測試準(zhǔn)確率與訓(xùn)練穩(wěn)定性[16]。
本文在原RetinaNet的FPN模塊后面新增PAN模塊,電氣設(shè)備紅外圖像輸入ResNet101特征提取網(wǎng)絡(luò)后,得到不同深度的特征圖,不同深度的特征圖所含特征信息有所不同,深層特征圖攜帶有更強(qiáng)的電氣設(shè)備語義特征信息和較弱的目標(biāo)位置信息,而淺層的特征圖含有豐富的電氣設(shè)備目標(biāo)位置特征與較弱的語義特征。FPN模塊采用自頂向下進(jìn)行上采樣的方式將深層特征圖與淺層特征圖進(jìn)行疊加融合,以達(dá)到向淺層特征圖傳遞深層語義特征的目的,但淺層豐富的目標(biāo)位置信息并未傳遞到深層特征圖。為了進(jìn)一步融合電氣設(shè)備紅外圖像深層語義特征與淺層目標(biāo)位置特征,在FPN模塊后添加PAN模塊,PAN結(jié)構(gòu)對FPN輸出的特征圖進(jìn)行自底向上的下采樣操作,通過卷積模塊調(diào)整特征圖尺寸與通道數(shù),之后逐級與深層特征圖疊加融合,把淺層的豐富的目標(biāo)位置特征傳遞到深層的特征圖。FPN和PAN結(jié)構(gòu)的組合充分利用了紅外圖像不同尺度特征圖的信息,避免了One-stage方法利用單一尺度特征圖無法同時(shí)有效地表征各個(gè)尺度的物體的缺點(diǎn),提高了模型對電氣設(shè)備紅外圖像的特征利用能力。
圖4 兩種激活函數(shù)
RetinaNet目標(biāo)檢測算法利用水平矩形框?qū)ξ矬w進(jìn)行定位識(shí)別,因此在電氣設(shè)備紅外圖像目標(biāo)檢測中的應(yīng)用存在一定的局限性。當(dāng)紅外圖像中的電氣設(shè)備排列密集時(shí),一個(gè)矩形框可能包含多個(gè)目標(biāo),矩形框之間的重疊區(qū)域較大;在電氣設(shè)備存在傾斜角度時(shí),水平矩形框會(huì)引入較多背景噪聲信息,影響后續(xù)圖像處理工作。針對以上局限性,本文將RetinaNet網(wǎng)絡(luò)的水平矩形框調(diào)整為帶有旋轉(zhuǎn)角度的矩形框,并對預(yù)測子網(wǎng)絡(luò)與損失函數(shù)做出調(diào)整。
2.4.1 旋轉(zhuǎn)矩形框機(jī)制
本文定義的旋轉(zhuǎn)矩形框如圖5所示,矩形框中與軸正方向成銳角的邊定義為,另一條邊定義為,角度為邊與軸正方向所成的銳角,取值區(qū)間為[-p/2,0)。旋轉(zhuǎn)矩形框以(,,,,)位置向量的形式給出,、表示矩形框中心點(diǎn)坐標(biāo),、代表矩形框的寬度和高度。
輸入RetinaNet網(wǎng)絡(luò)的圖片大小為800×800,在經(jīng)過特征提取、特征圖融合后輸出7×7、13×13、25×25、50×50、100×100五個(gè)不同尺度的特征圖來預(yù)測不同尺度的物體,5個(gè)特征圖分別記為1~5。特征圖在原圖的映射點(diǎn)稱為錨點(diǎn),以每個(gè)錨點(diǎn)為中心形成不同大小的先驗(yàn)框(anchor)。先驗(yàn)框的面積尺度在1~5上分別為{5122, 2562, 1282, 642, 322},原RetinaNet模型對每個(gè)尺度的先驗(yàn)框添加{20, 21/3, 22/3}3種不同尺度的面積比例因子與{1/2, 1/1, 2/1}3種不同的長寬比例因子,每個(gè)錨點(diǎn)生成9個(gè)不同的先驗(yàn)框。由于電氣設(shè)備多具有大長寬比的特點(diǎn),本文將原來3種長寬比拓展為{1:1,1:2,2:1,1:3,3:1,5:1,1:5}7種長寬比,增加了更大的長寬比例因子以適應(yīng)電氣設(shè)備紅外目標(biāo)的定位框選,并對每個(gè)先驗(yàn)框引入{-p/2, -5p/2, -p/3, -p/4, -p/6, -p/12}6種角度變換因子,實(shí)現(xiàn)對帶有傾斜角度的紅外電氣設(shè)備精細(xì)化定位。每個(gè)錨點(diǎn)由原模型的9個(gè)水平矩形先驗(yàn)框增加為126個(gè)帶有角度的先驗(yàn)框,改進(jìn)后的先驗(yàn)框策略如圖6所示,先驗(yàn)框的位置坐標(biāo)向量由(a,a,a,a,a)表示。
圖5 旋轉(zhuǎn)矩形框示意圖
圖6 本文使用的先驗(yàn)框策略
2.4.2 預(yù)測網(wǎng)絡(luò)
特征提取部分輸出的1~5五個(gè)不同尺度特征圖分別進(jìn)入對應(yīng)的預(yù)測網(wǎng)絡(luò),如圖2右側(cè)所示。預(yù)測網(wǎng)絡(luò)分為目標(biāo)分類子網(wǎng)絡(luò)與位置回歸子網(wǎng)絡(luò)兩條支路,兩支路均進(jìn)行4個(gè)連續(xù)的卷積操作來提取特征,每次卷積操作后使用ReLU作為激活函數(shù),最后通過一個(gè)卷積層調(diào)整特征圖通道數(shù)?;貧w子網(wǎng)絡(luò)負(fù)責(zé)預(yù)測每個(gè)錨點(diǎn)對應(yīng)預(yù)測框的位置參數(shù),原RetinaNet利用水平框?qū)ξ矬w進(jìn)行框選,只需要預(yù)測(¢,¢,¢,¢)4個(gè)位置參數(shù)來表示預(yù)測框中心點(diǎn)位置與寬高,每個(gè)錨點(diǎn)周圍生成9個(gè)預(yù)測框,故回歸子網(wǎng)絡(luò)輸出××4的張量,其中的值為9,×等于輸入特征圖對應(yīng)錨點(diǎn)數(shù)量。改進(jìn)RetinaNet采用旋轉(zhuǎn)矩形框,在得到預(yù)測框中心點(diǎn)位置與寬高的基礎(chǔ)上還需要增加額外的傾斜角度變量,需要預(yù)測(¢,¢,¢,¢,¢)5個(gè)旋轉(zhuǎn)框位置預(yù)測量,由于每個(gè)錨點(diǎn)生成21個(gè)預(yù)測框,每個(gè)框含有6個(gè)旋轉(zhuǎn)角度因子,此時(shí)每個(gè)錨點(diǎn)生成126個(gè)大小、角度不同的框,故調(diào)整回歸子網(wǎng)絡(luò)最后一層卷積的通道數(shù)由4變?yōu)?,其中為126。分類子網(wǎng)絡(luò)負(fù)責(zé)估計(jì)每個(gè)預(yù)測框的種類置信度分布,每個(gè)錨點(diǎn)對應(yīng)預(yù)測框數(shù)量由9變?yōu)?26,故調(diào)整分類子網(wǎng)絡(luò)最后一層卷積的通道數(shù)由×9變?yōu)椤?26,輸出××126的張量,為待識(shí)別的電氣設(shè)備種類數(shù)。本文總共識(shí)別隔離開關(guān)、斷路器、絕緣子串、電壓互感器、電流互感器5類電氣設(shè)備,因此值取5。
同一時(shí)間,使用日本SPAD502葉綠素含量測定儀采集對不同作物葉片葉綠素相對含量,打開電源后校準(zhǔn),然后測定作物葉片的SPAD值,測作物上、中、下不同位置的葉片的SPAD值,記錄這個(gè)作物的葉綠素含量值,每塊地選擇3個(gè)樣點(diǎn),每個(gè)樣點(diǎn)選擇3株測定后,平均后作為這個(gè)地塊的這個(gè)作物的SPAD值。
2.4.3 損失函數(shù)
RetinaNet損失函數(shù)分為分類損失與回歸損失兩部分。由于加入了角度預(yù)測量,改進(jìn)RetinaNet回歸損失函數(shù)在原損失函數(shù)上加入了角度這一回歸變量。真實(shí)標(biāo)注框(Ground Truth,GT)與先驗(yàn)框的相對坐標(biāo)以及預(yù)測框與先驗(yàn)框的相對坐標(biāo)可表示為:
式中:(x,y,w,h,)、(¢,¢,¢,¢,¢)、(,,,,)分別表示先驗(yàn)框、預(yù)測框、真實(shí)標(biāo)簽框的位置參數(shù)及傾斜角;(t,t,t,t,)表示標(biāo)簽框與先驗(yàn)框的相對坐標(biāo);(t¢,t¢,t¢,t¢,¢)為預(yù)測框與先驗(yàn)框的相對坐標(biāo)。邊框位置回歸損失函數(shù)通過預(yù)測框與真實(shí)標(biāo)簽框的差異計(jì)算損失值的大小,本文使用smooth L1函數(shù),定義如下:
式中:t表示標(biāo)簽框與先驗(yàn)框的相對坐標(biāo),取值范圍為(t,t,t,t,),t¢表示預(yù)測框與先驗(yàn)框的相對坐標(biāo),取值范圍為(t¢,t¢,t¢,t¢,¢)。
總損失函數(shù)為回歸子網(wǎng)絡(luò)損失與分類子網(wǎng)絡(luò)損失加權(quán)和,如下式:
式中:表示先驗(yàn)框數(shù)量;t¢有兩個(gè)取值,當(dāng)先驗(yàn)框?yàn)榍熬皶r(shí)t¢取1,當(dāng)先驗(yàn)框?yàn)楸尘皶r(shí)取0。t¢表示第個(gè)預(yù)測框相對于先驗(yàn)框的坐標(biāo),t表示第個(gè)先驗(yàn)框相對于真實(shí)標(biāo)簽框的坐標(biāo)。p表示分類子網(wǎng)絡(luò)預(yù)測的第個(gè)先驗(yàn)框的多類別置信度分布經(jīng)過Sigmoid函數(shù)計(jì)算后的值,t為第個(gè)先驗(yàn)框?qū)?yīng)真實(shí)目標(biāo)的類別標(biāo)簽。cls表示類別判定損失,使用原RetinaNet的Focal Loss損失函數(shù)計(jì)算;參數(shù)1、2默認(rèn)取1。
實(shí)驗(yàn)環(huán)境為Ubuntu16.04系統(tǒng),利用Pytorch框架搭建網(wǎng)絡(luò)結(jié)構(gòu)。計(jì)算機(jī)硬件配置為GeForce GTX1080Ti 11-GB GPU,CPU為i7-10700,16GB內(nèi)存。利用GPU進(jìn)行訓(xùn)練和測試過程的加速。
本文采集我國西北某電力公司多個(gè)變電站的運(yùn)檢紅外圖像,主要包括隔離開關(guān)、斷路器、絕緣子串、電壓互感器(potential transformer,PT)、電流互感器(current transformer,CT)5類常見電氣設(shè)備,部分紅外圖像中的電氣設(shè)備存在排列密集、傾斜角度較大的問題。對原圖片進(jìn)行增強(qiáng)和擴(kuò)充預(yù)處理,包括隨機(jī)縮放填充、隨機(jī)平移翻轉(zhuǎn)、隨機(jī)調(diào)整色調(diào)亮度等操作,最終得到3000張紅外圖像,統(tǒng)一調(diào)整為800×800大小,其中包括897個(gè)斷路器、4219個(gè)絕緣子串、1710個(gè)隔離開關(guān),831個(gè)電壓互感器、597個(gè)電流互感器。利用roLabelImg工具對所有紅外圖像中的電氣設(shè)備進(jìn)行旋轉(zhuǎn)矩形框標(biāo)注制成數(shù)據(jù)集。最終對3000張紅外圖像隨機(jī)選取,2400張用于模型的訓(xùn)練,600張用于模型測試。
由于目前樣本數(shù)量有限,本文采用遷移學(xué)習(xí)的方法訓(xùn)練新模型。遷移學(xué)習(xí)可將一個(gè)領(lǐng)域內(nèi)學(xué)習(xí)到的知識(shí)遷移到另一個(gè)相似領(lǐng)域,充分利用了原始數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間潛在相同特征或者結(jié)構(gòu),可以明顯加速網(wǎng)絡(luò)收斂[21]。在網(wǎng)絡(luò)訓(xùn)練時(shí),載入利用PASCAL VOC 2007數(shù)據(jù)集訓(xùn)練得到的權(quán)重,將網(wǎng)絡(luò)參數(shù)遷移過來進(jìn)行紅外圖像數(shù)據(jù)集的訓(xùn)練,訓(xùn)練時(shí)初始學(xué)習(xí)率設(shè)置為5×e-4,動(dòng)量為0.9,權(quán)重衰減為0.0001,采用Adam優(yōu)化器,batch size大小為4,共進(jìn)行30000次迭代。圖7為前20000訓(xùn)練過程中損失值隨迭代次數(shù)增加而變化的曲線。訓(xùn)練開始時(shí)損失值隨訓(xùn)練迭代次數(shù)的增加而迅速下降,收斂速度較快。當(dāng)?shù)螖?shù)超過5000時(shí)損失值下降明顯變慢,迭代10000次以后損失值幾乎不再下降,維持在0.6左右震蕩,此時(shí)模型的訓(xùn)練達(dá)到收斂。
圖7 損失曲線
為驗(yàn)證本文改進(jìn)RetinaNet網(wǎng)絡(luò)的檢測精度,將所提算法與當(dāng)前主流的目標(biāo)檢測器進(jìn)行對比,包括Faster R-CNN、YOLOv3以及原RetinaNet網(wǎng)絡(luò)。以上網(wǎng)絡(luò)均在相同的電氣設(shè)備紅外數(shù)據(jù)集進(jìn)行測試評估,實(shí)驗(yàn)條件以及訓(xùn)練參數(shù)完全相同。評估指標(biāo)包括平均準(zhǔn)確率(Average Precision,AP)、平均準(zhǔn)確率均值(mean AP,mAP)。其中AP值是評判某一類電氣設(shè)備目標(biāo)檢測效果的指標(biāo),mAP是所有5類別電氣設(shè)備的平均準(zhǔn)確率均值。AP與mAP定義如下:
式中:TP表示正確分類的正樣本個(gè)數(shù);FP表示錯(cuò)誤標(biāo)記成正樣本的負(fù)樣本個(gè)數(shù);FN表示將正樣本錯(cuò)誤判別為負(fù)樣本的個(gè)數(shù);、分別為查全率與查準(zhǔn)率。表1給出了4種不同網(wǎng)絡(luò)模型在IoU閾值為0.5時(shí)各個(gè)不同種類電氣設(shè)備的AP值以及mAP值對比結(jié)果。
表1 不同檢測模型對比測試結(jié)果
由表1可知,在相同的IoU閾值下,本文所提模型在隔離開關(guān)、斷路器、絕緣子、電壓互感器、電流互感器5類設(shè)備的AP值均高于其余3種目標(biāo)檢測網(wǎng)絡(luò),改進(jìn)后模型在測試集上的mAP值高于原RetinaNet網(wǎng)絡(luò)2.34%,對比結(jié)果證明了本模型在檢測準(zhǔn)確率上的優(yōu)勢以及本文所提改進(jìn)措施對原模型準(zhǔn)確率的提升。此外,在測試集的513張存在傾斜角度、排列密集的電氣設(shè)備圖像中,由于改進(jìn)RetinaNet網(wǎng)絡(luò)采用了帶有角度的旋轉(zhuǎn)框進(jìn)行目標(biāo)定位,取得了比其余3種目標(biāo)檢測網(wǎng)絡(luò)更加精細(xì)的定位效果。在具有較大長寬比且存在傾斜角度的電氣設(shè)備紅外目標(biāo)圖像檢測中,帶有旋轉(zhuǎn)角度的矩形框相較于水平矩形框引入了更少的冗余背景溫度信息,降低了后續(xù)熱故障區(qū)域判別及提取算法的數(shù)據(jù)處理量,減小了因背景異常溫度干擾而產(chǎn)生的誤報(bào)警幾率,使得基于電氣設(shè)備紅外圖像的熱故障診斷算法可以有更快的處理速度以及更高的故障判別準(zhǔn)確率?;谛D(zhuǎn)矩形框的目標(biāo)檢測區(qū)域之間相互重疊的部分更少,這也為后續(xù)的電氣設(shè)備紅外圖像分離操作提供便利。部分電氣設(shè)備紅外圖像的定位效果對比如圖8所示,(a)、(d)圖中絕緣子與電流互感器存在較大的傾斜角度,利用水平矩形框框選引入了大量與目標(biāo)無關(guān)的背景圖像,而利用本文方法則能夠精細(xì)地識(shí)別出其中的紅外設(shè)備。(b)、(c)圖由于設(shè)備存在傾斜角度且排列密集,導(dǎo)致矩形框之間發(fā)生了重疊,難以進(jìn)行后續(xù)圖像分離操作,本文基于旋轉(zhuǎn)矩形框進(jìn)行目標(biāo)定位,避免了電氣設(shè)備排列密集時(shí)水平框重復(fù)框選、相互重疊的缺點(diǎn),實(shí)現(xiàn)了更精細(xì)的目標(biāo)檢測效果。
(a) 絕緣子 (b) 斷路器 (c) 隔離開關(guān) (d) 電流互感器
本文提出一種基于改進(jìn)RetinaNet的電氣設(shè)備紅外圖像檢測模型,將原網(wǎng)絡(luò)的水平矩形框定位改為帶有角度的旋轉(zhuǎn)矩形框進(jìn)行目標(biāo)的定位。并且在網(wǎng)絡(luò)的輸入端、特征提取部分、特征融合部分均作出相應(yīng)改進(jìn)。改進(jìn)后的模型在隔離開關(guān)、斷路器、絕緣子串、電壓互感器、電流互感器5類常見電氣設(shè)備構(gòu)成的數(shù)據(jù)集中進(jìn)行了對比試驗(yàn),結(jié)果表明:
1)本文所提模型在5類常見電氣設(shè)備上每一類的檢測精度均達(dá)到90%以上,取得了較優(yōu)的檢測結(jié)果。
2)在IoU閾值為0.5時(shí),本文所提方法平均準(zhǔn)確率均值高達(dá)95.50%,高于當(dāng)前主流的Faster R-CNN、YOLOv3目標(biāo)檢測算法,且優(yōu)于原Retinate網(wǎng)絡(luò)。
3)本文采用旋轉(zhuǎn)矩形框定位機(jī)制,在紅外圖像中的電氣設(shè)備存在排列密集、有傾斜角度的情況下,減小了冗余干擾信息的框選,取得了更精細(xì)的目標(biāo)檢測效果,為后續(xù)電力設(shè)備的帶電狀態(tài)評估與診斷奠定了基礎(chǔ)。
[1] 譚宇璇, 樊紹勝. 基于圖像增強(qiáng)與深度學(xué)習(xí)的變電設(shè)備紅外熱像識(shí)別方法[J/OL]. 中國電機(jī)工程學(xué)報(bào), [2021-07-30]. http://kns.cnki.net/ kcms/dtail/11.2107.tm.20210601.1000.002.html.
TAN Yuxuan, FAN Shaosheng. Infrared thermal image recognition of substation equipment based on image enhancement and deep learning[J/OL]., [2021-07-30]. http://kns.cnki.net/ kcms/dtail/11.2107.tm.20210601.1000.002.html.
[2] 馮振新, 周東國, 江翼, 等. 基于改進(jìn)MSER算法的電力設(shè)備紅外故障區(qū)域提取方法[J]. 電力系統(tǒng)保護(hù)與控制, 2019, 47(5): 123-128.
FENG Zhenxin, ZHOU Dongguo, JIANG Yi, et al. Fault region extraction using improved MSER algorithm with application to the electrical system[J]., 2019, 47(5): 123-128.
[3] Jadin M S, Taib S. Recent progress in diagnosing the reliability of electrical equipment by using infrared thermography[J]., 2012, 55(4): 236-245.
[4] 曾軍, 王東杰, 范偉, 等. 基于紅外熱成像的電氣設(shè)備組件識(shí)別研究[J]. 紅外技術(shù), 2021, 43(7): 679-687.
ZENG Jun, WANG Dongjie, FAN Wei, et al. Research on electrical equipment component recognition based on infrared thermal imaging[J]., 2021, 43(7): 679-687.
[5] 朱惠玲, 牛哲文, 黃克燦, 等. 基于單階段目標(biāo)檢測算法的變電設(shè)備紅外圖像目標(biāo)識(shí)別及定位[J]. 電力自動(dòng)化設(shè)備, 2021, 41(8): 217-224.
ZHU Huiling, NIU Zhewen, HUANG Kecan, et al. Infrared image target recognition and location of substation equipment based on single-stage target detection algorithm[J]., 2021, 41(8): 217-224.
[6] 吳克河, 王敏鑒, 李淵博. 基于Mask R-CNN的電力設(shè)備紅外圖像分割技術(shù)研究[J]. 計(jì)算機(jī)與數(shù)字工程, 2020, 48(2): 417-422.
WU Kehe, WANG Minjian, LI Yuanbo. Research on infrared image segmentation technology of power equipment based on mask R-CNN[J]., 2020, 48(2): 417-422.
[7] 劉云鵬, 裴少通, 武建華, 等. 基于深度學(xué)習(xí)的輸變電設(shè)備異常發(fā)熱點(diǎn)紅外圖片目標(biāo)檢測方法[J]. 南方電網(wǎng)技術(shù), 2019, 13(2): 27-33.
LIU Yunpeng, PEI Shaotong, WU Jianhua, et al. Deep learning based target detection method for abnormal hot spots infrared images of transmission and transformation equipment[J]., 2019, 13(2): 27-33.
[8] REN Shaoqing, HE Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//, Montreal, Canada, 2015: 91-99.
[9] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J/OL]. [2018-04-08]. https://arxiv.org/abs/1804.02767.
[10] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//, 2016: 21-37
[11] 李文璞, 謝可, 廖逍, 等. 基于Faster RCNN變電設(shè)備紅外圖像缺陷識(shí)別方法[J]. 南方電網(wǎng)技術(shù), 2019, 13(12): 79-84.
LI Wenpu, XIE Ke, LIAO Xiao, et al. Intelligent diagnosis method of infrared image for transformer equipment based on improved faster RCNN[J]., 2019, 13(12): 79-84.
[12] 王永平, 張紅民, 彭闖, 等. 基于YOLO v3的高壓開關(guān)設(shè)備異常發(fā)熱點(diǎn)目標(biāo)檢測方法[J]. 紅外技術(shù), 2020, 42(10): 983-987.
WANG Yongping, ZHANG Hongmin, PENG Chuang, et al. The Target detection method for abnormal heating point of high-voltage switchgear based on YOLO v3[J]., 2020, 42(10): 983-987.
[13] 梁杰, 李磊, 周紅麗. 基于改進(jìn)SSD的艦船目標(biāo)精細(xì)化檢測方法[J].導(dǎo)航定位與授時(shí), 2019, 6(5): 43-51.
LIANG Jie, LI Lei, ZHOU Hongli. A ship target refinement detection method based on improved SSD[J]., 2019, 6(5): 43-51.
[14] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//, 2017: 2999-3007.
[15] Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[J/OL]., 2020, https://arxiv.org/abs/2004.10934.
[16] Misra D. Mish: a self regularized non-monotonic neural activation function[J/OL]., 2019, https://arxiv.org/abs/1908.08681.
[17] LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]//, 2018: 8759-8768.
[18] LIN T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//, 2017: 2117-2125.
[19] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]., 2014, 39(4): 640-651.
[20] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//27th(ICML-10), 2010: 807-814.
[21] WEN Long, GAO Liang, LI Xinyu. A new deep transfer learning based on sparse auto-encoder for fault diagnosis[J]., 2019, 49(1): 136-144.
Refined Infrared Object Detection Model for Power Equipment Based on Improved RetinaNet
SU Haifeng,ZHAO Yan,WU Zejun,CHENG Bo,LYU Linfei
(Department of Electrical Engineering, North China Electric Power University, Baoding 071000, China)
A large number of infrared images are generated during the operation of power equipment. When the power equipment in the infrared image is densely arranged, incline-angled, and has a large aspect ratio, the target detection network based on a horizontal rectangular frame can only provide the approximate position of the target, which is prone to overlap with the target detection area and introduce redundant background information, giving detection results that are not sufficiently accurate. To solve this problem, we propose to introduce a rotating rectangular box mechanism into the retina net target detection network and mosaic data enhancement technology at the network input, replacing the ReLU function in the original backbone network with a smoother mish activation function of gradient flow; the Pan module is added after the FPN module of the original model to further fuse image features. Finally, the data set is made by using the power-equipment infrared images collected on-site. The improved model is compared and evaluated with three target detection networks based on horizontal rectangular frame positioning: fast R-CNN, YOLOv3, and original RetinaNet. The experiments show that the improved model can detect the infrared targets of power equipment with inclination in dense scenes more accurately, and the detection accuracy of multi-category power equipment is higher than that of the above three models.Key words: infrared image, RetinaNet, power equipment, convolutional neural network, object detection;
TM85
A
1001-8891(2021)11-1104-08
2021-09-08;
2021-10-16.
蘇海鋒(1977-),男,河北石家莊人,講師,博士,主要研究方向?yàn)橹悄芘潆娋W(wǎng)研究。E-mail:hfsups@163.com。
趙巖(1996-),男,河北保定人,碩士研究生,主要研究方向?yàn)殡姎庠O(shè)備智能檢測。E-mail:1191755813@qq.com。
國家重點(diǎn)研發(fā)計(jì)劃(2017BJ0080)。