歐進(jìn)永 楊淵 時(shí)磊 周振峰 邱實(shí)
摘? 要:為實(shí)現(xiàn)輸電線路桿塔中鳥(niǎo)窩的快速準(zhǔn)確檢測(cè),提出一種基于RetinaNet深度學(xué)習(xí)模型的鳥(niǎo)窩識(shí)別方法,利用ResNet-50進(jìn)行前期特征提取,通過(guò)FPN網(wǎng)絡(luò)對(duì)前期標(biāo)準(zhǔn)特征進(jìn)行加強(qiáng),構(gòu)建特征金字塔影像,以滿足不同尺度大小的鳥(niǎo)窩目標(biāo)檢測(cè),然后在特征金字塔的基礎(chǔ)上構(gòu)建了一個(gè)分類子網(wǎng)和回歸子網(wǎng),分別用于識(shí)別鳥(niǎo)窩和回歸鳥(niǎo)窩的具體位置。通過(guò)與經(jīng)典目標(biāo)檢測(cè)方法進(jìn)行詳細(xì)對(duì)比分析,利用F1-Score精度指標(biāo)和檢測(cè)速度指標(biāo)對(duì)檢測(cè)效果進(jìn)行了量化分析,實(shí)驗(yàn)結(jié)果表明,所采用的鳥(niǎo)窩檢測(cè)模型F1-Score指標(biāo)可達(dá)0.932,優(yōu)于其他三種經(jīng)典方法,并能充分應(yīng)對(duì)拍攝角度、遮擋等各種復(fù)雜場(chǎng)景問(wèn)題。
關(guān)鍵詞:深度學(xué)習(xí);RetinaNet模型;特征提取;特征金字塔;鳥(niǎo)窩識(shí)別
0? ? 引言
輸電桿塔中鳥(niǎo)窩易引起線路跳閘、短路等。為有效解決該問(wèn)題,多地電網(wǎng)公司采用無(wú)人機(jī)巡檢或監(jiān)控?cái)z像頭對(duì)鳥(niǎo)窩進(jìn)行監(jiān)測(cè),這種方式主要依靠人工目視判讀,主觀性強(qiáng)、工作量大,易出現(xiàn)誤檢或漏檢情況。
目前,國(guó)內(nèi)外對(duì)影像目標(biāo)自動(dòng)檢測(cè)做了大量研究。傳統(tǒng)目標(biāo)檢測(cè)方法通過(guò)人工設(shè)計(jì)特征提取算子,如HOG等[1],然后利用SVM等分類器[1]根據(jù)所提取的圖像特征進(jìn)行目標(biāo)檢測(cè),這種方法的檢測(cè)精度依賴于特征提取是否有效,較為局限,泛化能力也較差。近年來(lái),深度學(xué)習(xí)技術(shù)興起,如RCNN模型[2]、YOLO模型[3]等。
本文選取RetinaNet模型[4]進(jìn)行輸電桿塔鳥(niǎo)窩檢測(cè),其由于具備獨(dú)特的“焦點(diǎn)損失”特性,既有較快的檢測(cè)速度,也有良好的檢測(cè)精度,對(duì)輸電桿塔中鳥(niǎo)窩有很好的檢測(cè)效果。
1? ? RetinaNet目標(biāo)檢測(cè)模型
RetinaNet目標(biāo)檢測(cè)模型結(jié)構(gòu)如圖1所示,由ResNet特征提取網(wǎng)絡(luò)、FPN主干網(wǎng)絡(luò)、分類子網(wǎng)絡(luò)及回歸子網(wǎng)絡(luò)組成。其中,ResNet網(wǎng)絡(luò)用于前期特征提取;FPN主干網(wǎng)絡(luò)將ResNet前期提取特征進(jìn)行多尺度整合,生成特征金字塔為后續(xù)分類和回歸做準(zhǔn)備;分類子網(wǎng)絡(luò)用于對(duì)目標(biāo)類別做判斷,回歸子網(wǎng)絡(luò)用于回歸檢測(cè)框位置。
1.1? ? ResNet特征提取網(wǎng)絡(luò)
在ResNet網(wǎng)絡(luò)中使用殘差網(wǎng)絡(luò),可大大加深模型深度,提取更深層次特征,還能很好地防止模型過(guò)擬合、模型不收斂。ResNet應(yīng)用了兩種殘差模塊,一種是兩個(gè)3×3卷積層相連的雙層殘差學(xué)習(xí)模塊;另一種是1個(gè)1×1卷積層接3×3卷積層,再接1×1卷積層的三層殘差學(xué)習(xí)模塊。
1.2? ? FPN主干網(wǎng)絡(luò)
FPN一共包括兩個(gè)部分,第一部分是圖像下采樣操作,第二部分是圖像上采樣和橫向連接操作。首先,對(duì)輸入的ResNet特征圖做5次連續(xù)卷積和池化操作,得到5幅尺寸大小遞減的特征圖C1、C2、C3、C4和C5,再對(duì)C5層做1×1卷積,得到M5特征圖,對(duì)M5特征圖進(jìn)行反卷積上采樣操作,使特征圖尺寸變大,再加上C4經(jīng)過(guò)1×1卷積后的特征圖,得到M4特征圖,以此類推,可得M3和M2,通過(guò)對(duì)M層所有特征圖進(jìn)行3×3卷積操作,可得到P2、P3、P4和P5特征圖,這四幅特征圖合起來(lái)即構(gòu)成了影像特征金字塔。這種多尺度的特性對(duì)于情況復(fù)雜的輸電線路鳥(niǎo)窩檢測(cè)非常適合。
1.3? ? Anchors機(jī)制
在影像特征金字塔的每一層,分別設(shè)置322、642、1282、2562和5122像素尺寸大小的anchor(即搜索框),如果一個(gè)anchor與某個(gè)真實(shí)標(biāo)簽框的IOU大于0.5,則認(rèn)為該anchor是正樣本;如果在0和0.4之間,則認(rèn)為該anchor為背景;如果在0.4到0.5之間,則后續(xù)訓(xùn)練時(shí)忽略該anchor。
1.4? ? 分類子網(wǎng)絡(luò)與回歸子網(wǎng)絡(luò)
(1)分類子網(wǎng)絡(luò)。從影像特征金字塔獲取W×H×256大小輸入特征圖,后接4個(gè)3×3尺寸大小卷積層,每個(gè)卷積層都用Relu激活函數(shù)進(jìn)行激活,得到W×H×256大小特征圖;再接1個(gè)3×3×(A×K)卷積層,得到W×H×(KA)大小特征圖,其中K為類別數(shù),A為anchor個(gè)數(shù);最后利用sigmoid激活函數(shù)輸出每個(gè)anchor的類別預(yù)測(cè)結(jié)果。
(2)回歸子網(wǎng)絡(luò)。與分類子網(wǎng)絡(luò)同樣得到W×H×256大小特征圖;再接1個(gè)3×3×(A×4)卷積層,得到W×H×(4A)大小特征圖,其中4代表預(yù)測(cè)框的四個(gè)角點(diǎn)與真實(shí)標(biāo)簽框間的相對(duì)偏移。
1.5? ? Focal loss損失函數(shù)
Focal loss損失函數(shù)通過(guò)重塑交叉熵?fù)p失,在原有交叉熵基礎(chǔ)上乘一個(gè)因子,減少易分類樣本權(quán)重,改善樣本不平衡問(wèn)題。假設(shè)pt是模型預(yù)測(cè)的屬于目標(biāo)的概率,其取值范圍為[0,1],y表示類別標(biāo)簽:
pt=p? ? ? y=11-p? ?other? ? ? ? ? ? ? ? ? ? ? ? (1)
常規(guī)交叉熵?fù)p失函數(shù)如式(2)所示:
CE(p,y)=CE(pt)=-ln(pt)? ? ? ?(2)
Focal loss實(shí)質(zhì)上是常規(guī)交叉熵?fù)p失的改進(jìn)算法,在其基礎(chǔ)上乘一個(gè)因子,如式(3)所示:
FL(pt)=-∝t(1-p)γln(pt)? ? ?(3)
式中:∝t為平衡因子,取值為0~1;γ為調(diào)節(jié)因子,取值為0~5,通過(guò)改進(jìn),使模型可以更加專注于不易區(qū)分的樣本,改善整體性能。
2? ? 實(shí)驗(yàn)與分析
2.1? ? 模型訓(xùn)練
本文實(shí)驗(yàn)所采用數(shù)據(jù)集來(lái)自無(wú)人機(jī)航拍和固定攝像頭監(jiān)控,為了使模型更快更好地收斂,文中利用預(yù)訓(xùn)練的ResNet50模型權(quán)重作為初始權(quán)重,學(xué)習(xí)率設(shè)置為0.000 01,批大小設(shè)置為2,一共訓(xùn)練了50個(gè)epoch。
2.2? ? 模型測(cè)試
利用測(cè)試集對(duì)訓(xùn)練好的鳥(niǎo)窩檢測(cè)模型進(jìn)行測(cè)試,測(cè)試結(jié)果如圖2所示。
從圖2可知,不管是桿塔側(cè)身、頂端還是塔身位置的鳥(niǎo)窩,不管鳥(niǎo)窩是位于影像中間還是影像邊緣,不管是否有桿塔自身遮擋,本文模型都可準(zhǔn)確、有效地檢測(cè)出鳥(niǎo)窩。
2.3? ? 算法性能分析
將本文輸電線路鳥(niǎo)窩檢測(cè)模型與經(jīng)典的HOG+SVM算法、Faster-RCNN模型以及YOLO模型做了詳細(xì)實(shí)驗(yàn)對(duì)比,利用F1-Score指標(biāo)[5]及檢測(cè)速度作為模型精度評(píng)價(jià)指標(biāo),對(duì)比情況如表1所示。
3? ? 結(jié)語(yǔ)
本文利用RetinaNet深度學(xué)習(xí)模型對(duì)桿塔鳥(niǎo)窩進(jìn)行檢測(cè),前期特征提取用了ResNet-50,構(gòu)建FPN特征金字塔影像,將其作為整個(gè)RetinaNet的主干結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文方法在測(cè)試集上的F1-Score精度指標(biāo)優(yōu)于HOG+SVM算法、Faster-
RCNN模型以及YOLO模型,且具有較快的檢測(cè)速度。本文方法可充分應(yīng)對(duì)鳥(niǎo)窩位于桿塔及實(shí)際影像中不同位置、不同拍攝角度的情況以及桿塔本身對(duì)于鳥(niǎo)窩的遮擋情況。
[參考文獻(xiàn)]
[1] 徐淵,許曉亮,李才年,等.結(jié)合SVM分類器與HOG特征提取的行人檢測(cè)[J].計(jì)算機(jī)工程,2016,42(1):56-60.
[2] GIRSHICK R B,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition,2014: 580-587.
[3] REDMON J,DIVVALA S,GIRSHICK R B,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-
tion (CVPR),2016:779-788.
[4] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal Loss for Dense Object Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017(99):2999-3007.
[5] 王朵.基于全卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像語(yǔ)義分割及變化檢測(cè)方法研究[D].西安:西安電子科技大學(xué),2018.
收稿日期:2020-06-28
作者簡(jiǎn)介:歐進(jìn)永(1989—),男,貴州六盤(pán)水人,助理工程師,研究方向:輸電線路運(yùn)維管理。