国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征融合Faster R-CNN 的電力塔基目標(biāo)檢測(cè)

2021-12-15 07:48曹志勇毛文利李治國(guó)張小燕賴懷景
浙江電力 2021年11期
關(guān)鍵詞:錨框塔基卷積

曹志勇,豐 佳,毛文利,李治國(guó),張小燕,賴懷景

(1.國(guó)網(wǎng)浙江省電力有限公司電力科學(xué)研究院,杭州 310014;2.國(guó)網(wǎng)浙江省電力有限公司,杭州 310007;3.深圳大學(xué) 計(jì)算機(jī)與軟件學(xué)院,廣東 深圳 518052)

0 引言

輸變電線路建設(shè)過(guò)程中出現(xiàn)的電力塔基水土流失問(wèn)題日益得到相關(guān)部門(mén)的重視。為了獲取輸電鐵塔的位置并了解輸電鐵塔環(huán)保缺陷、塔基水土流失情況,對(duì)電力塔基進(jìn)行巡檢是非常有必要的。傳統(tǒng)的電力塔基環(huán)保缺陷識(shí)別和塔基水土保持檢測(cè)通常依靠人力巡視來(lái)記錄并收集電力塔基圖像數(shù)據(jù)。而對(duì)分布在高山、密林中的輸電鐵塔進(jìn)行巡視非常不方便,因此近年來(lái)隨著無(wú)人機(jī)技術(shù)和圖像識(shí)別技術(shù)的發(fā)展,研究者們更傾向于應(yīng)用無(wú)人機(jī)收集電力桿塔的圖像數(shù)據(jù),同時(shí)通過(guò)圖像識(shí)別技術(shù)來(lái)進(jìn)行自動(dòng)診斷[1]。

近年來(lái),隨著人工智能的高速發(fā)展,深度學(xué)習(xí)的目標(biāo)檢測(cè)方法層出不窮,讓基于無(wú)人機(jī)圖像數(shù)據(jù)的電力桿塔檢測(cè)成為了可能[2-4]。隨著深度CNN(卷積神經(jīng)網(wǎng)絡(luò))的興起,使基于CNN 的深度學(xué)習(xí)算法迅猛發(fā)展。目前應(yīng)用較為廣泛的深度學(xué)習(xí)目標(biāo)檢測(cè)算法可分為單階段網(wǎng)絡(luò)和雙階段網(wǎng)絡(luò)。雙階段網(wǎng)絡(luò)為基于區(qū)域的目標(biāo)檢測(cè)算法,代表算法有Faster R-CNN(快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò))[5]、Mask R-CNN(實(shí)例分割框架卷積神經(jīng)網(wǎng)絡(luò))[6]等,該類算法有較高的檢測(cè)精度,但檢測(cè)速度較慢;單階段網(wǎng)絡(luò)為基于回歸的目標(biāo)檢測(cè)算法如YOLO(目標(biāo)檢測(cè)算法)[7-9]、SSD(單發(fā)多盒探測(cè)器)[10]等,它們的特點(diǎn)是采用端到端的檢測(cè),具有較快的檢測(cè)速度。

文獻(xiàn)[11]提出一種基于單目視覺(jué)的無(wú)人機(jī)近距離對(duì)電力桿塔檢測(cè)的方法,采用啟發(fā)式提取塔架的顯著線特征并進(jìn)行匹配,然后對(duì)線的交點(diǎn)特征進(jìn)行處理,實(shí)現(xiàn)無(wú)人機(jī)近距離檢測(cè)電力桿塔;文獻(xiàn)[12]提出了新的基于二維特征描述符網(wǎng)格的電力桿塔檢測(cè)方法;文獻(xiàn)[13]提出了一種新的電力桿塔檢測(cè)方法,讓鐵塔在背景雜波和多目標(biāo)情況下也能有較好的檢測(cè)性能;文獻(xiàn)[14]采用CannyEdge 檢測(cè)器和霍夫變換提取電力塔基的直線特征。雖然上述研究者們都對(duì)電力桿塔的檢測(cè)做出了貢獻(xiàn),但是針對(duì)無(wú)人機(jī)拍攝圖像的電力塔基地面目標(biāo)檢測(cè)尚未提出可行的解決方法。

在電力塔基的地面目標(biāo)檢測(cè)中,圖像數(shù)據(jù)通常包含著各種復(fù)雜的背景,如農(nóng)田、草原、樹(shù)木、房屋等復(fù)雜背景,影響電力塔基的檢測(cè)精度。為了提高航拍圖像中電力塔基的檢測(cè)精度,本文在改進(jìn)的Faster R-CNN 算法中引入多尺度特征融合技術(shù)[15-16]和SE(通道注意力機(jī)制)[17]模塊,提出了一種基于特征融合Faster R-CNN 算法的電力塔基地面目標(biāo)檢測(cè)方法,提高了航拍圖像中電力塔基的檢測(cè)準(zhǔn)確率。

1 基于特征融合的Faster R-CNN 的電力塔基目標(biāo)檢測(cè)方法

圖像目標(biāo)檢測(cè)是深度學(xué)習(xí)的一個(gè)重要應(yīng)用,指在圖片中將想要的物體識(shí)別出來(lái),并標(biāo)出物體在圖像中的位置。由于物體的尺寸變化范圍很大、擺放角度多變、姿態(tài)不定,而且物體有很多種類別,還可以在圖片中出現(xiàn)多種物體、出現(xiàn)在任意位置,因此,目標(biāo)檢測(cè)是一個(gè)非常復(fù)雜的問(wèn)題。R-CNN(區(qū)域卷積神經(jīng)網(wǎng)絡(luò))算法通過(guò)對(duì)原始圖像生成候選區(qū)域然后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,最后進(jìn)行分類判斷,很好的實(shí)現(xiàn)了圖像的目標(biāo)檢測(cè)。Faster R-CNN 算法是從R-CNN 算法發(fā)展而來(lái)的一種雙階段網(wǎng)絡(luò)目標(biāo)檢測(cè)算法,相比R-CNN 算法具有更高的檢測(cè)精度和檢測(cè)速度。本文對(duì)傳統(tǒng)的Faster R-CNN 算法進(jìn)行適當(dāng)?shù)母倪M(jìn),進(jìn)一步提高了對(duì)電力塔基的檢測(cè)精度和檢測(cè)速度。

1.1 整體網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)

本文提出的基于多尺度特征融合技術(shù)的Faster R-CNN 電力塔基目標(biāo)檢測(cè)方法,其主干網(wǎng)絡(luò)由改進(jìn)的ResNet-50[18]代替VGG-16(卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu))。這主要是因?yàn)镽esNet-50 是每隔2 層或3 層進(jìn)行相加求下一步的輸入,而不是像VGG-16 每一層直接進(jìn)行卷積送入下一層;而且不同于VGG-16 固定每一層的核大小原則,ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)在設(shè)計(jì)過(guò)程中根據(jù)不同的特征圖尺寸改變?yōu)V波器的數(shù)量,以便保持每一層的時(shí)間復(fù)雜度,確保當(dāng)檢測(cè)精度達(dá)到最高后,不會(huì)隨著繼續(xù)訓(xùn)練導(dǎo)致精度下降。完整的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。由圖1 可以看出,在ResNet 網(wǎng)絡(luò)中引入SE 模塊后,可以對(duì)網(wǎng)絡(luò)中的各大卷積層所產(chǎn)生的特征圖進(jìn)行特征重新校準(zhǔn),選擇性地強(qiáng)調(diào)信息特征并且抑制無(wú)用的特征;為了防止信息丟失過(guò)多,在卷積過(guò)程中使用了多尺度特征圖融合技術(shù),結(jié)合淺層和深層特征圖,從而得到信息更為完整的圖像特征。

圖1 改進(jìn)的Faster R-CNN 算法整體網(wǎng)絡(luò)結(jié)構(gòu)

1.2 對(duì)損失函數(shù)的改進(jìn)

RPN(候選區(qū)域網(wǎng)絡(luò))是一種用于自動(dòng)在原圖上生成大量候選區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)。原圖經(jīng)過(guò)基礎(chǔ)特征圖的每一個(gè)像素點(diǎn)的映射后,在原圖上會(huì)生成不同比例大小的錨框。在訓(xùn)練時(shí),為RPN網(wǎng)絡(luò)生成的每個(gè)錨框都分配一個(gè)二進(jìn)制類標(biāo)簽。通過(guò)判定錨框與真實(shí)標(biāo)注框之間的IoU(重疊度)對(duì)錨框是否在最終檢測(cè)結(jié)果中起作用進(jìn)行篩選。IoU 的閾值是一個(gè)可優(yōu)化的參數(shù),計(jì)算公式為:

式中:A 為人為在訓(xùn)練集圖像中標(biāo)出的要檢測(cè)物體的范圍;B 為算法得出的結(jié)果范圍;是范圍A 與范圍B 的交集;是范圍A 與范圍B 的并集。

當(dāng)錨框與真實(shí)標(biāo)注框的IoU 最高或者錨框和真實(shí)標(biāo)注框的IoU 大于0.7 時(shí),將錨框的標(biāo)簽設(shè)置為正標(biāo)簽;如果一個(gè)非正錨的IoU 比率低于0.3,本文將給它分配一個(gè)負(fù)標(biāo)簽。非正或者負(fù)標(biāo)簽的錨框?qū)τ诒疚挠?xùn)練的目標(biāo)沒(méi)有任何的貢獻(xiàn),所以可以舍棄這類錨框。

通過(guò)這些定義,圖像損失函數(shù)可以表示為:

式中:i 為在小批量中某一錨框的索引值,第i 個(gè)錨框的預(yù)測(cè)分類概率為pi,其對(duì)應(yīng)的真實(shí)標(biāo)注框標(biāo)簽為,如果錨框的標(biāo)簽是正標(biāo)簽,則對(duì)應(yīng)的值為1,否則為0;ti是一個(gè)向量[3],表示第i 個(gè)錨框預(yù)測(cè)的定界框的參數(shù)化坐標(biāo),其對(duì)應(yīng)的真實(shí)標(biāo)注框的坐標(biāo)為;Lcls為對(duì)數(shù)分類損失;Lreg為邊框回歸損失,對(duì)于Lreg(ti,)=R(ti-),其中R為smooth L1 損失函數(shù);表示回歸損失僅對(duì)正標(biāo)簽錨框計(jì)算,此時(shí)的值為1,而在其他情況下禁用,此時(shí)的值為0;Lcls和Lreg分別為分類層及邊框回歸層輸出歸一化之后的結(jié)果,并由一個(gè)平衡參數(shù)λ 加權(quán),默認(rèn)情況下,設(shè)置λ=10。

1.3 對(duì)SEResNet-50 主干網(wǎng)絡(luò)的改進(jìn)

在本文中,加入SE 模塊的SEResNet-50 作為Faster R-CNN 的主干網(wǎng)絡(luò),相比以VGG-16 作為主干網(wǎng)絡(luò)的原始Faster R-CNN 來(lái)說(shuō),ResNet-50有50 層。更深的網(wǎng)絡(luò)結(jié)構(gòu),使得其在特征提取階段表現(xiàn)更為出色,可以提取出比VGG-16 更加精細(xì)的圖像深層特征。

SE 模塊作為一個(gè)通道注意力機(jī)制,通過(guò)賦予不同通道特征以不同的權(quán)重,使得算法更加有效地關(guān)注有用通道的特征信息,抑制無(wú)用信息的影響。

1.4 引入多尺度特征圖融合技術(shù)

隨著網(wǎng)絡(luò)的加深,在網(wǎng)絡(luò)進(jìn)行特征提取階段,每層卷積層在產(chǎn)生特征圖時(shí),會(huì)不可避免的丟失之前卷積層所產(chǎn)生的某些特征圖信息,最后導(dǎo)致信息丟失越來(lái)越多,使得最后一層得出的特征圖信息并不完全。為了解決這個(gè)問(wèn)題,本文引入了多尺度特征融合技術(shù)。通過(guò)采用多尺度特征圖融合技術(shù),將每一層所產(chǎn)生的特征圖與之前各層所產(chǎn)生的特征圖進(jìn)行融合,獲得淺層的特征信息,從而得到更好的檢測(cè)效果。

從圖1 可以看出,算法將ResNet-50 的conv2、conv3 所產(chǎn)生的特征圖,通過(guò)最大池化的方式,將其分辨率縮小到與conv4 所輸出的特征圖相同的大小,將3 個(gè)特征圖進(jìn)行連接操作,并對(duì)結(jié)果進(jìn)行L2 歸一化,接著輸入到1×1 的卷積中進(jìn)行通道降維,最后將結(jié)果送入RPN 網(wǎng)絡(luò)產(chǎn)生ROIS(關(guān)注區(qū)域),使用產(chǎn)生的ROIS 對(duì)融合后的特征圖進(jìn)行池化操作,將所得結(jié)果送入后面進(jìn)行最后檢測(cè)。

2 電力塔基數(shù)據(jù)集的搭建

在最近的電力塔基研究中,尚未發(fā)現(xiàn)有類型豐富、角度多樣的無(wú)人機(jī)航拍電力塔基地面目標(biāo)檢測(cè)的數(shù)據(jù)集。因此,為了解決電力塔基地面目標(biāo)檢測(cè)問(wèn)題,本文在多個(gè)自然地點(diǎn)采用無(wú)人機(jī)拍攝采集實(shí)驗(yàn)數(shù)據(jù)。為了數(shù)據(jù)多樣性以及增強(qiáng)目標(biāo)檢測(cè)算法對(duì)于不同拍攝角度的魯棒性,本文從各個(gè)角度對(duì)電力塔基進(jìn)行拍攝。

在本文的數(shù)據(jù)集中,原始電力塔基圖片共有898 張,每張圖片原始像素是4 000×3 000。使用公開(kāi)的LabelImg 標(biāo)注軟件為每一張圖片的電力塔基區(qū)域進(jìn)行人工手動(dòng)標(biāo)注,并生成與之對(duì)應(yīng)的XML 格式的文件作為數(shù)據(jù)集的標(biāo)簽文件。為了增強(qiáng)模型的泛化能力,在數(shù)據(jù)預(yù)處理階段,將圖像壓縮為600×600 像素的圖像,同時(shí)將圖像進(jìn)行隨機(jī)縮放、隨機(jī)平移、隨機(jī)旋轉(zhuǎn)、垂直和水平翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作,最終得到3 457 張圖片,其中訓(xùn)練集1 358 張圖片,驗(yàn)證集339 張圖片,測(cè)試集1 760 張圖片。同時(shí)按照PASAL VOC2007 數(shù)據(jù)集的格式進(jìn)行保存和實(shí)驗(yàn)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)均在64 位的Ubuntu 16.04.5 系統(tǒng)下完成,Python 的安裝版本為3.7.4,PyTorch[19]深度學(xué)習(xí)框架的版本為1.3.1,添加英偉達(dá)CUDA的版本為10.2.108。實(shí)驗(yàn)的訓(xùn)練、測(cè)試以及驗(yàn)證的硬件設(shè)備:Intel Xeon(R)CPU E5-2690 v4@2.60 GHz 十四核,配備251.8 GB 內(nèi)存以及英偉達(dá)TESLA P100 PCIe GPU ACCELERATOR(16 GB顯存)。

3.2 模型訓(xùn)練與測(cè)試

本文對(duì)改進(jìn)的Faster R-CNN 模型進(jìn)行了155 個(gè)Epoch 的訓(xùn)練期,批尺寸設(shè)置為1,初始學(xué)習(xí)率為1×10-4,且學(xué)習(xí)率在每個(gè)Epoch 結(jié)束時(shí),按照原學(xué)習(xí)率的94%進(jìn)行衰減,同時(shí)模型采用Adam 的優(yōu)化器。算法的錨框大小設(shè)置為8×8、16×16、32×32 三種尺度,縱橫比設(shè)置為1∶2、1∶1、2∶1 比例。測(cè)試過(guò)程置信度為0.5,基于SERes-Net-50 進(jìn)行圖像特征提取。

圖2 所示為隨迭代次數(shù)增加與平均損失的變化曲線,在迭代次數(shù)達(dá)到155 時(shí),損失函數(shù)趨于收斂。

圖2 損失變化曲線

在本文中,分別實(shí)驗(yàn)了使用ResNet-50、SEResNet-50 作為主干網(wǎng)絡(luò),以及分別增加多尺度特征融合技術(shù)的Faster R-CNN 的檢測(cè)方法。

表1 表示了4 種檢測(cè)方法的檢測(cè)時(shí)間以及AP(平均精度)值。其中:VAP50表示當(dāng)設(shè)置IoU 閾值為0.5 時(shí)4 種檢測(cè)方法的AP 值,VAP75表示當(dāng)設(shè)置IoU 閾值為0.75 時(shí)4 種檢測(cè)方法的AP 值,F(xiàn)PS(每秒幀率)表示每秒識(shí)別的圖像數(shù)量。當(dāng)設(shè)置IoU 閾值為0.75 時(shí),描繪4 種檢測(cè)方法各自的PR(精確率-召回率)曲線,如圖3 所示。

表1 不同檢測(cè)方法和IoU 閾值下的AP 值及檢測(cè)時(shí)間

圖3 P-R 曲線

從圖3 和表1 中可以看出,在設(shè)置IoU 閾值為0.75 時(shí),本文通過(guò)使用SERetNet-50 結(jié)合多尺度特征融合技術(shù)的Faster R-CNN 檢測(cè)方法相比網(wǎng)絡(luò)為RetNet-50 的Faster R-CNN 檢測(cè)方法,AP 值提高了2.9%。同時(shí)可以看出,加入了SE 模塊的Faster R-CNN 檢測(cè)方法也提高了檢測(cè)的準(zhǔn)確率。當(dāng)設(shè)置IoU 閾值為0.5 時(shí),4 種檢測(cè)方法效果較為接近,改進(jìn)方法對(duì)精度提升的效果并不明顯。當(dāng)提高IoU 閾值到0.75 時(shí),4 種檢測(cè)方法的檢測(cè)精度均明顯下降,但改進(jìn)方法對(duì)精度的提升效果較IoU 閾值為0.5 時(shí)變得明顯。IoU 取值范圍對(duì)平均精度的影響還有待進(jìn)一步研究。

通過(guò)使用訓(xùn)練好的權(quán)值,本文可以得到如圖4 的檢測(cè)效果。由圖4 可知,該算法對(duì)由無(wú)人機(jī)拍攝的圖片上的電力塔基目標(biāo)檢測(cè)效果較好。

圖4 測(cè)試效果

3.3 算法對(duì)比以及分析

本文通過(guò)不同IoU 閾值下的AP 值作為評(píng)估指標(biāo)對(duì)Faster R-CNN、SSD 以及YOLOv4 三種目標(biāo)檢測(cè)方法進(jìn)行對(duì)比分析。表2 顯示了在同樣的實(shí)驗(yàn)環(huán)境中,改進(jìn)的Faster R-CNN、SSD、YOLOv4的AP 值。從表2 中可以看出,當(dāng)IoU 閾值設(shè)置為0.5 時(shí),本文使用SEResNet-50 網(wǎng)絡(luò)并結(jié)合多尺度特征融合技術(shù)Faster R-CNN 的目標(biāo)檢測(cè)方法AP 值最高,比原始的SSD 高出了5.61%。這主要是因?yàn)镕aster R-CNN 本身具有良好的魯棒性,改進(jìn)的Faster R-CNN 算法進(jìn)一步提高了原有算法的檢測(cè)準(zhǔn)確率,使得其AP 值高于YOLOv4 和SSD 算法。

表2 不同算法和IoU 閾值下的AP 值

4 結(jié)語(yǔ)

本文提出了一種基于多尺度特征融合的Faster R-CNN 算法的電力塔基檢測(cè)方法。該方法首先將模型主干網(wǎng)絡(luò)換成SEResNet-50;其次結(jié)合多尺度特征融合技術(shù),將各卷積層輸出的特征圖通過(guò)最大池化操作,將特征圖分辨率進(jìn)行統(tǒng)一;接著將特征圖連接在一起并進(jìn)行L2 歸一化后,使用1×1 卷積將通道數(shù)調(diào)整到適合的數(shù)量,將結(jié)果傳輸?shù)絉PN 網(wǎng)絡(luò)和最后的檢測(cè)模塊。通過(guò)對(duì)比Faster R-CNN、SSD、YOLOv4 三種目標(biāo)檢測(cè)方法,可知:改進(jìn)的Faster R-CNN 算法在適當(dāng)?shù)腎oU 閾值范圍內(nèi)具有較高的檢測(cè)精度。

但是由于該檢測(cè)方法分兩階段進(jìn)行,相對(duì)其他算法來(lái)說(shuō),所需檢測(cè)時(shí)間略長(zhǎng),因此,本文提出的SEResNet-50 網(wǎng)絡(luò)結(jié)合多尺度融合技術(shù)的電力塔基檢測(cè)方法在一定程度上,是以犧牲檢測(cè)時(shí)間為代價(jià)來(lái)提高檢測(cè)率的。

但應(yīng)用該算法可使通過(guò)圖像識(shí)別技術(shù)進(jìn)行識(shí)別塔基環(huán)保缺陷及檢測(cè)塔基周圍的水土保持情況成為可能,進(jìn)一步的實(shí)驗(yàn)驗(yàn)證有待后續(xù)研究進(jìn)行。

猜你喜歡
錨框塔基卷積
基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
基于SSD算法的輕量化儀器表盤(pán)檢測(cè)算法*
基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
復(fù)雜邊界條件下異形塔式起重機(jī)基礎(chǔ)設(shè)計(jì)施工
從濾波器理解卷積
不下沉式塔基在建筑施工中的應(yīng)用
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
斜交塔基局部沖刷規(guī)律研究