李?!⌒煜琛±钴?/p>
摘 要:有人機和無人機等各種新型航空飛行器的發(fā)展,給航空飛行安全帶來了極大挑戰(zhàn),對影響飛行安全的小型目標進行檢測是保障安全飛行的首要條件。本文針對現(xiàn)有基于深度學習的目標檢測方法在遙感圖像小目標檢測時存在的不足,以及檢測目標尺度過小、圖像背景復雜、噪聲干擾等問題,探討了深度學習技術(shù)在遙感圖像小目標檢測方面的研究進展,重點分析了特征金字塔網(wǎng)絡、注意力機制、傾斜框檢測等相關(guān)技術(shù)在遙感圖像小目標檢測上的可行性,提出了一種具有較強泛化能力的目標檢測模型。本文以高分二號遙感圖像的高壓電塔檢測為例進行試驗,結(jié)果表明,本文提出的模型在檢測精度和計算開銷上可達到更好的效果。
關(guān)鍵詞: 深度學習;卷積神經(jīng)網(wǎng)絡;小目標檢測;特征金字塔;注意力機制 ;人工智能
中圖分類號:TN957.51;TP18 文獻標識碼:A 文章編號: 1673-5048(2020)03-0054-08
0 引言
隨著航空技術(shù)的不斷發(fā)展,如何保障國家空天安全,成為各國軍事部門研究的重點和熱點問題[1-2]。為了形成良好的航空安全環(huán)境,需要對各種潛在的飛行安全威脅進行充分考慮。其中,利用遙感圖像對影響航空飛行安全的小型目標進行精確檢測,是保障飛行的首要條件,起著至關(guān)重要的作用。
遙感圖像中的小型目標檢測結(jié)合了目標定位和識別,目的是在復雜的遙感圖像背景中找到若干目標,對每一個目標給出一個精確的目標邊框(Bounding Box),并判斷該邊框中目標所屬的類別。對于實際遙感圖像中的小目標檢測,傳統(tǒng)人工設計特征表達算法存在較大的局限性,其檢測器依賴于數(shù)據(jù)自身特征結(jié)構(gòu),泛用性較弱。而隨著深度學習[3]技術(shù)的出現(xiàn),推動了目標檢測的快速發(fā)展?;谏疃葘W習的目標檢測方法能夠克服傳統(tǒng)方法的缺點,適用于海量數(shù)據(jù)處理。然而對于圖像中小型目標的檢測,即通常定義為目標長寬小于原圖尺寸的10%或者尺寸小于32×32像素的小目標,傳統(tǒng)深度學習的目標檢測算法仍然存在較大的改進空間。歸納起來,主要存在以下問題:
(1) 目標尺度過小,網(wǎng)絡學習中容易被忽略。比如,部分小目標在經(jīng)過數(shù)次下采樣后,在特征圖像上的大小只有個位數(shù)像素,目標檢測器難以對其進行分類和定位。這種現(xiàn)象在低分辨率圖像中更加明顯。
(2) 遙感圖像分辨率過低,圖像模糊,攜帶的信息少,背景噪聲影響大(云、霧、噪聲等客觀存在),導致小目標本身攜帶的信息過少,特征表達能力弱[4]。
(3) 大部分遙感圖像中小目標數(shù)量過少。在訓練過程中,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡更容易學習大目標
的特征,而對小目標的檢測效果較差。
本文研究的深度學習模型框架構(gòu)建的關(guān)鍵點在于實現(xiàn)遙感圖像的小目標檢測,以解決飛行器飛行安全問題,因此特征提取、特征融合[5-6]中所使用的方法,需要針對小型目標的空間信息和語義信息提取,從而最終實現(xiàn)大尺度遙感圖像中的小目標檢測。然而在實際的小型目標檢測中,由于目標本身過小,深層的特征提取網(wǎng)絡中的多次下采樣處理,容易導致尺度較小目標被忽略;并且, 由于遙感圖像上存在背景噪聲問題,大規(guī)模復雜背景可能會導致更多的誤檢,特別是在低分辨率的圖像上這種現(xiàn)象更加明顯。鑒于現(xiàn)有算法的不足,對小目標檢測算法的改良方向進行分析,擬采用以下多種策略來提高小目標檢測的性能,包括:
(1) 特征金字塔網(wǎng)絡。特征金字塔能夠提取待檢測目標的多層特征,構(gòu)建一種多尺度的深度學習模型,實現(xiàn)多尺度特征的融合。然而利用特征金字塔進行特征提取過程中,存在深層網(wǎng)絡下采樣步長過大導致小目標特征丟失,特征圖像的邊緣信息較少導致目標邊界框回歸精度差等問題。因此,可以通過組合殘差網(wǎng)絡和金字塔網(wǎng)絡來構(gòu)建特征提取網(wǎng)絡,從而能夠進行淺層特征的提取。而在特征提取階段利用淺層特征金字塔進行多尺度特征學習,能夠避免深層網(wǎng)絡帶來的計算負擔重,從而提升計算速度,并且由于網(wǎng)絡參數(shù)減少,有利于進行循環(huán)式的特征訓練。
(2) 注意力機制??臻g注意力機制模型是一種從大量信息中有選擇地篩選出少量重要信息的基礎(chǔ)部件模型。通過學習遙感圖像目標與背景特征,運用權(quán)重系數(shù)進行加權(quán)求和的方法實現(xiàn)特征分離,能夠?qū)b感圖像中的背景噪聲進行抑制。具體來說,注意力機制模塊能夠獲取顯著圖,將檢測目標與背景分離,利用Softmax函數(shù)對特征圖像進行操作,與原始特征圖像進行結(jié)合,獲取新的融合特征,達到降噪目的。
(3) 傾斜框檢測。目標密集區(qū)域如停車場,傳統(tǒng)矩形框難以正確擬合目標,目標檢測結(jié)果可能存在大量矩形框重合,導致結(jié)果存在大量漏檢。斜框檢測算法用傾斜的矩形框代替?zhèn)鹘y(tǒng)的矩形框,能夠更好地擬合遙感圖像中小目標的空間位置,即用水平框+旋轉(zhuǎn)角度來表示一個傾斜框,從而在遙感圖像中包含大量密集的小目標情況下具有更強的泛用性。
本文主要研究遙感圖像中小目標檢測方法及其深度網(wǎng)絡模型的構(gòu)建技術(shù)。通過對遙感圖像小目標檢測框架結(jié)構(gòu)中使用的特征提取、特征選擇、注意力機制方法進行分析和研究,構(gòu)建一種新型的小目標檢測網(wǎng)絡模型,該網(wǎng)絡結(jié)構(gòu)包含特征提取模塊、空間注意力模塊、RPN模塊、分類和定位模塊。總體思路是利用特征金字塔對不同尺度的目標特征進行提取,融合特征低層空間信息與高層語義信息,以獲取層間互補信息,提高可擴展性。由于大部分遙感圖像中不可避免存在各種噪聲,模型中還加入了空間位置軟注意力機制(Spatial Attention),將淺層特征提取網(wǎng)絡和空間注意力機制進行結(jié)合,構(gòu)建一種面向遙感圖像的特征提取模型,再利用RPN模塊進行ROI區(qū)域獲取,最終通過分類器和檢測器,獲取檢測目標類別信息以及位置信息。
1 基于深度學習的目標檢測發(fā)展與局限
目標檢測算法的發(fā)展分為基于傳統(tǒng)手工特征的目標檢測和基于深度學習的目標檢測。傳統(tǒng)目標檢測算法(例如,比例不變特征變換[7-8]、定向梯度等)設計特征存在目標表達能力不足、分類錯誤率高、難以應用于多類目標檢測等缺點。深度學習在目標檢測領(lǐng)域中有著巨大的應用潛力,一般采用端到端的方法進行目標檢測,原始圖像輸入神經(jīng)網(wǎng)絡能夠通過降低維度來減少計算量,并且通過強化深度學習算法能夠使預測結(jié)果盡可能接近原始邊界框,從而確保精確的邊界框預測。相比傳統(tǒng)算法,深度學習方法具有更強的泛用性,成為了當前目標檢測的研究與應用熱點。
卷積神經(jīng)網(wǎng)絡從LeNet[9-10]開始,并從AlexNet [11]網(wǎng)絡出現(xiàn)開始快速發(fā)展,誕生了許多經(jīng)典的網(wǎng)絡?;谏疃葘W習的目標檢測算法分為兩階段目標檢測算法和單階段目標檢測算法。兩階段目標檢測算法又稱基于候選區(qū)域(Region Proposal)的算法,其首先尋找目標物體的候選區(qū)域,然后進行目標物體分類。經(jīng)典的兩階段算法包括R-CNN[12-13]、SPP-Net[14]、Fast-RCNN[15]、Faster-RCNN等。R-CNN使用基于選擇性搜索的方法進行窗口搜索,采用了圖像分類網(wǎng)絡,但是存在輸入的圖像需要縮放候選區(qū)域的缺陷。He Kaiming等人提出了SPP-Net,在網(wǎng)絡的全連接層之前加入空間金字塔池化層,解決不同尺寸圖像輸入卷積網(wǎng)絡的問題,實現(xiàn)了圖像中任意大小和長寬比區(qū)域的特征提取。Fast-RCNN加入ROI Pooling層進行不同維度特征歸一化,并且利用多任務損失函數(shù)(Multi-task Loss)進行邊框回歸,提高訓練和檢測效率。Faster-RCNN進一步改進和利用RPN(Region Proposal Network)網(wǎng)絡來完成候選框的選取,實現(xiàn)了一個完全端到端的卷積神經(jīng)網(wǎng)絡目標檢測模型。
單階段目標檢測算法不產(chǎn)生候選區(qū)域,直接利用整張圖片作為網(wǎng)絡的輸入,進行分類和定位。典型的單階段目標檢測算法包括YOLO [16]、SSD [17]等。Joseph和Girshick等人在2015年提出YOLO算法,該算法僅通過一次前向傳播直接得到目標包圍框的位置和目標的類別,極大地提高了檢測速度。Liu Wei等人于2015年提出SSD算法,實現(xiàn)了在不同尺度特征圖像上利用卷積核預測目標類別和位置,吸收了YOLO算法速度快的特點,提高了精度。
常見的兩階段目標檢測和單階段目標檢測方法都有不足之處,前者雖然檢測準確率和定位精度更高,但需要首先生成目標候選區(qū)域,因此無法達到實時性的檢測;后者對于每一層的特征圖都要去設置密集的候選框,產(chǎn)生太多的負樣本,雖然速度較快,但是由于傳統(tǒng)卷積網(wǎng)絡在所學特征對方向和尺度變化魯棒性上表現(xiàn)一般,因此對于小物體和重疊物體檢測效果不佳。
2 特征金字塔
2.1 特征金字塔網(wǎng)絡
經(jīng)典的目標檢測網(wǎng)絡,例如Faster-RCNN進行目標檢測時,ROI區(qū)域和獲取往往取決于最后一層特征網(wǎng)絡獲取的特征圖像,然而這種方法僅僅適用于圖像中占有較大像素比例的大型目標檢測,對于小型目標檢測,存在特征提取信息不足、檢測精度較低等問題。由于檢測目標尺寸過小,在特征提取中經(jīng)過多層的卷積操作后,小目標的語義信息基本已經(jīng)消失,在ROI區(qū)域映射到特征圖像的操作中,經(jīng)過多層卷積的小目標特征在特征圖像上的映射區(qū)域只有很小一部分甚至沒有。所以,為了解決多尺度的特征提取問題,需要引入特征金字塔網(wǎng)絡(FPN)進行語義特征和細節(jié)特征學習。
在目標檢測過程中,一般低層特征會保留較多的位置信息,高層特征保留較多的語義信息,F(xiàn)PN通過多層CNN堆疊的金字塔形式進行高層和低層特征組合以實現(xiàn)特征融合。FPN的結(jié)構(gòu)設計特點在于其top-down[18-19]結(jié)構(gòu),以及不同尺度特征的橫向連接,將高分辨率的淺層特征及高語義信息的深層特征統(tǒng)一到同一尺度進行特征融合,使得最終獲得的融合特征同時具有豐富的空間信息和語義信息。通過單尺度的圖像輸入,利用FPN能夠獲取多尺度信息,降低多層CNN網(wǎng)絡帶來的圖像信息損失。
2.2 特征金字塔網(wǎng)絡的優(yōu)化
基于CNN的目標檢測一般采用VGG或ResNet作為特征金字塔(FPN)的預訓練模型,這些預訓練模型在ImageNet[20]上進行了預訓練。然而,這些預訓練網(wǎng)絡存在一些局限,模型最初設計用于圖像分類領(lǐng)域,而由于自然圖像和遙感圖像在圖像分辨率、目標占圖像比例等方面存在一定的差異性,所以不一定適用于目標檢測,可能會導致模型結(jié)果不理想。此外,預訓練模型網(wǎng)絡過深,在模型訓練過程中會帶來計算冗余等問題。
遙感圖像中的小目標在深層特征提取網(wǎng)絡中會丟失大部分的特征信息,特征圖中較大的采樣步幅也會導致小目標被忽略。相對而言,特征金字塔網(wǎng)絡采用淺層結(jié)構(gòu),能夠平衡特征位置信息與語義信息,并且淺層網(wǎng)絡的參數(shù)遠遠低于前述預訓練的網(wǎng)絡,網(wǎng)絡中下采樣運算較少,避免了微小對象像素映射區(qū)域過小的問題,提高了鑒別性能。利用這種輕量級架構(gòu),檢測網(wǎng)絡可以從頭開始訓練并進行多步循環(huán)訓練。由于其減少了大量冗余參數(shù),在不降低小目標檢測精度的情況下,網(wǎng)絡能夠以較高的速率進行迭代訓練更新,進一步提高了檢測效率。
3 注意力機制
3.1 注意力機制原理
注意力機制(Attention Mechanism)[21]來源于人類視覺。人類視覺處理圖像信息時,通過目視掃描獲取全局圖像,有選擇性地關(guān)注獲取圖像的部分信息,忽略大部分多余信息,即人類視覺更關(guān)注于重點區(qū)域的細節(jié)特征,這種機制被稱為注意力機制。注意力機制是一種篩選有價值信息的手段,能夠提升信息處理效率和準確率,進行有效的信息資源分配。比如人類在閱讀報紙時往往先關(guān)注報紙標題,這就是注意力機制的體現(xiàn)。
注意力機制在計算機視覺領(lǐng)域應用廣泛,特別是在語義分割、圖像分類、目標檢測等領(lǐng)域。在深度學習方法中,注意力機制模塊主要用于從繁多復雜的視覺信息中篩選出所需的關(guān)鍵信息。在網(wǎng)絡的構(gòu)建中,一般將注意力機制模塊插入卷積神經(jīng)網(wǎng)絡的中間部分,對不同的視覺信息進行權(quán)重分配,作為一種過濾多余信息,抑制圖像噪聲的重要手段。
3.2 注意力機制在目標檢測領(lǐng)域的應用
注意力機制作為一種增加檢測模型廣度的手段,在目標檢測領(lǐng)域的使用越來越廣泛,主要包含以下幾個方面:
(1) 空間注意力機制。一般采用Sigmoid函數(shù)進行特征圖計算,與原始特征圖像相加、相乘等。Google DeepMind提出STN[22]網(wǎng)絡(Spatial Transformer Network),將空間注意力機制作為一種學習輸入圖像變化量的預處理模塊來使用,一步完成目標仿射變換與定位。Capacity Networks[23]則采用了兩個子網(wǎng)絡,低性能子網(wǎng)絡(coarse model)與高性能子網(wǎng)絡 (fine model),前者用于定位ROI區(qū)域,后者進行精細化處理,實驗證明其兩步法的結(jié)構(gòu)具有更高的檢測精度。
(2) 通道注意力機制。SENet作為2017屆ImageNet分類比賽的冠軍,是經(jīng)典的基于通道注意力機制模型。SENet以圖像通道為基準進行權(quán)重分配,增強或者抑制不同的圖像通道,過濾不重要的通道信息。通道注意力機制在目標檢測領(lǐng)域應用廣泛,比如嵌入SENet的YOLO改進算法等等。
(3) 混合注意力機制。將空間注意力機制與通道注意力機制并聯(lián)或串聯(lián),同時發(fā)揮作用。CBAM[24] (Convolutional Block Attention Module)是混合注意力機制的代表性網(wǎng)絡,以一種串聯(lián)的結(jié)構(gòu)將兩種注意力機制結(jié)合,并且在ImageNet-1K、MS COCO和VOC 2007等數(shù)據(jù)集上做了大量實驗,證明增加CBAM模塊后網(wǎng)絡性能得到明顯提升。
(4) 其他注意力機制。包括與GAN[25]對抗網(wǎng)絡、RCNN網(wǎng)絡等結(jié)合的注意力機制。
由于遙感圖像本身存在大量噪聲(陰影遮擋、邊界模糊、周期性條紋、亮線以及斑點等),在獲取候選框區(qū)域的過程中可能受到圖像噪聲影響(背景噪聲、噪點等),使得訓練模型會造成大量誤檢,大大降低準確率和召回率。為了削弱非對象信息對模型訓練的影響,引入注意力機制能夠抑制遙感圖像中各種噪聲的影響。
4 傾斜框檢測
R2CNN[26](Rotational Region CNN)算法作為一種傾斜框(inclined box)檢測的經(jīng)典算法,最初提出用來解決旋轉(zhuǎn)文本的檢測。R2CNN算法主要是在Faster-RCNN算法的基礎(chǔ)上進行修改,設計了多種不同尺寸的目標檢測矩形框,并且利用傾斜的非極大抑制(NMS[27])來優(yōu)化目標檢測結(jié)果。R2CNN在檢測任意方向的場景文本上取得了良好的效果,其在ICDAR2015和ICDAR2013上取得了相當有競爭力的成果。
由于遙感圖像中小型目標具有方向不確定性,特別是停車場等目標密集的地區(qū),如果采用一般矩形框,會產(chǎn)生大量重疊區(qū)域,降低檢測效果。所以在小型目標的檢測上采用R2CNN網(wǎng)絡進行傾斜框的預測有利于更好地確定目標的空間位置。相對于排列緊密的小目標,NMS算法可能會造成目標漏檢,原因是檢測區(qū)域的軸對齊框之間的IoU[28]數(shù)值一般很高,但傾斜NMS不會漏檢目標,傾斜NMS的IoU值較低,因此使用傾斜框檢測更加適用于遙感圖像上的小目標檢測。
具體來說,R2CNN在檢測框尺寸上進行了新的設計,采用了三種長寬不一致的尺寸應用于ROI Pooling階段,另外設計的兩種尺寸進行水平目標和豎直目標的檢測。R2CNN對提取到的ROI特征進行融合作為后續(xù)預測支路的輸入,其預測輸出包含3個支路,第一個支路對檢測框范圍內(nèi)有無目標進行判斷。第二個支路是一般的水平框(axis-aligned box)預測,第三個支路是算法的核心,即傾斜框(inclined box)的預測,通過進行傾斜NMS非極大值抑制處理得到最終結(jié)果。
5 小目標檢測網(wǎng)絡
5.1 總體網(wǎng)絡結(jié)構(gòu)
本文提出了一個新型的卷積神經(jīng)網(wǎng)絡,以解決在較低分辨率遙感圖像中的小目標檢測問題。主要思路是將裁剪過的圖像輸入空間金字塔進行特征提取,獲取融合特征,隨后引入空間位置軟注意力機制模塊,進一步對融合特征進行處理,以抑制遙感圖像上的背景噪聲,再利用目標檢測子網(wǎng)絡,獲取檢測目標的類別和邊框位置。本節(jié)將介紹新型卷積神經(jīng)網(wǎng)絡的具體網(wǎng)絡結(jié)構(gòu),并且給出空間位置軟注意力機制,ROI區(qū)域提取,及其Loss函數(shù)的詳細實現(xiàn)過程。
本文在Fast-RCNN算法的基礎(chǔ)上對特征提取部分以及網(wǎng)絡檢測部分進行了改進,以ResNet-101網(wǎng)絡為基礎(chǔ)結(jié)構(gòu),構(gòu)造了一種新的特征金字塔網(wǎng)絡,以提升網(wǎng)絡對多尺度特征的表達能力。具體的網(wǎng)絡結(jié)構(gòu)如圖1所示。首先輸入整張圖片進入特征金字塔進行特征提取,再利用RPN模塊提取檢測目標候選框(ROI)信息。之后通過多個卷積層和池化操作來提取特征圖對應的候選框區(qū)域(Region Proposal),再通過ROI Align模塊使生成的候選框映射產(chǎn)生固定大小的特征圖像,以統(tǒng)一特征向量維度,方便輸入后續(xù)的全連接層處理。最終每個特征向量被送到一系列全連接層,進入兩個輸出層進行類別和位置計算,即一個層利用Softmax函數(shù)對目標檢測類別(包括背景)進行類別概率估計,另一個層輸出每個對象的4個精細邊界框位置數(shù)值。
5.2 特征提取網(wǎng)絡
在特征提取網(wǎng)絡模塊中,進行了特征金字塔的構(gòu)建,將ResNet-101作為特征提取的基礎(chǔ)訓練網(wǎng)絡。由于是基于小目標的目標檢測,深層的網(wǎng)絡結(jié)構(gòu)會導致目標語義信息消失,為了減少網(wǎng)絡參數(shù),以{C2,C3,C4}為基礎(chǔ)層級結(jié)構(gòu),采用C3、C4層進行特征融合,在C4層主要獲取語義信息,在C3層獲取更多位置信息,然后進行C3、C4層特征融合。輸入遙感圖片首先經(jīng)過C2層卷積,然后通過C3、C4獲取特征圖像,C3層首先進行上采樣,然后通過一個插入模塊處理,擴展特征圖像的接收域并增強語義信息。插入模塊主要由1×1的卷積核與3×3卷積核組成,1×1的卷積核的主要作用是減少特征圖像通道數(shù),完成通道降維,并不改變特征圖像尺寸。3×3卷積核對所有融合特征進行卷積,減少上采樣產(chǎn)生的混疊效應,并且3×3卷積核相比大尺寸卷積核具有更多的非線性函數(shù),使得判決函數(shù)更加可靠。最后將的C3、C4特征圖像調(diào)整為統(tǒng)一尺寸,逐個像素進行特征圖像相加,獲取加入注意力機制的融合特征。
具體實驗中將高分二號遙感圖像進行裁剪,輸入圖像為800×800×3的RGB圖像,利用ResNet-101網(wǎng)絡提取出C2、C3、C4不同尺寸的特征圖像,然后將C3與C4的上采樣圖像進行特征融合,得到最終特征圖像F1。特征提取網(wǎng)絡中C2,C3,C4層具體結(jié)構(gòu)如圖2所示。
5.3 背景噪聲抑制
空間軟注意力機制模塊作為特征提取網(wǎng)絡輸出特征圖像的后續(xù)輸入網(wǎng)絡,經(jīng)過平均池化層和最大池化層,在通道維度上進行卷積運算生成顯著性圖,顯著性圖包含檢測區(qū)域為前景和背景的分數(shù),能夠區(qū)分圖像前景與背景信息。通過在顯著性圖上進行Softmax函數(shù)計算,生成空間注意力特征圖,進一步抑制遙感圖像中的背景陰影或者其他噪聲并相對增強對象信息。由于顯著性圖具有連續(xù)性,因此并沒有完全去除非對象信息,這種方式有利于保留一定程度的上下文信息并提高魯棒性。
空間變換網(wǎng)絡(Spatial Transformer Network)模塊可作為新的層直接加入到原有的網(wǎng)絡結(jié)構(gòu)中。模型的輸入為
U∈RH×W×C(1)
式中: H和W分別代表上一層特征圖像張量的高度和寬度;C代表圖像張量的通道數(shù)量,包括多個卷積核產(chǎn)生的圖像通道信息。之后將特征圖像輸入兩條通道,一條通道是特征圖像信息進入下一層RPN網(wǎng)絡,另一條通道是特征圖像直接進入空間注意力機制模塊。其中上層網(wǎng)絡通過Inception和C4層后進行參數(shù)學習,學到的參數(shù)能夠作為特征生成器的參數(shù),通過Softmax算法,生成一個新的特征圖像。然后,與原始輸入特征圖像進行相加,最終獲取新的特征融合圖像。
V∈RHt×Wt×C(2)
空間注意力機制模塊中的核函數(shù)(kernel)表示如下:
K(x,z)=φ(x)×φ(z)(3)
通過空間位置軟注意力機制模塊獲取新的融合特征圖像,能夠有效抑制目標檢測中的背景噪聲。
5.4 損失函數(shù)
對每個ROI候選區(qū)域而言,損失函數(shù)由三部分
組成: 分類損失、回歸損失、分割損失。多任務損失函數(shù)定義如下:
L=Lcls+Lbox+Lmask(4)
對于分類損失函數(shù)Lcls,采用對數(shù)似然損失(Log-likelihood Loss)方法進行計算,也被稱為交叉熵損失(Cross-Entropy Loss),輸出目標屬于每一個類別的概率值,公式如下:
Lcls(Y,P(Y|X))=-logP(Y|X)=
-1N
∑Ni=1∑Mj=1yijlog(pij)
(5)
式中: X,Y為輸入和輸出變量;N,M代表樣本數(shù)量、目標檢測類別數(shù)量;yij為一個取值為0或1的數(shù),對輸入樣本是否為類別j進行判斷,代表GT標簽是否為此類別;pij為輸入樣本屬于類別j的概率。yij定義如下:
yij=0negative label
1positive label
(6)
對于回歸損失函數(shù)Lbox,為了減少計算量,使函數(shù)更具魯棒性,采用L1損失函數(shù)進行計算,L1損失函數(shù)也被稱為最小絕對值偏差(LAD),損失函數(shù)Lbox計算公式為
Lbox(w,w*)=smoothL1(w-w*)(7)
smoothL1(x)=0.5x2if |x|<1
|x|-0.5otherwise(8)
式中: w={tx,ty,tw,th},以向量形式表示檢測框4個頂點的參數(shù)化坐標;w*代表與w對應的ground-truth的4個頂點坐標向量。
Lmask函數(shù)為平均二值交叉熵損失函數(shù),二值的交叉熵函數(shù)定義如下:
對于每個檢測樣本而言,yi表示檢測目標的期望輸出值,y^l表示檢測目標的實際輸出值。mask模塊的ROI區(qū)域輸出維度為K×m2,其中m2代表ROI Align輸出的特征圖像尺寸,即檢測網(wǎng)絡中每一個類別都有一個尺寸為m2的二值化mask層,以區(qū)分前景與背景。而ROI Align相對于ROI Pooling具有更高的像素對齊精度,相對于ROI Pooling引入了雙線性插值算法,使ROI特征更好地映射到原始圖像。
在計算過程中,mask層通道數(shù)目與目標檢測類別相同,每個通道對應一個類別,對每一個類別都采用Sigmoid函數(shù)進行計算,判斷所屬類別概率,輸出每一個ROI區(qū)域?qū)淖罱K類別。在利用Lmask函數(shù)進行計算時,僅僅使用所屬類別分支的相對熵誤差進行Loss計算,以避免跨類別競爭,最終取ROI區(qū)域全部像素交叉熵結(jié)果的平均值為Lmask函數(shù)輸出結(jié)果。
6 實驗
6.1 數(shù)據(jù)集
實驗中,利用高分二號圖像進行裁剪制作目標檢測數(shù)據(jù)集。遙感影像中的高壓電塔作為一種大尺寸影像中的稀疏小目標,是研究小目標檢測的理想對象,因此,以高分二號影像中的高壓電塔作為檢測對象,裁剪出186張包含高壓電塔的800×800圖像,共包含343個高壓電塔目標,目前的像素尺寸范圍為13.44×13.76到93.36×101.64。實驗中利用留出法劃分數(shù)據(jù),其中70%為訓練數(shù)據(jù)集,30%為測試數(shù)據(jù)集,再進行高壓電塔檢測模型訓練和測試實驗。
在數(shù)據(jù)集中,每個目標的四邊形邊框表示為(x1,y1),(x2,y2),(x3,y3),(x4,y4),其中(xi,yi)為注釋四邊形的頂點坐標,按順時針排序。由于VOC2007數(shù)據(jù)集以xml格式注釋,將裁剪后的圖片txt文件轉(zhuǎn)換為xml文件,利用VOC數(shù)據(jù)格式進行目標檢測實驗。
6.2 評估指標
目標檢測有三個評估指標。第一個是精確率(precision),用于測量每一類識別出來的圖片中True positives所占的比率。第二個是召回率(recall),用于測量每一類正確識別出來的目標個數(shù)與測試集中所有目標個數(shù)的比值。第三是平均精度(AP),簡單來說就是對PR曲線上的求均值。
精確率(precision)計算公式如下:
precision=tptp+fp=tpn(10)
式中: n代表True positives + False positives,也就是系統(tǒng)一共識別出來多少圖片。
[10] Chen Y T, Chen T S, Chen J. A LeNet Based Convolution Neural Network for Image Steganalysis on Multiclass Classification[J]. DEStech Transactions on Computer Science and Engineering, 2018, 332: 218-222.
[11] Aswathy P, Siddhartha, Mishra D. Deep GoogLeNet Features for Visual Object Tracking[C]∥ IEEE 13th International Conference on Industrial and Information Systems, 2018: 60-66.
[12] Masita K L, Hasan A N, Paul S. Pedestrian Detection Using R-CNN Object Detector[C]∥ IEEE Latin American Conference on Computational Intelligence, Gudalajara, Mexico, 2018: 1-6.
[13] Taniguchi K, Kuraguchi K, Konishi Y. Task Difficulty Makes ‘NoResponse Different From ‘Yes Response in Detection of Fragmented Object Contours[J]. Perception, 2018, 47(9): 943-965.
[14] Akbas E, Eckstein M P. Object Detection Through Search with a Foveated Visual System[J]. PLoS Computational Biology, 2017, 13(10): e1005743.
[15] Shao F M, Wang X Q, Meng F J, et al. Improved Faster R-CNN Traffic Sign Detection Based on a Second Region of Interest and Highly Possible Regions Proposal Network[J]. Sensors, 2019, 19(10): 2288.
[16] Zhang D P, Shao Y H, Mei Y Y, et al. Using YOLO-Based Pedestrian Detection for Monitoring UAV[C]∥Tenth International Conference on Graphics and Image Processing, 2019: 110693Y.
[17] Li H T, Lin K Z, Bai J X, et al. Small Object Detection Algorithm Based on Feature Pyramid-Enhanced Fusion SSD[J]. Complexity, 2019: 7297960.
[18] Forder L, Taylor O, Mankin H, et al. Colour Terms Affect Detection of Colour and Colour-Associated Objects Suppressed from Visual Awareness[J]. PloS one, 2016, 11(3): e0152212.
[19] Hua X, Wang X Q, Wang D, et al. Military Object Real-Time Detection Technology Combined with Visual Salience and Psycho-logy[J]. Electronics, 2018, 7(10): 216.
[20] Holman A C, Girbǎ A E. The Match in Orientation Between Verbal Context and Object Accelerates Change Detection[J]. Psihologija, 2019, 52(1): 93-105.
[21] Zhang Y, Chen Y M, Huang C, et al. Object Detection Network Based on Feature Fusion and Attention Mechanism[J]. Future Internet, 2019, 11(1): 9.
[22] Lin C H, Yumer E, Wang O, et al. ST-GAN: Spatial Transformer Generative Adversarial Networks for Image Compositing[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 9455-9464.
[23] Guleryuz O G, Kozat U C. Joint Compression, Detection, and Routing in Capacity Contrained Wireless Sensor Networks[C]∥IEEE/SP 13th Workshop on Statistical Signal Processing, Bordeaux, France, 2005: 1026-1031.