曹亞明,肖 奇,楊 震
1.中國(guó)科學(xué)院 國(guó)家空間科學(xué)中心,北京 100190
2.中國(guó)科學(xué)院大學(xué),北京 100049
隨著航天航空技術(shù)的突飛猛進(jìn),遙感技術(shù)也得到了快速成長(zhǎng),遙感技術(shù)在許多領(lǐng)域中都發(fā)揮著巨大作用,在交通、環(huán)境、農(nóng)業(yè)等領(lǐng)域中遙感技術(shù)都得到了廣泛的應(yīng)用。遙感技術(shù)的發(fā)展使得遙感影像的精度越來(lái)越高,遙感影像視角較高,包含豐富的位置、特征等信息[1-2]。因此,遙感影像中的目標(biāo)檢測(cè)受到了越來(lái)越多的關(guān)注。傳統(tǒng)的遙感影像目標(biāo)檢測(cè)任務(wù)是通過(guò)基于人工篩選特征、滑動(dòng)窗口、分類器的方法來(lái)完成的[3-5]。深度學(xué)習(xí)在眾多計(jì)算機(jī)視覺(jué)任務(wù)中取得了很好的效果之后,基于深度學(xué)習(xí)的方法已經(jīng)被廣泛地應(yīng)用于目標(biāo)檢測(cè)任務(wù)中,并且基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型準(zhǔn)確率也遠(yuǎn)遠(yuǎn)高于基于人工篩選特征的方法[6-7]。然而,由于遙感影像中的目標(biāo)具有視角特殊、尺寸小、特征少、背景復(fù)雜、方向多變以及易受云霧遮擋等問(wèn)題,導(dǎo)致將常規(guī)目標(biāo)檢測(cè)任務(wù)中表現(xiàn)優(yōu)秀的目標(biāo)檢測(cè)模型,直接應(yīng)用于遙感影像目標(biāo)檢測(cè)時(shí)效果較差,存在大量漏檢、誤檢[8]。與此同時(shí),成像仿真技術(shù)越發(fā)成熟[9],很多3D 建模軟件在工業(yè)、建筑等領(lǐng)域中的使用也變得越來(lái)越頻繁。虛擬圖像,尤其是將仿真圖像應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練與學(xué)習(xí)的應(yīng)用變得越來(lái)越多。在成像仿真技術(shù)的支持下,可以得到小目標(biāo)的更多特征,在與深度學(xué)習(xí)結(jié)合的過(guò)程中,更多的特征可以使得神經(jīng)網(wǎng)絡(luò)的結(jié)果得到提升。成像仿真的結(jié)果相當(dāng)于人類的常識(shí),加入到神經(jīng)網(wǎng)絡(luò)中后,會(huì)使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更快收斂、提高效率,并且加入仿真圖像以后,可以增強(qiáng)檢測(cè)結(jié)果的可解釋性。因此,本文提出一種基于仿真圖像的深度學(xué)習(xí)方法——TMSI-Net(template matching based on simulation image),利用模板匹配方法將仿真圖像所包含的特征與神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行融合,來(lái)解決遙感影像小目標(biāo)檢測(cè)問(wèn)題。成像仿真技術(shù)生成的仿真圖像包含了遙感小目標(biāo)的更多特征,如幾何形狀、材質(zhì)等。在與深度學(xué)習(xí)結(jié)合之后,更多的特征可以提升神經(jīng)網(wǎng)絡(luò)檢測(cè)遙感影像小目標(biāo)的準(zhǔn)確率。用大型遙感數(shù)據(jù)集VEDAI[10]以及加云霧之后的VEDAI-Cloud 對(duì)模型進(jìn)行了測(cè)試。結(jié)果表明將基于仿真圖像的模板匹配方法應(yīng)用于深度學(xué)習(xí)之后,對(duì)于遙感影像小目標(biāo)取得了較好的檢測(cè)效果,尤其是針對(duì)受云霧等天氣干擾的小目標(biāo)。
遙感影像小目標(biāo)檢測(cè)任務(wù)是分析和理解遙感影像所面臨的基本問(wèn)題。該問(wèn)題在很多的民用、軍用場(chǎng)景中頻繁出現(xiàn)。由于遙感影像中的目標(biāo)尺寸小,受云霧遮擋的影響大,角度特殊,所以該問(wèn)題一直都很難被很好地解決。本文的實(shí)驗(yàn)結(jié)果表明利用待檢測(cè)目標(biāo)的仿真圖像作為模板,以模板匹配的方式加入到神經(jīng)網(wǎng)絡(luò)之后,可以很好地提高網(wǎng)絡(luò)在遙感影像中的目標(biāo)檢測(cè)準(zhǔn)確率。
目前為止,深度神經(jīng)網(wǎng)絡(luò)是用來(lái)解決遙感影像目標(biāo)檢測(cè)任務(wù)最常用的方法。如何設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),以便使得網(wǎng)絡(luò)能夠提取或?qū)W習(xí)到足夠多的小目標(biāo)特征用于檢測(cè),是深度神經(jīng)網(wǎng)絡(luò)方法的關(guān)鍵。針對(duì)遙感目標(biāo)與常規(guī)目標(biāo)的視角差異,許多研究者通過(guò)修改網(wǎng)絡(luò)結(jié)構(gòu)來(lái)適應(yīng)遙感影像小目標(biāo)檢測(cè)任務(wù)。本文提出的TMSI-Net通過(guò)改變網(wǎng)絡(luò)深度、將更淺層的特征圖用于檢測(cè)等改動(dòng),加快了網(wǎng)絡(luò)訓(xùn)練過(guò)程,并且可以去除掉對(duì)于小目標(biāo)檢測(cè)沒(méi)有意義的冗余信息。淺層的特征圖用于遙感影像目標(biāo)檢測(cè)可以提供更多的小目標(biāo)特征和信息,如位置、幾何等[11-12]。有的研究者通過(guò)改變RPN網(wǎng)絡(luò)輸入的卷積層、調(diào)整RPN網(wǎng)絡(luò)中的錨點(diǎn)尺寸來(lái)使得Faster R-CNN網(wǎng)絡(luò)更好地適應(yīng)遙感目標(biāo)檢測(cè)[6]。由此可以得出,改變網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)成為一種將深度學(xué)習(xí)應(yīng)用于遙感影像數(shù)據(jù)集的基本方法。
同時(shí),也有很多方法通過(guò)對(duì)遙感數(shù)據(jù)集進(jìn)行預(yù)處理,去解決遙感影像小目標(biāo)檢測(cè)困難的問(wèn)題。如果直接將高分辨率的遙感影像數(shù)據(jù)用于目標(biāo)檢測(cè),確實(shí)會(huì)包含更多的目標(biāo)特征,但是高分辨率的遙感影像數(shù)據(jù)通常尺寸都很大,對(duì)于網(wǎng)絡(luò)的訓(xùn)練異常耗時(shí),并且也會(huì)使得訓(xùn)練時(shí)每批次的數(shù)據(jù)有限,影響網(wǎng)絡(luò)的訓(xùn)練效果[13]。因此,有很多人考慮將大尺度的遙感數(shù)據(jù)集進(jìn)行剪切和分割,然后再將剪切之后的圖片塊用于網(wǎng)絡(luò)的訓(xùn)練與推理,但是這種方法會(huì)導(dǎo)致另一個(gè)問(wèn)題的出現(xiàn),如何能夠使得目標(biāo)在切割的過(guò)程中不被破壞[14]。有人提出了一種方法,將高分辨率遙感數(shù)據(jù)進(jìn)行下采樣到合適網(wǎng)絡(luò)訓(xùn)練的尺寸,然后再用其進(jìn)行網(wǎng)絡(luò)的訓(xùn)練與推理[10]。這種方法的不足之處在于下采樣之后的圖像沒(méi)有足夠多的小目標(biāo)特征可以用于檢測(cè)。本文提出的通過(guò)將仿真圖像以模板方式加入到神經(jīng)網(wǎng)絡(luò)中的方法,可以解決遙感影像數(shù)據(jù)集中缺乏小目標(biāo)特征用于檢測(cè)的問(wèn)題。表現(xiàn)優(yōu)異的實(shí)驗(yàn)結(jié)果也可以證明仿真圖像的加入確實(shí)可以提供更多小目標(biāo)特征與信息,提高網(wǎng)絡(luò)檢測(cè)結(jié)果。從本文的實(shí)驗(yàn)結(jié)果中,也可以看出云霧的遮擋對(duì)于遙感影像小目標(biāo)檢測(cè)有很大的干擾,而加入仿真圖像之后,可以起到很好的抗干擾作用。本文提出的加入仿真圖像的方法,也為神經(jīng)網(wǎng)絡(luò)在應(yīng)用于某些特征學(xué)習(xí)受限的場(chǎng)景中時(shí),提供了一種新的思路。將知識(shí)與常識(shí)以模板的方式加入到神經(jīng)網(wǎng)絡(luò)中可以提高網(wǎng)絡(luò)的表現(xiàn),并且能增強(qiáng)網(wǎng)絡(luò)的可解釋性。
TMSI-Net結(jié)構(gòu)如圖1所示。TMSI-Net的主干網(wǎng)絡(luò)為去掉最后一個(gè)殘差模塊的Darknet-53,共53 個(gè)卷積層,包含5 個(gè)殘差模塊,每個(gè)殘差模塊包含多個(gè)殘差單元。Conv 表示神經(jīng)網(wǎng)絡(luò)中的一個(gè)學(xué)習(xí)單元,具體為一個(gè)卷積層、一個(gè)批歸一化(batch normalization)層和一個(gè)池化層。池化層是通過(guò)改變卷積核的步長(zhǎng)來(lái)實(shí)現(xiàn)的。每個(gè)殘差模塊包含不同數(shù)量的殘差單元,具體數(shù)字在圖1 中進(jìn)行了標(biāo)注。Concat 操作為指定兩個(gè)向量的某一維度進(jìn)行拼接,而其他維度固定。
圖1 TMSI-NetFig.1 TMSI-Net
通過(guò)將TMSI-Net 和其他模型分別在VEDAI、加云霧遮擋作為干擾的VEDAI 數(shù)據(jù)集上進(jìn)行測(cè)試,來(lái)驗(yàn)證TMSI 算法的有效性。在實(shí)驗(yàn)過(guò)程中,兩個(gè)數(shù)據(jù)集都按照5∶1的比例將圖像隨機(jī)地分為訓(xùn)練集、驗(yàn)證集。
仿真圖像是通過(guò)成像仿真技術(shù)生成的,而仿真成像技術(shù)是基于數(shù)學(xué)或物理方法來(lái)構(gòu)建全鏈路成像模型,最終由模型生成圖像的方法。構(gòu)建成像仿真系統(tǒng)的第一步是搭建成像仿真框架[15]。全鏈路的成像仿真框架從太陽(yáng)直射、天空漫射開始,目標(biāo)經(jīng)過(guò)材質(zhì)劃分、并通過(guò)貼圖的方式來(lái)體現(xiàn)不同材質(zhì)的反射特性。材質(zhì)反射后的光照強(qiáng)度再經(jīng)過(guò)大氣傳輸模型,即大氣要素計(jì)算,最后進(jìn)入相機(jī)成像模塊。相機(jī)成像模塊主要負(fù)責(zé)將成像前來(lái)到相機(jī)模塊的光照強(qiáng)度根據(jù)一定計(jì)算規(guī)則轉(zhuǎn)化為相應(yīng)的電信號(hào),然后經(jīng)過(guò)信號(hào)處理模塊,最終形成可見(jiàn)光仿真圖像,整個(gè)成像仿真系統(tǒng)的閉環(huán)鏈路就此搭建完成,全鏈路成像仿真框架如圖2所示。
圖2 全鏈路成像仿真框架Fig.2 Full link imaging simulation framework
TMSI 算法完成了仿真圖像與神經(jīng)網(wǎng)絡(luò)特征圖的匹配,并且將匹配過(guò)程中得到的有效信息加入到原來(lái)的特征圖中。在TMSI 算法過(guò)程中用到的仿真圖像如圖3所示。在生成仿真圖像的過(guò)程中,考慮只對(duì)數(shù)據(jù)集中的6 個(gè)類別進(jìn)行仿真,分別是船(boat)、轎車(car)、皮卡(pickup)、拖拉機(jī)(tractor)、卡車(truck)以及貨車(van)。仿真圖像的顏色和尺寸也進(jìn)行了適應(yīng)性的修改。首先,根據(jù)數(shù)據(jù)集中待檢測(cè)目標(biāo)的大小對(duì)仿真圖像的尺寸進(jìn)行調(diào)整。VEDAI數(shù)據(jù)集中一共有9個(gè)類別,分別是:飛機(jī)、船、小轎車、卡車、拖拉機(jī)、露營(yíng)車、貨車、皮卡和其他類別。在VEDAI數(shù)據(jù)集中平均每幅圖像包含5.5 個(gè)車輛,大概占據(jù)了一幅圖像總像素的0.7%。在實(shí)驗(yàn)過(guò)程中所使用的VEDAI圖像的尺寸為512×512,經(jīng)過(guò)簡(jiǎn)單的計(jì)算,可以得到在圖像中的每個(gè)目標(biāo)所占據(jù)的像素大概為20×20。因此,為了更好地匹配特征圖中的目標(biāo),在尺度上將生成的仿真圖像尺寸調(diào)整為30×30。為了適應(yīng)俯拍所得到的遙感影像中的目標(biāo)角度多樣性,對(duì)生成的小目標(biāo)仿真圖像進(jìn)行平面旋轉(zhuǎn)。仿真圖像數(shù)量越多,則在匹配過(guò)程中的計(jì)算消耗也會(huì)越大。因此,按照類別分別從生成的所有仿真圖像中挑選出6 張仿真圖,然后分別旋轉(zhuǎn)4等分角度(90°,180°,270°)來(lái)盡可能地捕捉遙感影像中角度多樣的小目標(biāo),最后得到數(shù)量為24的仿真模板庫(kù)。遙感影像中的目標(biāo)背景通常比較復(fù)雜并且多變,例如,在VEDAI數(shù)據(jù)集中的很多船是在陸地上而不是常見(jiàn)的以水為背景。所以在仿真圖像的生成過(guò)程中不會(huì)添加特定的背景,如在生成船的仿真圖像時(shí),不會(huì)添加水面等作為目標(biāo)背景,轎車等交通工具也沒(méi)有特定的道路作為背景,如圖3 所示,仿真圖像的主體即為待檢測(cè)目標(biāo)。為了盡可能地消除匹配時(shí)同一類別目標(biāo)的類內(nèi)顏色差異性,同時(shí)考慮到與仿真圖像進(jìn)行匹配的是特征圖,不是輸入圖,所以在將所有的仿真圖像尺寸進(jìn)行調(diào)整之后,將它們?nèi)哭D(zhuǎn)為灰度圖。在仿真圖像的生成過(guò)程中,通過(guò)調(diào)整待檢測(cè)目標(biāo)三維模型的水平角與俯仰角,可以得到如圖3 所示的多角度、多尺度的待檢測(cè)目標(biāo)的仿真圖像。
圖3 用作模板的仿真圖樣例Fig.3 Examples of simulation images used as templates
在TMSI算法中使用OpenCV中的CV_TM_CCOEFF_NORMED模板匹配算法進(jìn)行仿真圖像與神經(jīng)網(wǎng)絡(luò)特征圖的匹配。在匹配前分別對(duì)模板T(i,j)和原圖I(i,j)進(jìn)行歸一化處理,如式(1)、(2)所示。(wT,hT)和(wI,hI)分別代表模板與原圖的寬、高。原圖與模板在經(jīng)過(guò)式(1)、(2)之后,完成了匹配前的標(biāo)準(zhǔn)化。最后由式(3)得到模板與原圖對(duì)應(yīng)區(qū)域的相關(guān)系數(shù),以及原圖中與模板最相近的區(qū)域。
TMSI算法的本質(zhì)是通過(guò)作為模板的仿真圖像來(lái)增強(qiáng)特征圖中與小目標(biāo)相關(guān)的特征。TMSI算法的輸入為通過(guò)CNN 產(chǎn)生的特征圖與作為模板的仿真圖像,不同類別與角度的仿真圖像用來(lái)增強(qiáng)不同的小目標(biāo)特征。為了避免例如類內(nèi)顏色多樣性等非關(guān)鍵特征對(duì)模板的匹配效果產(chǎn)生影響,同時(shí)考慮到過(guò)多的下采樣層與大步長(zhǎng)的卷積層會(huì)損失很多的小目標(biāo)特征,采用Darknet-53中第一個(gè)池化層前的特征圖作為TMSI算法的輸入。在訓(xùn)練的過(guò)程中,batch size 設(shè)置為8,而Darknet-53 的第一個(gè)卷積層有32個(gè)卷積核,所以TMSI算法中輸入的特征圖F尺寸為8×32×512×512。由仿真圖像組成的模板庫(kù)S為24×1×30×30。在模板匹配的過(guò)程中,超參數(shù)δ是用來(lái)衡量相關(guān)系數(shù)r的。如果特征圖中某個(gè)特定區(qū)域的相關(guān)系數(shù)r大于超參數(shù)δ,則認(rèn)為當(dāng)前的區(qū)域與對(duì)應(yīng)模板類別的小目標(biāo)最為相近,將該區(qū)域利用相關(guān)系數(shù)r進(jìn)行直接擴(kuò)大。在實(shí)驗(yàn)的過(guò)程中,設(shè)定超參數(shù)δ的值為0.6。TMSI的整個(gè)結(jié)構(gòu)與殘差結(jié)構(gòu)相似,殘差結(jié)構(gòu)最后的輸出是通過(guò)向量拼接得到,而TMSI 最后的結(jié)果則是通過(guò)輸入與對(duì)應(yīng)擴(kuò)大區(qū)域的相加得到。當(dāng)特征圖與所有的模板匹配之后,最可能具有小目標(biāo)的區(qū)域得到增強(qiáng),更多的小目標(biāo)關(guān)鍵特征與信息被用于目標(biāo)檢測(cè)。特征圖與作為模板的仿真圖像進(jìn)行匹配時(shí),考慮到每個(gè)通道的特征圖與仿真圖像的匹配相互獨(dú)立,所以利用CPU多核并行處理數(shù)據(jù)。使用Intel?Xeon?E5-2696 V4@2.20 GHz×50 處理器對(duì)數(shù)據(jù)進(jìn)行并行處理之后,特征圖F與模板庫(kù)S的匹配過(guò)程平均需要8.9 s。算法1 中的偽代碼描述了TMSI 算法的過(guò)程。其中,I表示匹配算法中的輸入圖;T表示匹配算法中的模板圖;r表示I與T之間的標(biāo)準(zhǔn)協(xié)相關(guān)系數(shù);(xr,yr)表示當(dāng)前r所對(duì)應(yīng)的I中的坐標(biāo)。
TMSI算法通過(guò)利用仿真圖像作為模板與特征圖進(jìn)行匹配增加神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到的遙感影像小目標(biāo)的關(guān)鍵特征。本文算法同時(shí)以仿真圖像的形式將光學(xué)、物理模型等知識(shí)加入到了神經(jīng)網(wǎng)絡(luò),TMSI-Net 網(wǎng)絡(luò)的可解釋性也得到了提高。通過(guò)在VEDAI 數(shù)據(jù)集、加云霧遮擋的VEDAI數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了TMSI算法的有效性。在實(shí)驗(yàn)過(guò)程中分別比較了TMSI-Net、YOLO V3[16]、YOLO V5[17]和SEN[18]模型的表現(xiàn),并且通過(guò)對(duì)內(nèi)部神經(jīng)元可視化的方式分析了各個(gè)模型在不同數(shù)據(jù)集上表現(xiàn)差異的原因。
首先,在VEDAI數(shù)據(jù)集上分別對(duì)YOLO V3、YOLO V5、SEN 和TMSI-Net 進(jìn)行訓(xùn)練,并進(jìn)行推理測(cè)試。YOLO V3、SEN和TMSI-Net的網(wǎng)絡(luò)主體都為Darknet-53,所以對(duì)這三個(gè)模型訓(xùn)練時(shí)損失(loss)隨著訓(xùn)練輪次的變化進(jìn)行比較,共40×125 輪迭代次數(shù)。圖4 表示YOLO V3、SEN和TMSI-Net模型在VEDAI數(shù)據(jù)集上的訓(xùn)練過(guò)程,從中可以看出SEN 和TMSI-Net 的收斂速度都要優(yōu)于YOLO V3,其中,TMSI-Net模型收斂最快,并且在訓(xùn)練的過(guò)程中震蕩最少。
圖4 YOLO V3、SEN和TMSI-Net模型訓(xùn)練過(guò)程1Fig.4 Training process of YOLO V3,SEN and TMSI-Net 1
通過(guò)對(duì)表1 中所有模型在VEDAI 數(shù)據(jù)集上的檢測(cè)結(jié)果比較,可以看到本文提出的TMSI-Net在貨車(van)之外的所有類別的AP以及mAP上都有很大的提高,證明了TMSI算法在遙感影像小目標(biāo)檢測(cè)任務(wù)上有很好的表現(xiàn)。并且,TMSI-Net 中加入了仿真圖像作為模板的類的準(zhǔn)確率提升得更多,如轎車、卡車、拖拉機(jī)和船等。主要原因是加入仿真圖像作為模板進(jìn)行匹配后,小目標(biāo)的更多特征被網(wǎng)絡(luò)所學(xué)習(xí)到并用于檢測(cè)。然而,對(duì)于貨車,雖然也有對(duì)應(yīng)的仿真圖像作為模板加入,檢測(cè)準(zhǔn)確率卻沒(méi)有達(dá)到所有模型中的最好,原因可能是該類別的仿真圖像的風(fēng)格與待檢測(cè)的該類小目標(biāo)相差較大。圖像中的該類別目標(biāo)稀少也可能是其中的原因。還可以從表1 中觀察到有一些類別雖然沒(méi)有加入對(duì)應(yīng)的仿真圖像作為模板,但檢測(cè)結(jié)果也得到了提升。這個(gè)原因可能是網(wǎng)絡(luò)可以學(xué)習(xí)到更多的加入仿真圖像作為模板的類別的小目標(biāo)特征,沒(méi)有加入仿真圖像作為模板的類別的小目標(biāo)被誤檢為其他目標(biāo)的可能性更小了。從表1的結(jié)果中也可以看出,新提出YOLO V5的檢測(cè)準(zhǔn)確率要低于YOLO V3,這在某種程度上說(shuō)明對(duì)于遙感影像小目標(biāo)檢測(cè)來(lái)說(shuō),并不意味著網(wǎng)絡(luò)越復(fù)雜、層數(shù)越多就會(huì)有更好的效果。針對(duì)某種場(chǎng)景設(shè)計(jì)、具有特定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)才可以在遙感影像小目標(biāo)檢測(cè)任務(wù)中取得更好的效果。總體而言,在加入仿真圖像作為模板之后,網(wǎng)絡(luò)對(duì)所有類別的小目標(biāo)的檢測(cè)準(zhǔn)確率都得到了提高,平均準(zhǔn)確率(mAP)更是比其他三個(gè)模型中最好的結(jié)果高了將近20 個(gè)百分點(diǎn),仿真圖像作為模板加入到神經(jīng)網(wǎng)絡(luò)確實(shí)提供了更多有效的小目標(biāo)特征。
與常規(guī)的圖像相比較而言,遙感影像更容易受到云霧遮擋以及光照變化的影響。尤其是考慮到地球表面的66%經(jīng)常被云霧所遮蓋[19-20],在云霧干擾下準(zhǔn)確地檢測(cè)遙感影像小目標(biāo)成為必須面對(duì)和解決的難題[21-22]。因此,考慮在VEDAI 數(shù)據(jù)集的基礎(chǔ)上通過(guò)人為地增加云霧干擾構(gòu)造新的數(shù)據(jù)集VEDAI-Cloud來(lái)進(jìn)行實(shí)驗(yàn),檢驗(yàn)各個(gè)模型在云霧干擾下對(duì)于遙感影像小目標(biāo)檢測(cè)的效果。數(shù)據(jù)集中的云霧通過(guò)隨機(jī)位置、隨機(jī)厚薄的方式來(lái)加入,使得VEDAI-Cloud 數(shù)據(jù)集盡可能地接近真實(shí)場(chǎng)景中被云霧遮擋之后的效果。通過(guò)將YOLO V3、YOLO V5、SEN和TMSI-Net模型在VEDAI-Cloud數(shù)據(jù)集上進(jìn)行訓(xùn)練并測(cè)試,來(lái)觀察所有模型的表現(xiàn)。在訓(xùn)練的過(guò)程中,依然比較了YOLO V3、SEN 和TMSI-net 的損失曲線,共40×125輪迭代次數(shù)。圖5表示YOLO V3、SEN和TMSI-net模型在VEDAI-Cloud數(shù)據(jù)集上的訓(xùn)練過(guò)程,從中可以看出,TMSI-Net收斂最快、震蕩最少,依然是所有模型中訓(xùn)練過(guò)程中表現(xiàn)最好的模型。
圖5 YOLO V3、SEN和TMSI-Net模型訓(xùn)練過(guò)程2Fig.5 Training process of YOLO V3,SEN and TMSI-Net 2
表2 列出了所有模型在VEDAI-Cloud 數(shù)據(jù)集上所有類別的準(zhǔn)確率。與表1 相比較,除了TMSI-Net 模型之外,所有模型在加入云霧遮擋作為干擾之后的準(zhǔn)確率都下降了很多。從表2 中可以看出加入云霧作為干擾之后,基于仿真圖像模板匹配的TMSI-Net表現(xiàn)最好,平均準(zhǔn)確率比排名第二的模型SEN 高出了27.2 個(gè)百分點(diǎn)。表2中的結(jié)果表明,加入了仿真圖像作為模板的對(duì)應(yīng)類別的準(zhǔn)確率提升最為明顯,如轎車。相反,其他模型在加云霧遮擋之后,所有類別的檢測(cè)準(zhǔn)確率都受到了極大的影響,下降很多。在有干擾的時(shí)候TMSI 算法依然可以為小目標(biāo)檢測(cè)提供很多有效的關(guān)鍵特征。
表1 所有模型在VEDAI數(shù)據(jù)集上的檢測(cè)結(jié)果Table 1 Detection results of all models on VEDAI dataset %
表2 所有模型在VEDAI-Cloud數(shù)據(jù)集上的檢測(cè)結(jié)果Table 2 Detection results of all models on VEDAI-Cloud dataset %
圖6和圖7是TMSI-Net、SEN、YOLO V3和YOLO V5在VEDAI 和VEDAI-Cloud 數(shù)據(jù)集上的部分檢測(cè)結(jié)果比較。圖6 中的小目標(biāo)背景相對(duì)簡(jiǎn)單,而圖7 的背景相對(duì)復(fù)雜、干擾較多。其中圖6 從上到下分別為輸入(VEDAI、VEDAI-Cloud);TMSI-Net方法檢測(cè)結(jié)果;SEN方法檢測(cè)結(jié)果;YOLO V3方法檢測(cè)結(jié)果;YOLO V5方法檢測(cè)結(jié)果。圖7 從左到右分別為,(a)輸入(VEDAI、VEDAI-Cloud);(b)TMSI-Net方法檢測(cè)結(jié)果;(c)SEN方法檢測(cè)結(jié)果;(d)YOLO V3 方法檢測(cè)結(jié)果;(e)YOLO V5 方法檢測(cè)結(jié)果。正如圖6、圖7 結(jié)果所示,TMSI-Net方法在VEDAI 和VEDAI-Cloud 數(shù)據(jù)集上都取得了最好的檢測(cè)結(jié)果,所有的目標(biāo)都被檢測(cè)出來(lái),并做出了正確的分類。SEN 方法在VEDAI 數(shù)據(jù)集上的結(jié)果與TMSI-Net 相似,然而,在加入云霧遮擋作為干擾之后,該方法有大量的漏檢、誤檢。尤其是在圖7背景復(fù)雜且有云霧干擾的情況下,SEN方法將大部分的轎車檢測(cè)為皮卡,并且將背景中的屋頂以及地面物體識(shí)別為轎車和露營(yíng)車。YOLO V3和YOLO V5方法則有更多的錯(cuò)誤分類與錯(cuò)誤檢測(cè),尤其是在加入云霧作為遮擋之后,表現(xiàn)更差。TMSI-Net方法的效果顯著,優(yōu)于其他方法,觀察每個(gè)方法在圖6、圖7中的檢測(cè)結(jié)果,可以定性地得出結(jié)論,在遙感小目標(biāo)檢測(cè)的過(guò)程中,缺乏小目標(biāo)的關(guān)鍵特征,受云霧遮擋干擾以及復(fù)雜背景是很多方法誤檢、漏檢的主要原因。
圖7 所有模型的檢測(cè)結(jié)果比較2Fig.7 Comparison of detection results of all models 2
圖8 和圖9 是TMSI-Net、SEN、YOLO V3 和YOLO V5 在VEDAI 數(shù)據(jù)集上的高清局部檢測(cè)結(jié)果比較圖。其中,圖8 是圖6 檢測(cè)結(jié)果的高清局部顯示。在圖8 左下角、圖9 右下角都標(biāo)明了該檢測(cè)結(jié)果所對(duì)應(yīng)的方法。從圖8、圖9中高分辨率局部圖像的檢測(cè)結(jié)果比較來(lái)看,TMSI 算法無(wú)論是在目標(biāo)的定位方面,還是目標(biāo)類別的識(shí)別方面都取得了最好的效果,而其他算法則有較多的錯(cuò)檢、漏檢以及誤檢結(jié)果。圖8 與圖9 中的標(biāo)記是各個(gè)算法在同一幅遙感圖像上的檢測(cè)結(jié)果,該標(biāo)記包括所檢測(cè)出的目標(biāo)的類別,用英文標(biāo)簽標(biāo)注,以及該目標(biāo)所對(duì)應(yīng)的位置,用與該目標(biāo)標(biāo)簽同一顏色的方框進(jìn)行標(biāo)記。TMSI-Net在圖8與圖9中的標(biāo)簽標(biāo)記與真值相同,方框位置也與真值非常接近。
圖6 所有模型的檢測(cè)結(jié)果比較1Fig.6 Comparison of detection results of all models 1
圖8 所有模型的高清局部檢測(cè)結(jié)果比較1Fig.8 Comparison of high-definition local detection results of all models 1
圖9 所有模型的高清局部檢測(cè)結(jié)果比較2Fig.9 Comparison of high-definition local detection results of all models 2
從圖8 結(jié)果比較來(lái)看,YOLO V3 算法以及YOLO V5 算法在轎車(Car)與皮卡(Pickup)的類別識(shí)別方面存在較大誤差。無(wú)論是小目標(biāo)類別還是小目標(biāo)位置,TMSI-Net 與SEN 方法都在圖8 中有優(yōu)異的檢測(cè)表現(xiàn)。在圖9中,所有算法都實(shí)現(xiàn)了對(duì)道路上的兩輛轎車的正確檢測(cè)。而對(duì)于圖像正中央的兩輛卡車(Truck)目標(biāo),除了TMSI算法之外,其他算法在識(shí)別、定位方面都有很大的誤差。SEN方法錯(cuò)誤地將卡車頭識(shí)別為船與轎車,并且僅僅將卡車廂識(shí)別為卡車,在目標(biāo)位置方面也做出了錯(cuò)誤的標(biāo)記。YOLO V3、YOLO V5 方法同樣在卡車目標(biāo)類別判斷與位置標(biāo)記方面都有很大偏差,主要表現(xiàn)為不能將卡車目標(biāo)的車頭與車廂作為一個(gè)整體進(jìn)行檢測(cè)。
圖10 是針對(duì)圖6 中的具體遙感影像在TMSI 算法作用前后的特征圖可視化結(jié)果,該遙感影像來(lái)自于VEDAI-Cloud 數(shù)據(jù)集,即加入云霧干擾之后的遙感圖像。從圖10 中可以發(fā)現(xiàn),在TMSI 算法作用之前,所得到的特征圖受云霧遮擋嚴(yán)重,有的小目標(biāo)直接消失在了圖像中。而在加入TMSI 算法之后,整個(gè)圖像中的云霧與圖像本身之間的差異得到放大,小目標(biāo)所處位置的云霧噪聲更加清晰,淹沒(méi)在云霧噪聲中的小目標(biāo)也重新凸顯。由此可見(jiàn),TMSI 算法中用于匹配的仿真圖像與特征圖進(jìn)行模板匹配算法之后,對(duì)于云霧遮擋情況下小目標(biāo)的檢測(cè)可以提供更多的幾何等特征,最后得到更好的檢測(cè)結(jié)果。
圖10 TMSI算法應(yīng)用前后的特征圖可視化比較Fig.10 Visualization comparison of feature map before and after TMSI algorithm application
在圖11 中通過(guò)可視化的方式比較了TMSI-Net、YOLO V3以及SEN方法的第二個(gè)卷積層通道0的特征圖,第一列是在VEDAI數(shù)據(jù)集下的,第二列是在VEDAICloud 數(shù)據(jù)集下的,從上到下分別是TMSI-Net、SEN、YOLO V3。這三個(gè)方法的網(wǎng)絡(luò)主體都是Darknet-53,所以它們的特征圖具有可比性。如圖11 所示,可以觀察到TMSI-Net 方法的特征圖是三個(gè)模型在VEDAI、VEDAI-Cloud 數(shù)據(jù)集上的所有特征圖中包含小目標(biāo)特征與信息最多的特征圖。將仿真圖像作為模板加入到神經(jīng)網(wǎng)絡(luò)之后,目標(biāo)與背景之的差異得到放大,目標(biāo)可以被更好地檢測(cè)到。YOLO V3 與SEN 方法提取到的小目標(biāo)的關(guān)鍵特征在加入云霧作為干擾之后急劇減少,不利于小目標(biāo)檢測(cè)。與之相反,TMSI-Net 在云霧的干擾之下依然可以提取到足夠多的有效小目標(biāo)特征用于檢測(cè)。從圖11中的定性比較中可以看出仿真圖像作為模板的有效性,以及TMSI-Net 方法在遙感影像小目標(biāo)檢測(cè)任務(wù)中的優(yōu)越表現(xiàn)。
圖11 TMSI-Net、SEN和YOLO V3方法的可視化結(jié)果比較Fig.11 Comparison of visualization results among TMSI-Net,SEN and YOLO V3 methods
針對(duì)遙感影像小目標(biāo)檢測(cè)時(shí)存在提取到的特征不足、檢測(cè)效果差等問(wèn)題,本文提出了一種將仿真圖像作為模板加入到神經(jīng)網(wǎng)絡(luò)的方法,可以使網(wǎng)絡(luò)學(xué)習(xí)到更多的小目標(biāo)特征,提高遙感影像小目標(biāo)檢測(cè)的準(zhǔn)確率。并且,將仿真圖像加入到神經(jīng)網(wǎng)絡(luò)之后,也提高了模型在面對(duì)具有云霧干擾的遙感影像小目標(biāo)時(shí)的檢測(cè)準(zhǔn)確率。在VEDAI、VEDAI-Cloud 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都證明了TMSI算法的有效性與穩(wěn)定性。通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)內(nèi)部神經(jīng)元可視化的過(guò)程,可以清晰地看到TMSI-Net學(xué)習(xí)到了更多的小目標(biāo)特征,并且減弱了背景的干擾。仿真圖像是通過(guò)明確的物理光學(xué)模型生成的,在物理性質(zhì)上是可以解釋的。當(dāng)仿真圖像作為模板加入到神經(jīng)網(wǎng)絡(luò)時(shí),像是一種先驗(yàn)知識(shí)或是常識(shí),指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)與推理,不僅提高了網(wǎng)絡(luò)的準(zhǔn)確率,也提高了網(wǎng)絡(luò)的可解釋性。