何維娟,江 濤,王林飛,徐權(quán)峰,王 欣
(1.云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500; 2.云南大學(xué) 信息學(xué)院,云南 昆明 650091)
近年來(lái),研究人員在圖像識(shí)別[1]開(kāi)發(fā)中做了很多工作。隨著遙感技術(shù)的快速發(fā)展,公開(kāi)的目標(biāo)檢測(cè)數(shù)據(jù)集也變得更多,大大增加了遙感圖像的數(shù)量和質(zhì)量。遙感圖像可以描述空中觀測(cè)的一切物體,如飛機(jī)、油罐、車輛等。但是目前提出的目標(biāo)檢測(cè)圖像數(shù)據(jù)集存在一些普遍的問(wèn)題,大多都是自然場(chǎng)景下的數(shù)據(jù)集。并且這些數(shù)據(jù)集中單類目標(biāo)場(chǎng)景通常很單一,目標(biāo)數(shù)量也較少,對(duì)于特定場(chǎng)景和目標(biāo)的數(shù)據(jù)集并不多見(jiàn),但是這類數(shù)據(jù)集卻是很有價(jià)值的。研究人員廣泛地研究致力于航空?qǐng)D像中的目標(biāo)檢測(cè)[2-8],利用計(jì)算機(jī)視覺(jué)的最新進(jìn)展,并考慮到地球視覺(jué)應(yīng)用的高要求,這些方法中的大多數(shù)[4,8]試圖將針對(duì)自然場(chǎng)景開(kāi)發(fā)的目標(biāo)檢測(cè)算法轉(zhuǎn)移到航空?qǐng)D像領(lǐng)域。此外,目前的目標(biāo)檢測(cè)雖然取得了很大的成功,但是在艦船遙感圖像[9]中卻存在很多難題,從當(dāng)前艦船遙感圖像目標(biāo)檢測(cè)的研究來(lái)看,存在以下幾個(gè)普遍的問(wèn)題:一是艦船目標(biāo)較小,導(dǎo)致艦船占像素點(diǎn)較少;二是艦船的種類多、大小不一,檢測(cè)難度相對(duì)較高;三是艦船圖像的成像受天氣、岸邊建筑和光照等因素的影響引起艦船物體視覺(jué)的改變。
對(duì)于艦船目標(biāo)檢測(cè)和艦船數(shù)據(jù)集的研究已有顯著成果。例如,徐芳[10]提出了一種梯度方向特征方法;余東行等人[11]采用基于頻率域相位譜的多尺度顯著性檢測(cè)方法抑制干擾因素;宋明珠等人[12]針對(duì)難以辨認(rèn)的弱小艦船目標(biāo),設(shè)計(jì)了不同圖像層的權(quán)重,借此合成了基于多類特征的顯著性圖;李健偉等基于深度學(xué)習(xí)的SAR圖像艦船檢測(cè)數(shù)據(jù)集及性能分析提出了SSDD數(shù)據(jù)集;Li等[13]提出了DIOR數(shù)據(jù)集等等。艦船檢測(cè)的傳統(tǒng)方法是基于自動(dòng)識(shí)別系統(tǒng)和艦船特征[14],Li等提出了一種改進(jìn)的空間聚類算法來(lái)識(shí)別艦船的異常行為[15],Zhang等使用AIS數(shù)據(jù)來(lái)識(shí)別碰撞艦船,雖然這些研究都獲得了不錯(cuò)的效果,但是卻普遍存在識(shí)別精度低和檢測(cè)速度低等一系列問(wèn)題,因此,傳統(tǒng)的艦船檢測(cè)難以達(dá)到理想的檢測(cè)效果。近些年,基于深度學(xué)習(xí)的方法在各種圖像識(shí)別中占據(jù)主導(dǎo)地位,基于深度學(xué)習(xí)的方法主要包括兩種:一種是一階段基于回歸的方法,包括SSD[16]、YOLOV1[17]、YOLOV2[18]、YOLOV3[19]等;另一種是兩階段基于區(qū)域建議的方法,包括R-CNN[20]、Fast R-CNN[21]、Faster R-CNN[22](Faster Regions with CNN features)等。
為了更好地解決以上問(wèn)題,該文構(gòu)建一種艦船數(shù)據(jù)集,將其命名為DSTD。從開(kāi)源數(shù)據(jù)集中采集了4 845張圖像,其中包含不同方向、形狀和比例的對(duì)象,共有87 076個(gè)艦船實(shí)例,每個(gè)實(shí)例都由一個(gè)bounding box標(biāo)記。主要貢獻(xiàn)(Contribution)如下:(1)構(gòu)建艦船數(shù)據(jù)集,構(gòu)建的DSTD數(shù)據(jù)集是一組規(guī)模較大的艦船遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集;(2)以DSTD艦船數(shù)據(jù)集為基準(zhǔn),選擇了單次目標(biāo)檢測(cè)的YOLOV3算法和兩次目標(biāo)檢測(cè)R-FCN算法與YOLOV5算法對(duì)該數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比,最終在當(dāng)前幾種主流的目標(biāo)檢測(cè)方法中找到了最適合艦船檢測(cè)的方法:即YOLOV5。
遙感圖像是以航空拍攝為基礎(chǔ),開(kāi)始為航空遙感,隨著遙感數(shù)據(jù)集的發(fā)展,數(shù)據(jù)類型越來(lái)越豐富, 數(shù)據(jù)量也越來(lái)越大,目前而言,遙感圖像數(shù)據(jù)集已經(jīng)有了很好的發(fā)展。
近些年,有許多人熱衷于遙感圖像數(shù)據(jù)集的研究,并公開(kāi)發(fā)表了他們的數(shù)據(jù)集(部分?jǐn)?shù)據(jù)集見(jiàn)表1),這些數(shù)據(jù)集簡(jiǎn)要描述如下:
表1 遙感圖像數(shù)據(jù)集
(1)TAS:TAS數(shù)據(jù)集是用于航空?qǐng)D像里的汽車檢測(cè)。包含30張圖像共1 319個(gè)汽車目標(biāo),圖像的空間分辨率相對(duì)較低。
(2)SZTAKI-INRIA:SZTAKI-INRIA數(shù)據(jù)集包含9張圖像,共665個(gè)建筑目標(biāo),該數(shù)據(jù)集用于對(duì)各種建筑檢測(cè)方法進(jìn)行基準(zhǔn)測(cè)試。
(3)NWPU VHR-10:NWPU VHR-10數(shù)據(jù)集由800張圖片構(gòu)成,有10個(gè)對(duì)象類,其中包括艦船、油罐、飛機(jī)等等。
(4)VEDAI:VEDAI數(shù)據(jù)集由1 210張圖像構(gòu)成,其中含有的目標(biāo)為車輛,分辨率0.12 m,RGB+N(近紅外),尺寸大?。? 024*1 024。
(5)UCAS-AOD:中國(guó)科學(xué)院大學(xué)的實(shí)驗(yàn)成果,UCAS-AOD數(shù)據(jù)集由910張圖像構(gòu)成,其中含有的目標(biāo)為汽車和飛機(jī),還有部分背景樣本。
(6)DLR 3K Vehicle:DLR 3K Vehicle數(shù)據(jù)集由20張航拍圖像,共14 235個(gè)實(shí)例構(gòu)成,這些圖片是用DLR 3K攝像系統(tǒng)拍攝的。
(7)HRSC2016:HRSC2016數(shù)據(jù)集由1 070張圖像構(gòu)成,用于艦船檢測(cè),該數(shù)據(jù)在位置、外觀和形狀等上都有很大的變化。(8)RSOD:武漢大學(xué)團(tuán)隊(duì)標(biāo)注,RSOD數(shù)據(jù)集由976張圖像構(gòu)成,包含6 950個(gè)實(shí)例,有四個(gè)類別,分別為油箱、飛機(jī)、橋和操場(chǎng)。
(9)DOTA:DOTA數(shù)據(jù)集一共有15種土地利用類型,總樣本數(shù)高達(dá)18萬(wàn),包含2 806張圖片,其中含有15個(gè)對(duì)象類別,共計(jì)188 282個(gè)實(shí)例目標(biāo)。
(10)SSDD:SSDD是國(guó)內(nèi)外公開(kāi)的第一個(gè)專門用于SAR圖像艦船目標(biāo)檢測(cè)的數(shù)據(jù)集,SSDD中長(zhǎng)寬比的分布范圍比較廣,從0.4到3,該數(shù)據(jù)集用于艦船檢測(cè)。
(11)DIOR:DIOR數(shù)據(jù)集由20個(gè)類別,23 463張圖像包含190 288個(gè)實(shí)例構(gòu)成,該數(shù)據(jù)集在類別數(shù)量、對(duì)象數(shù)量和圖像數(shù)量都是最大的。
(12)ITCVD:ITCVD數(shù)據(jù)集是由飛機(jī)在高空約330米高度拍攝的,該數(shù)據(jù)集用于車輛檢測(cè)。
(1)R-FCN:R-FCN與Faster R-CNN是一個(gè)派系的,但是與Faster R-CNN比較,R-FCN的速度快得多,并且將部分卷積特征圖的計(jì)算實(shí)現(xiàn)了共享。R-FCN的關(guān)鍵思想:分類需要特征具有平移不變性,檢測(cè)則要求對(duì)目標(biāo)的平移做出準(zhǔn)確響應(yīng);消耗的卷積都盡量移到前面共享的subnetwork上,因此,與Faster RCNN中用的ResNet策略有所不同。
(2)YOLOV3:YOLOV3引入了FPN結(jié)構(gòu)。從YOLOV1和YOLOV2中的Darknet19網(wǎng)絡(luò)升級(jí)到 Darknet-53[23]實(shí)現(xiàn)特征提取,借鑒殘差網(wǎng)絡(luò)[24]的思想,交替使用 3 × 3 與 1 × 1 的卷積神經(jīng)網(wǎng)絡(luò),但該方法借鑒了SSD方法中的多尺度思想,在保留了YOLO系列方法采用單階段網(wǎng)絡(luò)進(jìn)行高幀率檢測(cè)的同時(shí),進(jìn)一步具備了檢測(cè)微小目標(biāo)和多尺度目標(biāo)的能力。它與SSD一樣準(zhǔn)確,但是比Faster R-CNN和SSD檢測(cè)速度更快。
(3)YOLOV5:YOLOV5推理速度是目前最強(qiáng)的,它在YOLOV1-YOLOV4的基礎(chǔ)上進(jìn)行優(yōu)化。為了達(dá)到更快的目標(biāo)檢測(cè)效果,YOLOV5在輸入端采用了Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖片縮放,運(yùn)行速度大大提高,最快的速度達(dá)到每秒140幀,在Backbone中使用了Focus結(jié)構(gòu)和CSP結(jié)構(gòu),針對(duì)Focus結(jié)構(gòu),這種結(jié)構(gòu)的主要操作是切片,目的是最大程度地減少信息損失而進(jìn)行下采樣操作,保證了特征圖的語(yǔ)義多樣性。與YOLOV1-YOLOV4相比,YOLOV5具有更高的準(zhǔn)確率和更好的識(shí)別小物體的能力。
實(shí)驗(yàn)數(shù)據(jù)是由TGRS-HRRSD-Dataset-master、NWPU-VHRdataset、DIOR、DOTA等幾個(gè)開(kāi)源遙感圖像數(shù)據(jù)集構(gòu)成,對(duì)圖片進(jìn)行剪切、修改以及篩選,并通過(guò)標(biāo)注工具labelImg進(jìn)行手動(dòng)標(biāo)注,一共得到了3 900張訓(xùn)練集和954張測(cè)試集,制作了該艦船目標(biāo)遙感數(shù)據(jù)集DSTD(見(jiàn)圖1)。
圖1 DSTD數(shù)據(jù)集部分艦船圖像數(shù)據(jù)示例
數(shù)據(jù)集文件中包括annotation,image兩個(gè)文件,其中annotation包含4 854個(gè)txt文件,是使用開(kāi)源工具 LabelImg對(duì)DSTD進(jìn)行人工標(biāo)注,生成后綴為.txt的文件,每個(gè)txt文件主要為目標(biāo)艦船的bounding box,格式為x1,y1,x2,y2,其中(x1,y1)與(x2,y2)分別是艦船bounding box的左上角坐標(biāo)和右下角坐標(biāo)。在訓(xùn)練數(shù)據(jù)集之前,需要對(duì)數(shù)據(jù)通過(guò)人工標(biāo)記標(biāo)簽,這是非常費(fèi)時(shí)費(fèi)力的步驟,因此要獲得訓(xùn)練數(shù)據(jù)集變得非常困難。
DSTD遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集有以下顯著特征:
(1)針對(duì)性強(qiáng)、規(guī)模較大。DSTD數(shù)據(jù)集由4 854張最優(yōu)艦船遙感圖像和87 076個(gè)艦船目標(biāo)實(shí)例組成,該數(shù)據(jù)是從開(kāi)源數(shù)據(jù)集中采集的。針對(duì)目前的遙感圖像數(shù)據(jù)集,DSTD針對(duì)性很強(qiáng),只有艦船遙感圖像并且在圖像數(shù)量和目標(biāo)數(shù)量上規(guī)模都較大,進(jìn)一步提高了水上目標(biāo)檢測(cè)技術(shù)水平。
(2)目標(biāo)尺寸變化大。目標(biāo)尺寸變化是目標(biāo)檢測(cè)的一個(gè)重要特征,因?yàn)樗鼘?duì)圖像的分辨率有很大影響,在DSTD數(shù)據(jù)集,艦船的大小變化范圍較大,為了增加目標(biāo)的尺寸變化,該數(shù)據(jù)集收集了分辨率不同的圖像,兩張艦船圖片的目標(biāo)大小與數(shù)量均有較大差異。
(3)圖片變化大。對(duì)于目標(biāo)檢測(cè)而言,需要圖像具有較好的魯棒性,DSTD數(shù)據(jù)集就是在不同天氣、不同成像條件、不同水上環(huán)境下?lián)碛胸S富的圖像變化,因此DSTD數(shù)據(jù)集在光照、物體姿態(tài)和背景等方面都有豐富的變化,從而具有一定的魯棒性。
(4)類內(nèi)多樣性高。為了增加類內(nèi)多樣性,在收集艦船數(shù)據(jù)時(shí),考慮了艦船比例、顏色、大小等因素,因此DSTD數(shù)據(jù)集具有較高的類內(nèi)多樣性。
在這一節(jié)中,用DSTD數(shù)據(jù)集訓(xùn)練了幾種經(jīng)典目標(biāo)檢測(cè)方法的性能,驗(yàn)證了該數(shù)據(jù)集的可行性,同時(shí)找到了最適合艦船的檢測(cè)方法:即YOLOV5。進(jìn)一步進(jìn)行實(shí)驗(yàn)分析并討論了驗(yàn)證集上的可視化結(jié)果。
為保證進(jìn)行實(shí)驗(yàn)時(shí)訓(xùn)練和測(cè)試數(shù)據(jù)分布的相似性,在4 854張DSTD艦船遙感圖像中,隨機(jī)獲得3 900幅艦船圖像當(dāng)作訓(xùn)練集,剩下的954幅圖片當(dāng)作測(cè)試集(見(jiàn)表2)。由于每幅圖片至少包含一艘艦船,有的一幅圖片包含多艘艦船,因此,艦船目標(biāo)數(shù)量不等于總的圖片數(shù)。
表2 艦船目標(biāo)數(shù)據(jù)集
該文使用python語(yǔ)言進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)使用的操作系統(tǒng)為Red Hat 4.8.5-39,其中,處理器型號(hào)為Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10 GHz,顯卡型號(hào)為 GeForce GTX 1080,采用 NVIDIA CUAD11.0 加速工具箱。具體配置如表 3 所示。
表3 實(shí)驗(yàn)環(huán)境
除了特別說(shuō)明以外,對(duì)于YOLOV5算法在DSTD數(shù)據(jù)集的訓(xùn)練階段使用的其他部分實(shí)驗(yàn)參數(shù)如表 4 所示。
表4 實(shí)驗(yàn)參數(shù)設(shè)置
在YOLOV5算法下,訓(xùn)練階段設(shè)置 batch為64,輸入圖像為640×640,初始階段學(xué)習(xí)率為 0.004 7,結(jié)束學(xué)習(xí)率為0.000 044 7,訓(xùn)練迭代次數(shù)為300,loss 值穩(wěn)定在0.105 左右,訓(xùn)練過(guò)程得到正常收斂效果,Loss曲線如圖2所示。
圖2 損失值函數(shù)
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)主要是驗(yàn)證實(shí)驗(yàn)結(jié)果好壞的一種評(píng)比方法,該文選擇的評(píng)價(jià)指標(biāo)為:精準(zhǔn)率、召回率、平均精度和幀率。
(1)精準(zhǔn)率(Precision,P)和召回率(Recall,R)。
其中,P是艦船的精準(zhǔn)率,Ntp是準(zhǔn)確檢測(cè)艦船的數(shù)量,Nfp是錯(cuò)誤檢測(cè)艦船的數(shù)量,R是艦船的召回率,Nfn是將艦船誤檢為背景的數(shù)量。
(2)平均精度(mean Average Precision,mAP)。
其中,mAP表示多類別精度。
(3)幀率(FPS):目標(biāo)檢測(cè)中每秒鐘能夠檢測(cè)的圖片數(shù)量,用該指標(biāo)評(píng)價(jià)目標(biāo)檢測(cè)的速度。
為了驗(yàn)證YOLOV5算法在DSTD艦船遙感圖像的檢測(cè)性能,另外選了2種目標(biāo)檢測(cè)方法作為對(duì)比,這兩種方法都是目前在深度學(xué)習(xí)中很有效的方法,一種為基于區(qū)域建議的方法:R-FCN,另一種為基于回歸的方法:YOLOV3。在進(jìn)行R-FCN、YOLOV3模型的訓(xùn)練時(shí),使用官方代碼和默認(rèn)參數(shù)。使用YOLOV3、R-FCN和YOLOV5對(duì)數(shù)據(jù)集訓(xùn)練300次Batches。
三種算法在DSTD數(shù)據(jù)集上的精度、速度和召回率的對(duì)比如表5和圖3所示。圖3為三種算法的mAP圖像對(duì)比,其中YOLOV5、R-FCN、YOLOV3的圖像依次向下。YOLOV5目標(biāo)檢測(cè)算法在檢測(cè)時(shí)間上每張圖片大約花費(fèi)0.005 4 s,YOLOV3算法檢測(cè)一張圖片需要0.014 2 ms,R-FCN算法檢測(cè)一張圖片需要0.056 5 ms,YOLOV5的檢測(cè)速度是最快的。在檢測(cè)精度方面,YOLOV5的檢測(cè)精度為99.4%,YOLOV3的檢測(cè)精度為81.2%,R-FCN的檢測(cè)精度為86.2%,YOLOV5比YOLOV3和R-FCN的檢測(cè)精度提高了22.4%和18.8%。R-FCN的召回率為92.3%,YOLOV3的召回率為87.2%,YOLOV5的召回率為99.2%,YOLOV5較R-FCN及YOLOV3提高了7.5%和13.8%。
圖3 三種算法mAP對(duì)比結(jié)果
表5 實(shí)驗(yàn)對(duì)比結(jié)果
對(duì)比YOLOV3和R-FCN,YOLOV5能夠保持較高分辨率的主要原因是具有較強(qiáng)的語(yǔ)義信息,具有開(kāi)闊的感受野,YOLOV5中的Mosaic數(shù)據(jù)增強(qiáng),隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布的方式進(jìn)行拼接等,提高了對(duì)艦船小目標(biāo)的檢測(cè)能力。YOLOV5在保持一定精度的同時(shí)檢測(cè)速度最快,所以YOLOV5對(duì)艦船遙感圖像檢測(cè)效果最好。
該文構(gòu)建了一種規(guī)模較大、艦船目標(biāo)較多的DSTD艦船遙感圖像數(shù)據(jù)集。該數(shù)據(jù)集可以幫助水上艦船目標(biāo)檢測(cè)有進(jìn)一步的發(fā)展,并且利用構(gòu)建的數(shù)據(jù)集對(duì)基于深度學(xué)習(xí)的方法進(jìn)一步探索和驗(yàn)證。對(duì)三種具有代表性的目標(biāo)檢測(cè)方法的性能進(jìn)行了評(píng)價(jià),最終在當(dāng)前幾種主流的檢測(cè)方法中發(fā)現(xiàn)了最適合艦船遙感圖像檢測(cè)的方法,即YOLOV5。將 YOLOV5應(yīng)用到遙感艦船檢測(cè)領(lǐng)域中,更好地實(shí)現(xiàn)了DSTD目標(biāo)的檢測(cè)。YOLOV5雖然效果很好,但是網(wǎng)絡(luò)在目標(biāo)框構(gòu)建的時(shí)候存在明顯的不足,使得模型完美地屏蔽了一些小目標(biāo)的訓(xùn)練,原因是通過(guò)比較目標(biāo)框和錨框的比例,過(guò)濾掉了一部分錨框比例差距較大的目標(biāo)框,訓(xùn)練不好,并且進(jìn)行過(guò)濾。該實(shí)驗(yàn)結(jié)果可作為今后研究艦船目標(biāo)檢測(cè)的一個(gè)有用性能。