黃金 付發(fā) 趙娜
摘 要:近年來深度學習在機器視覺領(lǐng)域應用非常成功,在圖像的目標檢測方面已經(jīng)超越了人類。隨著遙感技術(shù)向民用發(fā)展,遙感圖像數(shù)據(jù)的研究和應用價值越來越大。文章利用深度學習的SSD卷積神經(jīng)網(wǎng)絡,對遙感圖像中感興趣的目標進行檢測。遙感圖像有包含信息多、目標較小且背景復雜等特點,針對遙感圖像的特點,選取不同尺度的特征圖進行融合,并對網(wǎng)絡進行微調(diào),提高檢測精度。
關(guān)鍵詞:深度學習;目標檢測;遙感圖像;卷積神經(jīng)網(wǎng)絡
深度學習是人工智能的重要部分,隨著人工智能的發(fā)展受到世人的矚目。神經(jīng)網(wǎng)絡是深度學習的具體表現(xiàn),它是由數(shù)量眾多的神經(jīng)元組成的一個多層的神經(jīng)網(wǎng)絡。深度學習在機器視覺領(lǐng)域有廣泛的應用,目標檢測是機器視覺的重要研究內(nèi)容。基于深度學習的目標檢測技術(shù)是利用卷積神經(jīng)網(wǎng)絡[1],自動學習檢測目標的特征并對目標進行識別。在世界各大比賽和應用中證明了它在目標檢測領(lǐng)域的強大能力。
隨著遙感技術(shù)的發(fā)展,它從軍事領(lǐng)域發(fā)展到民用領(lǐng)域。在城市規(guī)劃、資源調(diào)查、環(huán)境監(jiān)測等方面有著很大的發(fā)揮空間。遙感圖像有著尺寸大、背景復雜、目標多且小等特點,在遙感圖像中進行目標檢測有著很多難度。為此,本文采用的經(jīng)典的卷積神經(jīng)網(wǎng)絡[2](Single Shot MultiBox Detector,SSD),相比其他基于神經(jīng)網(wǎng)絡的目標檢測算法,具有速度快、準確性高、魯棒性強等特點。但對小目標的檢測不足,應用在遙感圖像上的效果不好,本文對此網(wǎng)絡作出改進以適應其在遙感圖像上的應用。實驗結(jié)果表明,調(diào)整后的網(wǎng)絡檢測效果不錯,平均檢測精度(mean Average Precision,mAP)達到0.819。
1 理論方法
SSD是一個單次深度神經(jīng)網(wǎng)絡,結(jié)合Faster-RCNN[3]和YOLO[4]的優(yōu)點,使用單一的網(wǎng)絡結(jié)構(gòu),并對整張圖進行特征提取,和區(qū)域網(wǎng)絡結(jié)構(gòu)不同(沒有類似RPN的額外網(wǎng)絡結(jié)構(gòu))。最終的檢測性能卻超越了它們,以300×300的輸入在VOC2007數(shù)據(jù)測試中,以59Fps的速度達到74.3%的 mAP。
SSD模型:SSD網(wǎng)絡由前后兩部分構(gòu)成。前面是用于特征提取的卷積神經(jīng)網(wǎng)絡,我們稱它為基礎(chǔ)網(wǎng)絡,后面部分是尺寸大小逐漸減小的卷積層,稱它為額外網(wǎng)絡。網(wǎng)絡結(jié)構(gòu)如圖1所示。
SSD的輸入是300×300×3的圖像?;A(chǔ)網(wǎng)絡使用截斷的VGG[5]網(wǎng)絡,對目標圖像進行初步的特征提取。額外網(wǎng)絡以基礎(chǔ)網(wǎng)絡的輸出作為輸入且尺寸逐漸減小,最后選取不同尺寸的特征圖進行預測。在訓練過程中,SSD算法會對默認框和真實框進行匹配,選取Jaccard值最大或者Jaccard值大于0.5的默認框。SSD在檢測時會產(chǎn)生大量的默認框,為了消除重復沒用的默認框,使用了非極大值抑制算法。
2 實驗過程
2.1 實驗數(shù)據(jù)和平臺
本次實驗的數(shù)據(jù)集總共有1 510張高分辨率遙感圖像,分為汽車和飛機兩類,汽車510張,飛機1 000張。把數(shù)據(jù)按訓練集、驗證集、測試集分為三大塊,各占比例為70%,10%,20%。具體劃分如表1所示。
相比于普通的圖片,遙感圖片尺寸較大,所包含的信息較多,目標在圖像中占比較小,屬于小目標,如圖2所示。
實驗配置:kears框架,后端為Tensorflow,顯卡為NAVIDA tesla k20,內(nèi)存為32 G,處理器:Genuine Intel(R)CPU 2.40 GHz,操作系統(tǒng)為Ubuntu16.04。
2.2 實驗過程與結(jié)果
SSD卷積神經(jīng)網(wǎng)絡由基礎(chǔ)網(wǎng)絡和額外網(wǎng)絡組成。在本次實驗中,使用截斷的VGG16作為基礎(chǔ)網(wǎng)絡用于對圖像進行初步的特征提取。VGG16卷積神經(jīng)網(wǎng)絡是一個經(jīng)典的網(wǎng)絡,網(wǎng)絡結(jié)構(gòu)簡單,卷積核大小是固定的3×3。額外網(wǎng)絡是一個尺度不斷變小的卷積神經(jīng)網(wǎng)絡,在基礎(chǔ)網(wǎng)絡產(chǎn)生的特征圖上進行特征提取。
在卷積神經(jīng)網(wǎng)絡模型中,不同尺度上的特征圖所表示的感受野不同,靠近底部的特征層提取的是局部、通用的特征,例如邊緣、顏色、紋理等特征;而靠近頂部的特征圖提取的是抽象的特征,所包含的細節(jié)信息少,對小目標的檢測效果不足。為了提高檢測率,我們抽取不同層的特征進行特征融合用于最后的檢測。表2展示了抽取的特征層的輸出尺度和連接該層的上一層。每一層提取的特征圖尺寸大小不同、逐步減小,從底層具體的特征到高層抽象的特征都包含在內(nèi),適應不同尺度的目標以提高準確率。
本文對SSD的損失函數(shù)進行調(diào)整,默認損失函數(shù)的α=1,定位損失和置信損失在最后的總損失占比相同。提高定位損失在總損失中的占比,側(cè)重卷積神經(jīng)網(wǎng)絡的目標位置提取。相應,我們降低Jaccard值,提高小目標的檢測率。經(jīng)過調(diào)整,我們使用mAP來對模型進行評估。實驗結(jié)果如表3所示。
從表3可以看出,飛機的精度高于汽車,原因是在遙感圖像中飛機相比汽車目標要大,在圖像中屬于易區(qū)分的目標。汽車在圖像中占比很小,且與周邊環(huán)境相似度高不易區(qū)分,給檢測增加了難度。圖3展示了兩張不同類別的檢測結(jié)果,左邊是飛機、右邊是汽車。可以看出置信度較低,是因為在訓練期間調(diào)整了損失函數(shù)。
3 結(jié)語
本文主要探究深度學習中的SSD卷積神經(jīng)網(wǎng)絡在遙感圖像上的應用。對遙感圖像中的汽車和飛機兩類進行檢測,平均準確率為81.9%。結(jié)果表明,深度學習在遙感圖像上的應用具有可行性且效果不錯。由于訓練的圖片尺寸較大,與SSD網(wǎng)絡輸入大小相差太大,在特征提取的時候會把一些小特征忽略,使遙感圖像中的小目標不易被檢測到。以后的工作可以針對小目標進行,對遙感圖像進行預處理并且調(diào)整網(wǎng)絡結(jié)構(gòu),提升小目標檢測率。
[參考文獻]
[1]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].Vancouver:International Conference on Neural Information Processing Systems,2012:1097-1105.
[2]LIU W,ANGUELOV D,ERHAN D,et al.SSD: single shot multibox detector[C].Cham:European Conference on Computer Vision,2016:21-37.
[3]REN S,HE K,GIRSHICK R,et al.Faster R-CNN: towards real-time object detection with region proposal networks[C].Turkey:International Conference on Neural Information Processing Systems,2015:91-99.
[4]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified,real-time object detection[C].Las Vegas:Computer Vision and Pattern Recognition,2016:779-788.
[5]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].International Journal of Computer Vision,2014(3):211-252.
[6]周敏,史振威,丁火平.遙感圖像飛機目標分類的卷積神經(jīng)網(wǎng)絡方法[J].中國圖象圖形學報,2017(5):702-708.