国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感影像分析綜述

2023-11-02 12:33田啟川吳施瑤馬英楠
關(guān)鍵詞:檢索卷積分類

田啟川 吳施瑤 馬英楠

1(北京建筑大學(xué)電氣與信息工程學(xué)院 北京 100044)

2(北京建筑大學(xué)建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室 北京 100044)

3(北京城市系統(tǒng)工程研究中心 北京 100048)

0 引 言

光學(xué)遙感影像識(shí)別是遙感技術(shù)應(yīng)用的一個(gè)重要環(huán)節(jié),是使用特定算法從遙感影像中提取特征并判斷感興趣的目標(biāo)在圖像上的差異,識(shí)別其類別屬性。光學(xué)遙感影像識(shí)別常應(yīng)用于環(huán)境監(jiān)測(cè)、礦產(chǎn)勘查、城市規(guī)劃與建設(shè)、搶險(xiǎn)救災(zāi)等方面。21世紀(jì)以來,遙感技術(shù)的發(fā)展使得遙感圖像的分辨率越來越高,其中地物細(xì)節(jié)更加清晰,光譜特征更加復(fù)雜。傳統(tǒng)的遙感影像識(shí)別算法主要依賴主觀提取的特征,基于這些特征進(jìn)行分類的方法,有支持向量機(jī)[1]、決策樹[2]、主成分分析法[3]等。這些方法易受圖像噪聲干擾,浪費(fèi)大量時(shí)間在選取特征和調(diào)整閾值上,且泛化能力不夠,已不適合處理大量復(fù)雜特征。

近年來卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)活躍于計(jì)算機(jī)視覺領(lǐng)域,在圖像分類、檢測(cè)和檢索等多類圖像分析任務(wù)有所應(yīng)用。基于CNN在圖像特征處理方面的優(yōu)秀表現(xiàn),遙感影像識(shí)別也逐漸向CNN方向發(fā)展,一些研究人員將其推廣到遙感圖像分類、檢測(cè)和檢索方面。利用CNN自動(dòng)提取多層次特征信息的優(yōu)勢(shì),有效識(shí)別高分辨率遙感圖像中復(fù)雜的地物信息,可以提升識(shí)別精度和增強(qiáng)泛化能力,從而推動(dòng)遙感圖像智能化解譯的發(fā)展。

國(guó)內(nèi)對(duì)光學(xué)遙感影像識(shí)別進(jìn)行綜述的文獻(xiàn),一種是作為圖像識(shí)別綜述中的一部分內(nèi)容,多為簡(jiǎn)單列舉光學(xué)遙感影像研究成果,總結(jié)不全面[4]。另一種雖然圍繞遙感影像識(shí)別方法進(jìn)行全面的綜述,但多為介紹機(jī)器學(xué)習(xí)方法的大方向,沒有具體分析卷積神經(jīng)網(wǎng)絡(luò)在遙感影像中的研究成果[5]。并且,對(duì)于涉及基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感影像算法綜述,大多數(shù)只針對(duì)遙感影像應(yīng)用的某一類的方法進(jìn)行綜述,缺乏系統(tǒng)地總結(jié)不同應(yīng)用背景的遙感影像訓(xùn)練算法。

因此,本文從場(chǎng)景分類、目標(biāo)檢測(cè)和圖像檢索三個(gè)遙感影像的重要應(yīng)用背景,對(duì)以CNN為研究網(wǎng)絡(luò)的光學(xué)遙感影像算法進(jìn)行具體綜述研究,介紹了相關(guān)數(shù)據(jù)集和目前的研究成果,對(duì)各類算法進(jìn)行對(duì)比分析,最后對(duì)該領(lǐng)域的發(fā)展方向進(jìn)行展望。

1 遙感影像識(shí)別的發(fā)展

1.1 光學(xué)遙感影像

遙感影像是利用衛(wèi)星和飛行器通過不同方式采集到的圖像,采集方式有航空攝影、航空掃描和微波雷達(dá)三種。航空攝影是通過光學(xué)成像,這類遙感影像分辨率較高,適合用于識(shí)別研究。光學(xué)遙感影像有以下幾個(gè)特點(diǎn),同時(shí)產(chǎn)生了遙感影像研究中面臨的問題。

(1) 多模的遙感信息。大多數(shù)的對(duì)地觀測(cè)衛(wèi)星同時(shí)提供了圖像信息和光譜信息,單從視覺上看,獲得的圖像與實(shí)際情況可能會(huì)完全不同。這是一個(gè)具有潛力的挑戰(zhàn),如果能更好地融合多模態(tài)信息,可以促進(jìn)識(shí)別精度的提高,擴(kuò)大遙感圖像識(shí)別的應(yīng)用領(lǐng)域。

(2) 大數(shù)據(jù)的遙感信息。近年來,“遙感30號(hào)6組”“高分二號(hào)”“天繪二號(hào)”等遙感衛(wèi)星相繼發(fā)射,采集了海量高質(zhì)量遙感圖像,推動(dòng)地理測(cè)繪、海洋和氣候氣象觀測(cè)、城市管理等領(lǐng)域的應(yīng)用發(fā)展。采集的遙感圖像分辨率越來越高,地物的幾何結(jié)構(gòu)、位置布局和紋理尺寸越來越清晰,圖像背景越來越復(fù)雜,精度識(shí)別的難度增加。

(3) 定位的遙感信息。普通圖像直接從特征中獲取圖像的解譯信息,如識(shí)別街道上的汽車和行人。而遙感數(shù)據(jù)的每個(gè)像素都是一個(gè)空間坐標(biāo),這有利于影像信息與其他來源獲取的數(shù)據(jù)進(jìn)行融合。因此,遙感影像特征提取后需要配合經(jīng)緯度等具體地理信息才可以應(yīng)用在實(shí)際項(xiàng)目中。

傳統(tǒng)的遙感影像識(shí)別方法需要人工提取圖像特征,在圖像預(yù)處理和特征提取的過程中會(huì)遺失許多有效信息,導(dǎo)致識(shí)別精度不穩(wěn)定,魯棒性不高。CNN算法能夠解決傳統(tǒng)方法難以有效提升的問題,有能力對(duì)海量數(shù)據(jù)的進(jìn)行處理,自動(dòng)提取多層次和多維度的復(fù)雜圖像特征,可以快速和直接地從遙感圖像中獲得有效的特征信息。

1.2 基于經(jīng)典網(wǎng)絡(luò)模型的遙感影像識(shí)別

近年來,CNN模型在計(jì)算機(jī)視覺上的優(yōu)異表現(xiàn)促進(jìn)其不斷發(fā)展,延伸出一些經(jīng)典的網(wǎng)絡(luò)模型。研究人員將它們用于遙感影像識(shí)別的研究,這些模型為遙感影像識(shí)別研究做出了許多杰出的貢獻(xiàn)。下面分析經(jīng)典網(wǎng)絡(luò)模型的特點(diǎn)和缺陷,并舉例基于經(jīng)典的網(wǎng)絡(luò)模型的遙感影像研究成果。

(1) LeNet-5是Yann LeCun成功搭建了第一個(gè)卷積神經(jīng),為后來卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)[6]。2016年,曲景影等[7]對(duì)LeNet-5網(wǎng)絡(luò)進(jìn)行改進(jìn)并用于對(duì)遙感圖像目標(biāo)識(shí)別。該算法在LeNet-5網(wǎng)絡(luò)基礎(chǔ)上采用卷積展開方法,把Sigmoid和Tanh激活函數(shù)換成ReLU激活函數(shù),在遙感圖像上的分類準(zhǔn)確率達(dá)到91.2%。但LeNet-5網(wǎng)絡(luò)只局限于小規(guī)模的數(shù)據(jù)處理問題,網(wǎng)絡(luò)寬度和深度的加深都無法在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)良好的效果,無法在大數(shù)據(jù)遙感圖像識(shí)別上取得更優(yōu)秀的成績(jī)。

(2) AlexNet模型采用雙GPU并行運(yùn)行,提出了ReLU激活函數(shù),擴(kuò)大數(shù)據(jù)集[8]。另外,模型使用Dropout正則化方法減少局部神經(jīng)元之間的連接,利用重疊池化等方法防止過擬合情況的發(fā)生。王鑫等[9]在AlexNet模型基礎(chǔ)上設(shè)計(jì)一個(gè)七層CNN模型進(jìn)行遙感圖像分類。特征圖通過第五層池化后進(jìn)行PCA降維和最后兩個(gè)全連接層輸出,得到三種高層特征進(jìn)行融合,基于邏輯回歸分類器對(duì)圖像進(jìn)行分類。在UCNerced_LandUse遙感圖像數(shù)據(jù)集上的準(zhǔn)確率達(dá)到95.7%。Chen等[10]提出了一種新的全卷積網(wǎng)絡(luò)。它只由稀疏連接的層組成,可以減少參數(shù)數(shù)量且緩解過擬合問題。在MSTAR數(shù)據(jù)集上,A-ConvNets對(duì)10類目標(biāo)的檢測(cè)平均準(zhǔn)確率達(dá)到99%。AlexNet模型網(wǎng)絡(luò)層數(shù)較少,結(jié)構(gòu)簡(jiǎn)單,對(duì)深層特征提取的能力有限,但它為后續(xù)的研究提供了許多新的思路。

(3) VGG模型利用小卷積將網(wǎng)絡(luò)深度延伸至11至19層,并采用多尺度(Multi-Scale)訓(xùn)練方式[11]。Tang等[12]對(duì)VGGNet進(jìn)行改進(jìn),提出一種將像素級(jí)和區(qū)域級(jí)相結(jié)合的遙感影像目標(biāo)顯著性檢測(cè)方法。該模型使用多尺度特征學(xué)習(xí),預(yù)測(cè)遙感圖像的像素顯著性。Wei等[13]基于VGG結(jié)構(gòu)設(shè)計(jì)了一種道路結(jié)構(gòu)細(xì)化卷積神經(jīng)網(wǎng)絡(luò)(RSRCNN)以提取航空?qǐng)D像中的道路。RSRCNN結(jié)構(gòu)中包含了反卷積層和融合層,并設(shè)計(jì)了基于道路特征信息的交叉熵?fù)p失函數(shù)。Lin等[14]提出了一種基于HOG和深度學(xué)習(xí)特征的飛機(jī)識(shí)別方法。首先采用SVM分類器對(duì)圖像中的飛機(jī)位置粗略定位,再利用VGGNet模型進(jìn)行精確定位,排除識(shí)別錯(cuò)誤的區(qū)域。測(cè)試中,對(duì)飛機(jī)定位的精確率達(dá)到99.7%,識(shí)別精度為98.1%。VGGNet模型在遙感圖像研究的表現(xiàn)良好。但由于VGGNet模型自身計(jì)算量大的缺陷,使得訓(xùn)練效率無法提高,這是早期CNN模型的通病。針對(duì)這一問題,之后研究人員設(shè)計(jì)了許多新型的CNN模型,有效提高了遙感圖像識(shí)別的效率問題。

(4) GoogLeNet模型設(shè)計(jì)了Inception結(jié)構(gòu)[15]。創(chuàng)新點(diǎn)是使用多尺度特征融合,使用平均池化層取代全連接層,增加兩個(gè)輔助的softmax用于向前傳導(dǎo)梯度。Inception結(jié)構(gòu)如圖1所示。Castelluccio等[16]采用GoogLeNet模型,對(duì)目標(biāo)數(shù)據(jù)微調(diào)來預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行遙感圖像的場(chǎng)景分類任務(wù)。該算法對(duì)UCMerced土地使用數(shù)據(jù)集和巴西咖啡場(chǎng)景數(shù)據(jù)集進(jìn)行場(chǎng)景分類,準(zhǔn)確率分別達(dá)到97.10%和91.83%。但GoogLeNet模型在網(wǎng)絡(luò)寬度和深度增加的同時(shí),淺層的梯度值變小,隨之帶來新的問題——梯度消失。而且由于網(wǎng)絡(luò)復(fù)雜度的增加導(dǎo)致參數(shù)數(shù)量的增加,優(yōu)化參數(shù)的難度隨之增加,簡(jiǎn)單地增加層數(shù)和寬度只能產(chǎn)生更大的訓(xùn)練誤差而非提升精度。

圖1 Inception結(jié)構(gòu)

(5) ResNet模型設(shè)計(jì)了殘差模塊,增加一個(gè)恒等映射(Identity mapping),并用網(wǎng)絡(luò)主線路之外的一條分支連接[17]。殘差模塊結(jié)構(gòu)如圖2所示。在遙感圖像應(yīng)用中,Zhang等[18]提出一種端到端遠(yuǎn)程圖像分類方法,側(cè)重于恢復(fù)像素級(jí)和原始特征的詳細(xì)信息。該方法的設(shè)計(jì)思路是將U-Net和ResNet結(jié)構(gòu)相結(jié)合,重點(diǎn)提高特征質(zhì)量而不增加標(biāo)簽。Scott等[19]基于ResNet模型,利用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)相結(jié)合的方法分類遙感圖像。ResNet模型的優(yōu)勢(shì)在于增強(qiáng)了網(wǎng)絡(luò)層之間的信息傳遞,優(yōu)化了CNN模型不斷加深而網(wǎng)絡(luò)性能退化的問題,但新增的恒等映射結(jié)構(gòu)在分支上的特征較少。

圖2 殘差模塊結(jié)構(gòu)

(6) DenseNet模型是根據(jù)隨機(jī)深度的思想進(jìn)一步提出的[20]。DenseNet模型是在ResNet模型基礎(chǔ)上,通過捷徑將所有層直接連接起來,使得每一層均能獲得前面所有層的特征圖,強(qiáng)化了特征在層間的關(guān)聯(lián)性,且為了在特征融合上保證信息流通,采用拼接的方式。張靜等[21]提出一種基于多尺度信息融合的遙感圖像語義分割算法。基于DenseNet模型進(jìn)行編碼,利用短解碼器進(jìn)行不同層次特征融合,以分層監(jiān)督網(wǎng)絡(luò)模型監(jiān)督網(wǎng)絡(luò)訓(xùn)練。但DenseNet隨網(wǎng)絡(luò)層加深,會(huì)帶來特征寬度不斷加大的問題。

(7) SeNet模型提出一個(gè)新的結(jié)構(gòu)模塊“SE Block”[22]。SeNet模塊結(jié)構(gòu)如圖3所示。該模型沒有引入新的空間維度,利用全局信息有選擇的增強(qiáng),以達(dá)到特征通道自適應(yīng)學(xué)習(xí)。Yang等[23]通過美國(guó)航空?qǐng)D像探測(cè)建筑物,對(duì)CNN網(wǎng)絡(luò)進(jìn)行評(píng)估。相比全卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),支持語義像素級(jí)標(biāo)記的SegNet對(duì)NAIP圖像處理效果最佳,在精確度和速度上都有著不錯(cuò)的成績(jī)。

圖3 SeNet模塊結(jié)構(gòu)

(8) MobileNet模型是一個(gè)可以在移動(dòng)端使用的網(wǎng)絡(luò)模型[24]。它采用深度可分離卷積[25]替代傳統(tǒng)卷積,以達(dá)到減少參數(shù)數(shù)量和提升運(yùn)算速度的目的。孫皓澤等[26]以MobileNet模型為基礎(chǔ),提出一種檢測(cè)裝甲目標(biāo)的方法。該方法與經(jīng)典SSD目標(biāo)檢測(cè)方法精度相當(dāng),且模型大小降低,運(yùn)行速度加快。MobileNet模型參考ResNet模型的殘差結(jié)構(gòu),提出倒置殘差結(jié)構(gòu),升級(jí)為MobileNet V2模型。喬夢(mèng)雨等[27]提出一種基于MobileNetV2模型的輕量級(jí)CNN算法,對(duì)遙感陸戰(zhàn)目標(biāo)進(jìn)行識(shí)別。設(shè)計(jì)思路是采用ELU函數(shù)和全局池化緩解梯度消失和控制參數(shù)的數(shù)量,提高了模型的泛化能力。

表1給出了基于UCM遙感數(shù)據(jù)集的CNN模型性能對(duì)比??梢钥闯鲆晃对黾由疃群蛯挾炔⒉荒苁沟镁W(wǎng)絡(luò)性能有效提升;新模塊的添加促進(jìn)了特征間的關(guān)聯(lián)性,使得精度提高,但隨之帶來運(yùn)行速度下降的問題;輕量級(jí)的小網(wǎng)絡(luò)的訓(xùn)練精度雖然不高,但計(jì)算空間和成本大大降低,使得CNN模型朝便攜的移動(dòng)端發(fā)展,是一個(gè)很有潛力的發(fā)展方向。

表1 基于UCM數(shù)據(jù)集的CNN模型性能對(duì)比

2 基于光學(xué)遙感影像的場(chǎng)景分類研究

圖像場(chǎng)景分類是通過對(duì)給定圖像中的信息進(jìn)行整體圖像的類型判斷。遙感場(chǎng)景分類是指對(duì)遙感影像類型進(jìn)行劃分,并貼上標(biāo)簽,應(yīng)用在功能區(qū)分別、城市規(guī)劃、土地資源管理等多個(gè)領(lǐng)域。遙感場(chǎng)景圖像分類綜合了計(jì)算機(jī)視覺、模式識(shí)別和遙感技術(shù)等多類學(xué)科知識(shí),是大數(shù)據(jù)遙感領(lǐng)域的一個(gè)重要研究方向。

2.1 數(shù)據(jù)集

算法的研究需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練和檢測(cè),目前常用于遙感場(chǎng)景分類研究的公開數(shù)據(jù)集有以下幾種:

(1) UC Merced數(shù)據(jù)集:由Yang和Newsam從美國(guó)地質(zhì)調(diào)查局的美國(guó)地區(qū)土地利用遙感影像中采集的不同區(qū)域影像。圖像分辨率為0.3 m,像素大小為256×256。包含海灘、港口、立交橋等共21類土地利用場(chǎng)景圖像,每一類有100幅,共2 100幅。

(2) WHU-RS數(shù)據(jù)集:由武漢大學(xué)實(shí)驗(yàn)室從Google Earth影像中采集的不同分辨率的遙感影像,圖像像素大小為600×600,總包含19類場(chǎng)景圖像,每一類大概50幅,共1 005幅。

(3) AID數(shù)據(jù)集:于2017年由武漢大學(xué)和華中科技大學(xué)發(fā)布,是一個(gè)遙感影像數(shù)據(jù)集,圖像像素大小為600×600,總包含30類場(chǎng)景圖像,每一類大概220~420幅,共10 000幅。

(4) RSSCN7數(shù)據(jù)集:遙感影像像素大小為400×400,有4類自然場(chǎng)景和3類人類生活場(chǎng)景,包含7類場(chǎng)景圖像,每一類有400幅,共2 800幅。

2.2 遙感場(chǎng)景分類發(fā)展

早期的場(chǎng)景分類思路是考慮像素間的權(quán)重關(guān)系,再由人工干預(yù)進(jìn)行語義分割,從而確定類型。隨著計(jì)算機(jī)視覺領(lǐng)域上對(duì)特征提取算法的優(yōu)化和語義分割算法的優(yōu)化,場(chǎng)景分類由基于特征和基于語義兩個(gè)方面發(fā)展。

基于特征的場(chǎng)景分類是通過紋理、尺寸等能夠?qū)D像描述的簡(jiǎn)單特征實(shí)現(xiàn)分類。在一般場(chǎng)景分類任務(wù)中有效,但在大數(shù)據(jù)項(xiàng)目中表現(xiàn)能力差,無法進(jìn)行深層特征分析,不適用于背景復(fù)雜的遙感場(chǎng)景分類?;谡Z義的場(chǎng)景分類側(cè)重點(diǎn)在于研究圖像語義層面的表達(dá),將圖像中的目標(biāo)轉(zhuǎn)化為語義進(jìn)行場(chǎng)景分類。相比基于特征的方法,基于語義的場(chǎng)景分類可以建立多層次的分類器,分類效果更好。但同樣無法利用深層特征,無法進(jìn)行深層語義理解,且計(jì)算量大,這約束了分類精度無法進(jìn)一步提高。

卷積神經(jīng)網(wǎng)絡(luò)的興起推動(dòng)了遙感場(chǎng)景分類的發(fā)展。一方面,CNN可以自動(dòng)學(xué)習(xí)深層特征,實(shí)現(xiàn)了大數(shù)據(jù)訓(xùn)練,提高分類精度;另一方面,CNN模型的設(shè)計(jì)有效減少大量參數(shù),運(yùn)算能力提高,能夠更高效完成分類任務(wù)。無論在特征提取和語義分割上,均可以使用CNN進(jìn)行訓(xùn)練,同樣推動(dòng)了上述提到的兩種場(chǎng)景分類技術(shù)。

近年來,許多研究人員使用CNN進(jìn)行遙感影像的場(chǎng)景分類,隨著經(jīng)典CNN模型的不斷提出,基于CNN的遙感影像場(chǎng)景分類研究廣泛應(yīng)用在各個(gè)項(xiàng)目中。

Hu等[28]提出一種基于預(yù)處理的CNN的多尺度特征提取方法。他們將提取局部特征與特征編碼技術(shù)相結(jié)合,通過特征編碼將最后一個(gè)卷積層的多通道特征轉(zhuǎn)化為全局圖像特征進(jìn)行場(chǎng)景分類任務(wù)。

Zhang等[29]提出一種基于對(duì)象深度學(xué)習(xí)特征的生態(tài)環(huán)境要素分類方法。從各個(gè)區(qū)域抽取子圖像來代表相應(yīng)區(qū)域,利用訓(xùn)練好的DCNN模型提取子圖像特征,softmax分類器預(yù)測(cè)子圖像類概率從而確定區(qū)域類別。在崇明島遙感圖像分類的準(zhǔn)確率達(dá)到98.44%,對(duì)異形區(qū)域的分類精度也達(dá)到了96.77%。

周明非等[30]先CNN模型在ILSVRC-2012數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并對(duì)其微調(diào)后對(duì)UCM數(shù)據(jù)集遙感影像分類,分類效果達(dá)到94.44%。

周強(qiáng)等[31]采用隨機(jī)多選擇殘差網(wǎng)絡(luò)集成的遙感圖像分類算法。算法將多個(gè)殘差網(wǎng)絡(luò)融合,通過最小化子網(wǎng)絡(luò)對(duì)樣本的最有分類誤差,使得子網(wǎng)絡(luò)自適應(yīng)于不同的分類任務(wù),有效提升了分類性能。

龔希等[32]提出一種融合全局和局部深度特征的視覺詞袋模型。設(shè)計(jì)思路是融合CNN模型不同層次的特征,使用支持向量機(jī)對(duì)其分類,充分利用局部信息和全局信息來描述遙感圖像的場(chǎng)景。

蔡之靈等[33]一種改進(jìn)的Inception-V3提出遙感場(chǎng)景分類模型——Inception-L1。該模型在全連接層前加入Dropout層避免過擬合,并基于遷移學(xué)習(xí)進(jìn)一步提高訓(xùn)練效率,在AID數(shù)據(jù)集和NWPU-RESISC45數(shù)據(jù)集上分類精度達(dá)到94.44%和93.95%。

余東行等[34]提出一種聯(lián)合CNN與集成學(xué)習(xí)的遙感影像場(chǎng)景分類算法。利用多個(gè)網(wǎng)絡(luò)模型提取高度抽象語義特征,再通過集成學(xué)習(xí)構(gòu)建概率特征,對(duì)其進(jìn)行訓(xùn)練和預(yù)測(cè)。

汪鵬等[35]將跳躍連接和協(xié)方差池化嵌入殘差網(wǎng)絡(luò)中,對(duì)遙感圖像進(jìn)行場(chǎng)景分類。新模型通過連接不同特征映射,將不同層的特征信息進(jìn)行融合,保留中間層的互補(bǔ)特征信息。

2.3 場(chǎng)景分類算法對(duì)比

通過評(píng)價(jià)指標(biāo)——準(zhǔn)確率(Precision),基于UCM數(shù)據(jù)集和NWPU-RESISC45數(shù)據(jù)集對(duì)上述介紹的場(chǎng)景分類研究成果進(jìn)行算法對(duì)比。算法對(duì)比結(jié)果見表2。根據(jù)表2可以看出,基于卷積神經(jīng)網(wǎng)絡(luò)的遙感場(chǎng)景分類算法改進(jìn)方向主要在特征提取上,主要有提取單層特征和融合特征。利用單層特征可以有效壓縮大信息量的特征圖,提高訓(xùn)練速度,但同時(shí)會(huì)帶來局部信息丟失和語義信息不連續(xù)的問題。特征融合可以獲得有效的全局信息,提高訓(xùn)練精度。但融合方式的不同會(huì)產(chǎn)生不同的效果,由于計(jì)算機(jī)通過圖像得到的語義信息和用戶對(duì)圖像感知的語義信息不一致,容易產(chǎn)生感知鴻溝和語義鴻溝問題。

表2 基于UCM數(shù)據(jù)集和NWPU-RESISC45數(shù)據(jù)集的遙感場(chǎng)景分類算法對(duì)比

3 基于光學(xué)遙感影像的目標(biāo)檢測(cè)研究

目標(biāo)檢測(cè)是對(duì)興趣對(duì)象進(jìn)行位置定位和識(shí)別類型。遙感影像中包含大量的地物信息,針對(duì)不同目標(biāo)的檢測(cè),在航通交通和軍事偵察等領(lǐng)域有著重要的應(yīng)用價(jià)值。

3.1 數(shù)據(jù)集

目標(biāo)檢測(cè)的數(shù)據(jù)集需要對(duì)目標(biāo)做標(biāo)注,目前常用于遙感目標(biāo)檢測(cè)研究的公開數(shù)據(jù)集有以下幾種:

(1) DOTA數(shù)據(jù)集:由武漢大學(xué)和華中科技大學(xué)2018年聯(lián)合制作??偣? 806幅遙感圖像,包括188 282個(gè)目標(biāo),分為15個(gè)對(duì)象類,圖像像素約800×800到4 000×4 000范圍內(nèi)。

(2) NWPU VHR-10數(shù)據(jù)集:由西北工業(yè)大學(xué)2014年發(fā)布??偣?00幅圖像,10種對(duì)象類,其中包括650幅目標(biāo)圖像和150幅背景圖像,圖像分辨率為0.5~2 m。

(3) RSOD數(shù)據(jù)集:由武漢大學(xué)于2017年發(fā)布,其包含飛機(jī)、操場(chǎng)、立交橋和油桶四類目標(biāo),總共2 397幅遙感圖像。

(4) DIOR數(shù)據(jù)集:是一個(gè)大規(guī)模的光學(xué)遙感影像數(shù)據(jù)集,總共23 463幅遙感圖像和192 472個(gè)目標(biāo),分為橋梁、港口、車輛等20個(gè)對(duì)象類。

3.2 遙感影像目標(biāo)檢測(cè)的發(fā)展

傳統(tǒng)的遙感影像目標(biāo)檢測(cè)算法有尺度不變特征變換(SIFT)、定向梯度直方圖(HOG)和顯著性等,需要人工設(shè)計(jì)特征,依賴先驗(yàn)知識(shí),因此模型的自適應(yīng)能力和泛化能力較差。卷積神經(jīng)網(wǎng)絡(luò)在遙感影像目標(biāo)檢測(cè)中實(shí)現(xiàn)對(duì)特征的自動(dòng)提取,挖掘深層特征,有效彌補(bǔ)了人工設(shè)計(jì)特征的不足,提高檢測(cè)效率和精度?;贑NN模型的遙感影像目標(biāo)檢測(cè)方法可分類三類。

(1) 基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的檢測(cè)算法。FCN將CNN中的全連接層替換成卷積層,以便適應(yīng)任意尺寸的輸入;在網(wǎng)絡(luò)中使用反卷積增大圖像尺寸以提高檢測(cè)精度;通過跳躍方法將多層信息融合,增加模型的精度和魯棒性。

Maggiori等[36]設(shè)計(jì)的CNN模型由卷積層和反卷積層[37]共四個(gè)卷積層構(gòu)成。他們利用反卷積層獲得初始分辨率尺寸一致的標(biāo)記圖像,提升分類精度且縮短運(yùn)行時(shí)間。

Huang等[38]提出了一種基于多源信息融合的端到端深度反卷積網(wǎng)絡(luò)(DeconvNet)的建筑物提取方法。首先對(duì)圖像進(jìn)行預(yù)處理,得到高質(zhì)量的建筑數(shù)據(jù)集,然后預(yù)訓(xùn)練一個(gè)深度反卷積網(wǎng)絡(luò),并對(duì)RGB和NRG組合波段組合調(diào)整后,融合輸出。在建筑數(shù)據(jù)集分類中,準(zhǔn)確率達(dá)87.58%,為遙感圖像分類提供了一些新的思路。

Liu等[39]提出多任務(wù)CNN結(jié)構(gòu),實(shí)現(xiàn)同時(shí)預(yù)測(cè)路面、邊緣和中心線。利用三個(gè)全卷積網(wǎng)絡(luò)組成一個(gè)道路網(wǎng)系統(tǒng),學(xué)習(xí)訓(xùn)練多尺度和多層級(jí)的特征。

李文斌等[40]提出DC-DNN模型對(duì)遙感影像進(jìn)行目標(biāo)檢測(cè)。區(qū)域提取將FCN模型和DBSCAN算法融合,基于VGG-16模型提取特征,利用檢測(cè)抑制算法,在數(shù)據(jù)集上實(shí)驗(yàn)獲得95.78%的精度。

(2) 基于回歸問題的檢測(cè)算法。常用算法有SSD系列、YOLO系列、RetinaNet等[41-43]。這類算法將檢測(cè)問題看作回歸問題,直接對(duì)輸入的遙感影像上不同位置、尺寸和邊框進(jìn)行采樣和處理,從而檢測(cè)出目標(biāo)的邊框位置和物理類別。

Etten等[44]提出一種基于YOLOv2的船舶檢測(cè)算法Yolt,對(duì)輸出特征尺寸進(jìn)行修改,結(jié)果表明在稀疏的小目標(biāo)場(chǎng)景下檢測(cè)效果良好。

戴偉聰?shù)萚45]基于YOLOv3提出一種實(shí)時(shí)的遙感影像飛機(jī)檢測(cè)算法。算法在YOLOv3基礎(chǔ)上采用密集連接模塊來融合多尺度特征且添加尺度檢測(cè)和最大池化,促進(jìn)模塊間的特征傳遞,檢測(cè)效果達(dá)到96.26%。

姚群力等[46]基于SSD模型提出一種遙感影像的飛機(jī)目標(biāo)檢測(cè)框架MultDet。算法采用端到端的多尺度特征融合,利用反卷積和跳躍連接得到多層次的融合特征。在UCAS-AOD數(shù)據(jù)集上取得94.8%的精度。

(3) 基于候選區(qū)域的檢測(cè)算法。常用算法有R-CNN、Faster R-CNN、FPN、Mask RCNN等[47-50]。算法思想是將目標(biāo)檢測(cè)分為分類和回歸兩個(gè)步驟,在分類之前需要生成候選區(qū)域框并修正邊框位置。

Han等[51]基于Faster R-CNN提出一種遙感影像目標(biāo)檢測(cè)算法。該算法在區(qū)域生成部分選用RPN全卷積網(wǎng)絡(luò),Fast R-CNN用于檢測(cè)和定位,再通過交替優(yōu)化實(shí)現(xiàn)特征融合,在NWPU VHR-10數(shù)據(jù)集獲得了76.50%的檢測(cè)準(zhǔn)確度。

趙江洪等[52]對(duì)Faster R-CNN模型進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)遙感影像艦船的目標(biāo)檢測(cè)。該算法通過數(shù)據(jù)增強(qiáng)和將VGG模型換成ResNet模型,提高目標(biāo)檢測(cè)的訓(xùn)練速度和精確度,且有效處理背景復(fù)雜等問題。

Yang等[53]基于FPN模型,提出一種旋轉(zhuǎn)密集特征的金字塔網(wǎng)絡(luò)(R-DFPN)。R-DFPN通過多尺度旋轉(zhuǎn)的區(qū)域檢測(cè)算法和DenseNet的密集連接思想,有效檢測(cè)在不同場(chǎng)景下的船舶目標(biāo),特別是在密集船舶的檢測(cè)中表現(xiàn)優(yōu)秀。

Nie等[54]提出一種基于Mask RCNN的駐港船舶檢測(cè)方法。算法將柔性非極大值抑制機(jī)制融入進(jìn)來,由此提高魯棒性。

3.3 目標(biāo)檢測(cè)算法對(duì)比

對(duì)上述介紹的遙感影像目標(biāo)檢測(cè)研究成果進(jìn)行算法對(duì)比,結(jié)果見表3??梢钥闯?基于回歸問題的檢測(cè)算法在檢測(cè)準(zhǔn)確率上高于另外兩類算法,隨著算法的改進(jìn),這類算法在檢測(cè)小目標(biāo)和多目標(biāo)上的效果不斷提高,能夠?qū)崿F(xiàn)多尺度和高精度檢測(cè),但檢測(cè)精度的提升會(huì)帶來檢測(cè)速度下降的問題。FCN網(wǎng)絡(luò)的優(yōu)勢(shì)在于適應(yīng)不用尺寸的圖像和運(yùn)行速度快,但由于沒有考慮全局的上下文信息,獲得的結(jié)果不夠精細(xì),限制了精度的提升。基于候選區(qū)域的檢測(cè)算法的計(jì)算較為簡(jiǎn)單,但由此出現(xiàn)類不均衡問題,所以檢測(cè)精度相對(duì)較低。這類目標(biāo)檢測(cè)算法在不斷改進(jìn)的過程中,檢測(cè)流程越來越簡(jiǎn)單,檢測(cè)精度不斷提升,向著滿足更多樣化需求的方向發(fā)展,但算法模型規(guī)模大和檢測(cè)速度慢的問題始終沒有根本性的解決,導(dǎo)致精度無法進(jìn)一步提升,且不能滿足實(shí)時(shí)檢測(cè)任務(wù)的要求。

表3 不同的遙感目標(biāo)檢測(cè)算法對(duì)比

4 基于光學(xué)遙感影像的圖像檢索研究

圖像檢索分為基于文本的圖像檢索技術(shù)(TBIR)和基于內(nèi)容的圖像檢索技術(shù)(CBIR)。其中遙感影像檢索屬于基于內(nèi)容的圖像檢索中的一種,在氣象預(yù)報(bào)、環(huán)境檢測(cè)和軍事監(jiān)測(cè)等方面具有廣泛的應(yīng)用前景?;趦?nèi)容的圖像檢索是檢索數(shù)據(jù)庫中內(nèi)容相近的圖像,關(guān)鍵技術(shù)在于相關(guān)特征提取和特征相似性比較,圖像特征的描述能力決定了圖像檢索的性能。遙感影像檢索除了普通圖像檢索需注意的特征提取外,還需要考慮地理位置、不同傳感器參數(shù)和比例等信息與影像的關(guān)系。因此,遙感影像檢索在特征選取和相似性計(jì)算上有著其自身的特點(diǎn)。

4.1 數(shù)據(jù)集

由于遙感影像檢索和遙感場(chǎng)景分類及目標(biāo)檢測(cè)一樣,有特征提取的過程,再利用提取的特征進(jìn)行相似度比較,因此,遙感影像檢索研究常用到的數(shù)據(jù)集與遙感場(chǎng)景分類及目標(biāo)檢測(cè)的數(shù)據(jù)集相同。

4.2 遙感影像檢索的發(fā)展

傳統(tǒng)的圖像檢索方法通過對(duì)低層次特征,如顏色、紋理等進(jìn)行編碼,可以有效檢索小規(guī)模數(shù)據(jù)集,但識(shí)別性能非常有限,且需要人工設(shè)計(jì)特征,無法實(shí)現(xiàn)大數(shù)據(jù)的遙感影像檢索。CNN的優(yōu)勢(shì)在于可以提取圖像的深度特征,這為圖像檢索提供了更多的技術(shù)支撐。Napoletano等[55]在檢索遙感圖像上,對(duì)低級(jí)手工方法和CNN方法進(jìn)行評(píng)估。結(jié)論是無論什么檢索方案,CNN提取的特征表現(xiàn)與全局或局部的手工特征表現(xiàn)優(yōu)異。目前,基于CNN的遙感影像檢索算法有以下幾個(gè)方向:

(1) 對(duì)CNN模型提取的特征進(jìn)一步處理。張洪群等[56]基于CNN訓(xùn)練圖像特征圖實(shí)現(xiàn)遙感圖像檢索,使用稀疏自動(dòng)編碼對(duì)遙感圖像進(jìn)行特征學(xué)習(xí)得到特征字典。彭晏飛等[57]基于GoogLeNet模型提出一種基于CNN和相關(guān)反饋支持向量機(jī)的遙感圖像檢索方法。該算法利用CNN提取特征,支持向量機(jī)作為分類器,最后融合相關(guān)反饋策略對(duì)其進(jìn)行調(diào)整。

(2) 對(duì)CNN模型進(jìn)行微調(diào)。葛蕓等[58]預(yù)訓(xùn)練4種不同CNN模型用于遙感圖像檢索。算法對(duì)高層次特征進(jìn)行高斯歸一化,利用歐氏距離計(jì)算圖像相似度進(jìn)行圖像檢索。

(3) 多尺度特征融合。Ge等[59]通過將不同池化層的特征聚合,并進(jìn)行特征壓縮。該算法對(duì)UCM數(shù)據(jù)集進(jìn)行圖像檢索,雖然平均精度僅有65.98%,但為之后基于CNN的遙感影像檢索提供了新的思路。

(4) 卷積層與全連接層進(jìn)行特征融合。楊珂等[60]提出一種跨層特征融合的遙感影像檢索算法。該算法將卷積層和全連接層的特征融合,充分利用局部信息和全局信息,提高遙感影像的檢索性能。

(5) 重排序。葉發(fā)茂等[61]利用CNN模型與重排列相結(jié)合的方法進(jìn)行檢索圖像,以提高農(nóng)業(yè)遙感圖像的檢索性能。算法從CNN訓(xùn)練中獲得類別去權(quán)重和類別查準(zhǔn)率并結(jié)合計(jì)算,對(duì)結(jié)果進(jìn)行排序再對(duì)初始檢索輸出進(jìn)行重排。

4.3 影像檢索算法對(duì)比

遙感影像檢索的評(píng)價(jià)指標(biāo)有平均精確率的平均值(mean Average Precision,mAP)和平均歸一化調(diào)整的檢索之秩(Average Normalized Modified Retrieval Rate,ANMRR)。根據(jù)評(píng)價(jià)指標(biāo),基于UCM數(shù)據(jù)集對(duì)上述闡述的遙感影像檢索的研究成果進(jìn)行算法對(duì)比。根據(jù)表4可以看出,同樣以GoogLeNet作為基礎(chǔ)網(wǎng)絡(luò)的條件下,融合反饋策略優(yōu)于特征聚合和壓縮;僅僅對(duì)CNN的微調(diào)無法讓影像檢索精度有明顯的精度提升;ResNet-50加上重排序的算法獲得最高的mAP值和最低的ANMRR,檢索精度最高。重排序利用信息間的流形關(guān)系,對(duì)度量結(jié)果進(jìn)行重新排序,從而得到更好的檢索結(jié)果。但重排序作為監(jiān)督信號(hào),在檢索過程中,它的質(zhì)量會(huì)影響到重排序之后的效果,因此重排序?qū)D像噪聲處理提出了更高的要求。

表4 基于UCM數(shù)據(jù)集的遙感影像檢索算法對(duì)比

5 結(jié) 語

本文介紹了光學(xué)遙感影像的特點(diǎn),對(duì)基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型的光學(xué)遙感影像識(shí)別的研究實(shí)例進(jìn)行了算法分析,從遙感影像的場(chǎng)景分類、目標(biāo)檢測(cè)和圖像檢索三大任務(wù)出發(fā),對(duì)常見的遙感影像數(shù)據(jù)集和研究進(jìn)展進(jìn)行了詳細(xì)綜述,未來的研究趨勢(shì)如下:

(1) 多源異構(gòu)數(shù)據(jù)融合。在信息化的快速發(fā)展下,數(shù)據(jù)呈現(xiàn)多類型海量增長(zhǎng)趨勢(shì),可將傳感器、智能終端、社交網(wǎng)絡(luò)等收集到的多類型數(shù)據(jù)利用起來。在遙感圖像應(yīng)用中,對(duì)同一目標(biāo)的不同數(shù)據(jù)集進(jìn)行圖像特征信息提取并融合,可以有效避免數(shù)據(jù)描述的客觀性,使得實(shí)驗(yàn)結(jié)果更加可靠。

(2) 實(shí)時(shí)識(shí)別。實(shí)時(shí)數(shù)據(jù)更新是一個(gè)很熱的課題,如自動(dòng)駕駛對(duì)環(huán)境目標(biāo)進(jìn)行實(shí)時(shí)檢測(cè)。由于遙感圖像識(shí)別時(shí)的網(wǎng)絡(luò)計(jì)算量大,許多基于遙感數(shù)據(jù)的識(shí)別研究效率不高,無法達(dá)到實(shí)時(shí)識(shí)別的要求。而一味追求網(wǎng)絡(luò)精度導(dǎo)致空間和速度問題的出現(xiàn)已不適用于高效的社會(huì)。在遙感圖像領(lǐng)域,便捷性和高效性的需求會(huì)不斷提高,但目前將輕量級(jí)網(wǎng)絡(luò)運(yùn)用在遙感圖像領(lǐng)域的研究比較少。只有在保證精度的同時(shí),有效減少網(wǎng)絡(luò)計(jì)算空間和成本,使得深度網(wǎng)絡(luò)朝便攜的移動(dòng)端發(fā)展,才能更好將其用于實(shí)際應(yīng)用中,進(jìn)而實(shí)現(xiàn)遙感圖像的實(shí)時(shí)識(shí)別。

(3) 弱監(jiān)督化。監(jiān)督學(xué)習(xí)是圖像識(shí)別領(lǐng)域目前應(yīng)用最廣泛的深度學(xué)習(xí)方法,但數(shù)據(jù)集的標(biāo)簽需要人為添加。特別是遙感圖像中,有標(biāo)注的數(shù)據(jù)非常有限,如果進(jìn)行人工標(biāo)注會(huì)浪費(fèi)大量人力物力。近年剛興起的非監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)可以解決監(jiān)督學(xué)習(xí)的不足,其中包括[20]生成式對(duì)抗網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)[62-64]等,但它們?cè)谶b感影像識(shí)別領(lǐng)域的精確度與監(jiān)督學(xué)習(xí)相比還有些差距,有待發(fā)展。

(4) 物理建模與神經(jīng)網(wǎng)絡(luò)相結(jié)合。遙感圖像的成像方式和顯示方式都基于光反射和微波散射等物理原理,許多遙感圖像應(yīng)用是基于物理機(jī)理建模進(jìn)行研究,如果能結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)分析,必將有助于推動(dòng)遙感圖像應(yīng)用的發(fā)展。

猜你喜歡
檢索卷積分類
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
分類算一算
2019年第4-6期便捷檢索目錄
從濾波器理解卷積
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
教你一招:數(shù)的分類
專利檢索中“語義”的表現(xiàn)
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法