施慧慧,徐雁南,滕文秀,王 妮
1. 南京林業(yè)大學(xué)南方現(xiàn)代林業(yè)協(xié)同創(chuàng)新中心,江蘇 南京 210037; 2. 南京林業(yè)大學(xué)林學(xué)院,江蘇 南京 210037; 3. 馬薩諸塞大學(xué)阿默斯特分校地球科學(xué)系,美國(guó) 馬薩諸塞州 01003; 4. 安徽省地理信息智能感知與服務(wù)工程實(shí)驗(yàn)室,安徽 滁州 239000; 5. 滁州學(xué)院地理信息與旅游學(xué)院,安徽 滁州 239000
隨著遙感技術(shù)和對(duì)地觀測(cè)技術(shù)的快速發(fā)展,來(lái)自衛(wèi)星、無(wú)人機(jī)等對(duì)地觀測(cè)海量數(shù)據(jù)不僅含有豐富的紋理、空間信息,還包含了海量場(chǎng)景語(yǔ)義信息,因此高分辨率遙感影像的信息提取已經(jīng)逐步從像素層的光譜解譯、結(jié)構(gòu)層的基元紋理分析以及面向?qū)ο蟮姆指钐幚戆l(fā)展向規(guī)則知識(shí)、語(yǔ)義識(shí)別和場(chǎng)景建模等影像高層理解與認(rèn)知方向發(fā)展[1]。高分辨率遙感影像分類(lèi)從傳統(tǒng)像素級(jí)和對(duì)象級(jí)分類(lèi)漸漸轉(zhuǎn)向場(chǎng)景語(yǔ)義級(jí)分類(lèi)[2-4]。
目前,已有場(chǎng)景分類(lèi)方法可概括為兩類(lèi):①基于底層特征和中層特征的方法。早期基于傳統(tǒng)的底層特征或者手工特征,通過(guò)提取紋理、顏色、形狀等特征進(jìn)行圖像分類(lèi)。與早期方法相比,基于BoVW模型[5]的中層特征方法通過(guò)手工制作的底層特征構(gòu)建圖像直方圖,對(duì)圖像聚類(lèi)分析,雖簡(jiǎn)單高效,但表達(dá)能力有限。②深度學(xué)習(xí)模型方法。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)一經(jīng)提出,便憑借其強(qiáng)大的特征提取能力很快成為眾多領(lǐng)域?qū)W者關(guān)注的焦點(diǎn)[6-8]。針對(duì)高分辨率場(chǎng)景分類(lèi)問(wèn)題,大量深度學(xué)習(xí)模型網(wǎng)絡(luò)被構(gòu)建,如GoogleNet、VggNet和ResNet等,使得深度學(xué)習(xí)在場(chǎng)景分類(lèi)中的準(zhǔn)確率不斷得到提高。同時(shí)遙感的一個(gè)重要里程碑仍然是對(duì)來(lái)自于不同傳感器和地理區(qū)域的未知數(shù)據(jù)進(jìn)行分類(lèi)的模型的可移植性[9],遷移學(xué)習(xí)則可以有效解決這些問(wèn)題[10],基于具有1500萬(wàn)張已標(biāo)注高清圖片和22 000多種場(chǎng)景類(lèi)別的ImageNet[11]圖像庫(kù),可以讓計(jì)算機(jī)具有跨領(lǐng)域?qū)W習(xí)的能力,同時(shí)使得信息可以得到高效重復(fù)利用[12]。文獻(xiàn)[13]首次將深度學(xué)習(xí)卷積網(wǎng)絡(luò)應(yīng)用于高分辨率遙感影像場(chǎng)景分類(lèi)問(wèn)題,將ImageNet圖像數(shù)據(jù)上預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)模型遷移至遙感場(chǎng)景數(shù)據(jù)集,得到較好的分類(lèi)效果。文獻(xiàn)[14]采用兩個(gè)小尺度遙感影像場(chǎng)景數(shù)據(jù)集測(cè)試了不同深度的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)性能,有效解決了高分辨率遙感影像數(shù)據(jù)量大、信息復(fù)雜、特征信息提取難度高等難題[15]。
卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)大型、未知形狀變換的建模存在固有的缺陷,這種缺陷是因?yàn)闃?biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)卷積核為方形,在特征圖譜上的固定位置進(jìn)行采樣,對(duì)于復(fù)雜不規(guī)則的目標(biāo)或者大小不一的目標(biāo)檢測(cè)是不合理的。文獻(xiàn)[16]提出了一種可變形卷積方法,提升了CNN的形變建模能力,首次證明了學(xué)習(xí)密集空間變換對(duì)復(fù)雜的視覺(jué)任務(wù)是有效的。文獻(xiàn)[17]基于VggNet模型采用可變形卷積層得到圖像特征進(jìn)行圖像語(yǔ)義分割方法,表明引入可變形卷積的分割方法可有效克服遙感影像中分割對(duì)象的復(fù)雜結(jié)構(gòu)對(duì)分割結(jié)果的影響。可見(jiàn)在圖像分割中引入可變形卷積的CNN模型在性能上得到了較大提升。而在遙感場(chǎng)景分類(lèi)中同樣面對(duì)同種物體在圖像中可能呈現(xiàn)出不同的形態(tài)、大小、視角變化甚至是非剛性形變的問(wèn)題,在分類(lèi)任務(wù)上采用固定方形的卷積核對(duì)具有復(fù)雜目標(biāo)的特征識(shí)別是不合理的,僅使用傳統(tǒng)的深度特征無(wú)法學(xué)習(xí)到對(duì)遙感場(chǎng)景幾何形變具有穩(wěn)健性的特征表示?;谝陨戏治觯疚奶岢隽艘环N場(chǎng)景分類(lèi)方法,利用大型自然場(chǎng)景數(shù)據(jù)集ImageNet上訓(xùn)練的模型提取遙感影像深度特征,然后引入可變形卷積層,增強(qiáng)空間采樣位置能力進(jìn)而提高場(chǎng)景分類(lèi)精度。
本文提出的深度遷移可變形卷積神經(jīng)網(wǎng)絡(luò)(deep transfer deformable convolutional neural networks,DTDCNN)模型結(jié)構(gòu)如圖1所示。該結(jié)構(gòu)主要分為兩大部分:①利用大型自然場(chǎng)景數(shù)據(jù)集ImageNet對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練得到預(yù)訓(xùn)練模型;②在對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),首先利用預(yù)訓(xùn)練模型中全連接層(fully connected layer,FC)前的模型提取特征作為圖像特征表達(dá),然后添加可變形卷積層進(jìn)一步學(xué)習(xí)遙感影像的幾何形變信息,提高感受野對(duì)目標(biāo)物體的有效感受范圍以得到最終圖像特征,最后輸入到分類(lèi)器進(jìn)行分類(lèi)。
圖1 DTDCNN模型結(jié)構(gòu)Fig.1 Structure diagram of DTDCNN model
卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)重要算法,在模式分類(lèi)領(lǐng)域有著出色表現(xiàn)。經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層、池化層和全連接層,其中卷積層通過(guò)計(jì)算輸入影像中的局部區(qū)域與濾波器的點(diǎn)積輸出特征[18]。本文中遙感影像場(chǎng)景分類(lèi)數(shù)據(jù)是三通道的,每個(gè)卷積核的尺寸為r×s×e,其中e為通道數(shù),本文中e=3,卷積操作如式(1)所示
(1)
式中,f(·)為逐元素運(yùn)算的激活函數(shù)(activation
function);s和r是感受野的空間尺寸;b為偏置項(xiàng);a(t-1)、a(t)分別為t-1層和t層的響應(yīng);w為權(quán)值。
經(jīng)過(guò)多次卷積導(dǎo)致特征數(shù)據(jù)量不斷增加,故在卷積后須添加池化層,通過(guò)計(jì)算局部區(qū)域上的聚合值,沿著特征圖的空間維度進(jìn)行下采樣操作,在減少參數(shù)數(shù)量的同時(shí)能較好地保留原始有用信息,防止過(guò)擬合問(wèn)題發(fā)生[19]。經(jīng)過(guò)特定的第t層的池化層后,第t層第o個(gè)特征圖在空間位置(i,j)處的元素可表示為
(2)
式中,u×v大小的區(qū)域成為池化鄰域,也稱為池化感受野,通常情況下u=v。
最后,基于卷積和池化操作的特征進(jìn)行壓縮,所得壓縮特征與全連接層所定義權(quán)重參數(shù)相乘,將輸入圖像分類(lèi)為基于數(shù)據(jù)集的各類(lèi)別,第t層的每個(gè)神經(jīng)元和第t-1層的每個(gè)神經(jīng)元都連接,即每個(gè)神經(jīng)元的輸入是上一層所有神經(jīng)元的輸出線性組合。全連接層第i個(gè)神經(jīng)元的值可表示為
a(t)=f(a(t-1)w(t)+b(t))
(3)
多項(xiàng)研究表明,在大型自然圖像數(shù)據(jù)集ImageNet上學(xué)習(xí)到的圖像特征對(duì)遙感圖像也有很好的適用性[20-22],因此,本文利用預(yù)訓(xùn)練模型提取遙感場(chǎng)景的深度特征,將該深度特征作為整個(gè)遙感場(chǎng)景特征的一部分。
由于傳統(tǒng)二維卷積核通常首先在輸入的影像特征圖上采用網(wǎng)格R進(jìn)行采樣,并且在每個(gè)采樣點(diǎn)處乘上權(quán)值k并求和,因此僅使用傳統(tǒng)的深度特征無(wú)法學(xué)習(xí)到對(duì)遙感場(chǎng)景幾何形變具有穩(wěn)健性的特征表示。以二維3×3卷積核采樣為例R={(-1,-1),(-1,0),…,(0,1),(1,1)},對(duì)于輸出特征圖y上的位置P0為
(4)
式中,Pn為網(wǎng)格R中所列位置的枚舉,固定了感受野的大小與步長(zhǎng),則無(wú)法對(duì)易產(chǎn)生變形的物體特征進(jìn)行準(zhǔn)確描述,使得傳統(tǒng)CNN在一定程度上限制了建模能力。
因此,本文利用可變形卷積(deformable convolution)增加模型對(duì)于物體幾何變化的適應(yīng)能力[23],學(xué)習(xí)對(duì)影像中幾何形變穩(wěn)健的深度特征,具體的,通過(guò)對(duì)卷積采樣點(diǎn)添加偏移量{Δpn|n=1,2,…,N},其中N=|R|,使得式(4)變形為
(5)
式中,pn表示卷積窗口中任意一個(gè)像素點(diǎn);k(pn)表示像素點(diǎn)pn的權(quán)重;x表示輸入層像素點(diǎn)的集合;Δpn表示像素點(diǎn)pn的偏移量,且通常為小數(shù)形式。因此式(5)通過(guò)雙線性插值變換之后變?yōu)?/p>
(6)
式中,p表示任意一個(gè)位置p=p0+pn+Δpn;q則表示特征圖中的空間位置;G(·,·)表示雙線性插值核,二維卷積則可分解成2個(gè)一維內(nèi)核
G(q,p)=g(qx,px)·g(qy,py)
(7)
式中,g(a,b)=max(0,1-|a-b|)。
標(biāo)準(zhǔn)卷積在對(duì)稀疏住宅場(chǎng)景進(jìn)行特征提取時(shí)的采樣點(diǎn)是固定的(圖2(a)),而本文通過(guò)引入可變形卷積層會(huì)根據(jù)影像中目標(biāo)的尺度和形狀進(jìn)行自適應(yīng)調(diào)整(圖2(b)),可以高效地提取不同形狀、不同方向的穩(wěn)健特征,從而增強(qiáng)對(duì)影像中的場(chǎng)景辨別能力。圖2中圓點(diǎn)表示讀取圖像特征圖中的激活單元點(diǎn),箭頭后單元點(diǎn)表示分別對(duì)應(yīng)于前面特征圖上突出顯示的單元點(diǎn),可變形卷積收斂后的單元點(diǎn)與物體位置的相關(guān)性則更高,可以更高效地利用對(duì)象特征。
圖2 采樣位置Fig.2 Sampling position
為了學(xué)習(xí)對(duì)遙感場(chǎng)景幾何形變具有穩(wěn)健性的特征表示,本文在預(yù)訓(xùn)練模型的基礎(chǔ)上添加了可變形卷積層,聯(lián)合傳統(tǒng)場(chǎng)景深度特征以及可變形場(chǎng)景深度特征對(duì)整個(gè)場(chǎng)景影像進(jìn)行特征表達(dá),提高模型的穩(wěn)健性的泛化能力。
深度學(xué)習(xí)算法中損失值用來(lái)度量模型在分類(lèi)時(shí)預(yù)測(cè)值和真實(shí)值之間的差距,也是用來(lái)衡量模型泛化能力好壞的重要指標(biāo),損失函數(shù)合理性則決定模型的擬合能力。對(duì)于遙感影像場(chǎng)景分類(lèi)任務(wù),本文采用交叉熵?fù)p失函數(shù),表示為
(8)
式中,t為每批次樣本數(shù);yh為第h個(gè)樣本的編號(hào);ch是樣本的目標(biāo)類(lèi)。利用隨機(jī)梯度下降(stochastic gradient descent,SGD)方法對(duì)該損失函數(shù)進(jìn)行優(yōu)化,通過(guò)從樣本中抽取一組進(jìn)行訓(xùn)練得到函數(shù)局部最優(yōu)值,再按照梯度方向不斷進(jìn)行更新、再抽取訓(xùn)練、更新,最終獲取全局最優(yōu)損失值。本文中隨機(jī)梯度下降的學(xué)習(xí)率使用固定大小值,初始學(xué)習(xí)率大小設(shè)置為0.002,速度衰減因子設(shè)為0.9。
2.1.1 參數(shù)設(shè)置與試驗(yàn)環(huán)境
本文試驗(yàn)環(huán)境為Windows10 64 bit操作系統(tǒng),CPU為Core i5-7500@3.40 GHz,16 GB內(nèi)存,GPU為Nvidia GeForce GTX 1060,6 GB顯存。深度學(xué)習(xí)工具采用PyTorch 1.3.1,編程語(yǔ)言采用Python 3.7.3,集成開(kāi)發(fā)環(huán)境使用PyCharm。參數(shù)設(shè)置上,訓(xùn)練速率衰減周期設(shè)置為100 epoch;批處理(batch)大小設(shè)置為64。本文主要試驗(yàn)部分基于ResNet-50[24]作為基礎(chǔ)模型進(jìn)行預(yù)訓(xùn)練,增加網(wǎng)絡(luò)的特征提取性能。
2.1.2 評(píng)價(jià)指標(biāo)
對(duì)于精度檢驗(yàn),分類(lèi)任務(wù)中多采用總體精度(OA)和混淆矩陣[25]進(jìn)行試驗(yàn)結(jié)果評(píng)價(jià)??傮w精度為
(9)
式中,N為測(cè)試樣本總數(shù);T為正確分類(lèi)的圖像。該種衡量方法可以較好地反映出分類(lèi)方法在整個(gè)測(cè)試圖像上的性能。為了更加直觀地評(píng)估模型性能,本文將添加精準(zhǔn)率(Precision)和召回率(Recall)進(jìn)一步進(jìn)行模型評(píng)價(jià)。精準(zhǔn)率與召回率主要基于試驗(yàn)結(jié)果中所得到的真正例(TP)、假正例(FP)、真負(fù)例(TN)和假負(fù)例(FN)進(jìn)行描述,即
(10)
2.2.1 AID數(shù)據(jù)集分類(lèi)試驗(yàn)結(jié)果與分析
AID數(shù)據(jù)集是用于航空?qǐng)鼍胺诸?lèi)的大型數(shù)據(jù)集,具有較大的組內(nèi)差異,援助目標(biāo)是提高遙感圖像場(chǎng)景分類(lèi)的技術(shù)水平[26]。2017年由武漢大學(xué)和華中科技大學(xué)發(fā)布,由Google Earth影像上采集的不同分辨率、不同地區(qū)的影像,每幅影像大小為600×600像素,包含30類(lèi)場(chǎng)景,每個(gè)類(lèi)別包含220~420張影像,整個(gè)數(shù)據(jù)集共10 000張影像(圖3)。
圖3 AID數(shù)據(jù)集示例Fig.3 Example images of AID dataset
本文所提出的方法在AID數(shù)據(jù)集(50%訓(xùn)練集比率,每個(gè)類(lèi)別110~210張訓(xùn)練樣本)上進(jìn)行試驗(yàn)得到結(jié)果見(jiàn)表1,在采用本文所提出的基于遷移可變形卷積的網(wǎng)絡(luò)模型方法后精度提高了4.25%,Kappa系數(shù)提高了0.04,同時(shí)對(duì)模型的計(jì)算力(flops)和參數(shù)量(params)進(jìn)行計(jì)算,本文方法僅添加了較少參數(shù)量使得模型性能得到了較好提升。最終得到分類(lèi)精度如圖4所示,從初始精度上看兩種方法就有很大的差距,本文所提模型比普通模型精度提高近20%,模型可以更快收斂。從整體上看所提方法都較原始方法精度有較大提高。具體的,根據(jù)圖5所示的兩個(gè)混淆矩陣可發(fā)現(xiàn),基礎(chǔ)模型在池塘和河流,體育場(chǎng)和體育館,度假村和公園等都產(chǎn)生了較為嚴(yán)重混淆現(xiàn)象。這些場(chǎng)景都基于相似特征的基本組成單元,僅在空間分布、密度等方面產(chǎn)生區(qū)別,易產(chǎn)生混淆現(xiàn)象,是場(chǎng)景分類(lèi)中的一大難點(diǎn)。但基于DTDCNN模型,由于該模型中對(duì)目標(biāo)采用非方形卷積核進(jìn)行特征提取,可以發(fā)現(xiàn)體育館較體育場(chǎng)僅多出周?chē)ㄖ?,原始模型則不能將其區(qū)分開(kāi),通過(guò)所提方法添加了一層過(guò)濾器,大大提高了目標(biāo)數(shù)據(jù)集的分類(lèi)性能。而對(duì)于具有較為相同幾何特征的場(chǎng)景,模型即使對(duì)場(chǎng)景具有很好地識(shí)別效果,但分類(lèi)上部分未能得到較好的提升。但總體上大部分場(chǎng)景的分類(lèi)精度都得到不同程度的提高,表明所提方法可以有效減少混淆現(xiàn)象。
表1 比較模型在AID數(shù)據(jù)集上的OA、Kappa、精準(zhǔn)率、召回率和模型計(jì)算力與參數(shù)量
圖4 AID數(shù)據(jù)集分類(lèi)精度變化曲線Fig.4 Classification Accuracy Variation Curve of AID dataset
圖5 AID數(shù)據(jù)集混淆矩陣結(jié)果Fig.5 Classification confusion matrix of AID dataset
2.2.2 UC-Merced數(shù)據(jù)集分類(lèi)試驗(yàn)結(jié)果與分析
UC-Merced數(shù)據(jù)集是一個(gè)廣泛的手動(dòng)標(biāo)記的地面真值數(shù)據(jù)集(圖6),用于定量評(píng)估[2]。該數(shù)據(jù)集每幅影像大小為256×256像素,涵蓋了21類(lèi)不同場(chǎng)景類(lèi)別。每一類(lèi)場(chǎng)景包含100張影像,共2100張影像。該數(shù)據(jù)集由于類(lèi)間差距小,類(lèi)內(nèi)差距大,具有較大的挑戰(zhàn)性,在遙感影像場(chǎng)景分類(lèi)領(lǐng)域極具代表性,廣泛用于場(chǎng)景分類(lèi)研究[27]。
圖6 UC-Merced數(shù)據(jù)集示例Fig.6 Example images of UC-Merced dataset
本文所提出的方法在該數(shù)據(jù)集上進(jìn)行試驗(yàn)(80%訓(xùn)練集比率,每類(lèi)別80張作為訓(xùn)練樣本,20張作為測(cè)試數(shù)據(jù))得到結(jié)果見(jiàn)表2,在采用本文所提出的基于遷移可變形卷積的網(wǎng)絡(luò)模型方法后精度提高了1.9%,Kappa系數(shù)提高了0.021。最終得到分類(lèi)結(jié)果如圖7所示,從中看出兩種方法同樣都很快開(kāi)始收斂,前20個(gè)epoch時(shí)添加可變形卷積方法的分類(lèi)精度相較于初始模型提高較為明顯。根據(jù)圖8所示的兩個(gè)混淆矩陣可以發(fā)現(xiàn),建筑和中密度住宅區(qū),網(wǎng)球場(chǎng)和中等密度住宅區(qū)等都產(chǎn)生了較輕程度的混淆,所提方法較普通模型則有更好的分類(lèi)效果。同樣與AID試驗(yàn)結(jié)果相似,所提方法精度提高的主要來(lái)源是具有相似特征的場(chǎng)景混淆現(xiàn)象的減少。UC-Merced數(shù)據(jù)集具有較小的類(lèi)間差距,而同一類(lèi)別的場(chǎng)景數(shù)據(jù)具有更大的差異,更好地驗(yàn)證了所提方法對(duì)特征分布不同的場(chǎng)景數(shù)據(jù)分類(lèi)的有效性。
圖7 UC-Merced數(shù)據(jù)集分類(lèi)精度變化曲線Fig.7 Classification accuracy variation curve of UC-Merced dataset
圖8 UC-Merced數(shù)據(jù)集混淆矩陣結(jié)果Fig.8 Classification confusion matrix of UC-Merced dataset
表2 比較模型在UC-Merced數(shù)據(jù)集上的OA、Kappa、精準(zhǔn)率和召回率
2.2.3 NWPU-RESISC45數(shù)據(jù)集分類(lèi)試驗(yàn)結(jié)果與分析
NWPU-RESISC45數(shù)據(jù)集[28]是由西北工業(yè)大學(xué)創(chuàng)建的遙感圖像場(chǎng)景分類(lèi)可用基準(zhǔn),比AID和UC-Merced數(shù)據(jù)集更為復(fù)雜,該數(shù)據(jù)集包含像素大小為256×256,涵蓋45個(gè)場(chǎng)景類(lèi)別,其中每個(gè)類(lèi)別有700張圖像,共計(jì)31 500張圖像。該數(shù)據(jù)集涵蓋了全球100多個(gè)具有發(fā)展中、轉(zhuǎn)型中和高度發(fā)達(dá)經(jīng)濟(jì)體的國(guó)家和地區(qū),是目前屬于較大規(guī)模的數(shù)據(jù)集,同時(shí)場(chǎng)景影像在平移、空間分辨率、視點(diǎn)、物體姿勢(shì)、照明、背景和遮擋方面存在很大差異,具有很大的組內(nèi)差異性和組間相似性。
基于本文所提出方法對(duì)更具有挑戰(zhàn)性的大型場(chǎng)景數(shù)據(jù)集NWPU-RESISC45(圖9)上進(jìn)行場(chǎng)景分類(lèi)試驗(yàn)(20%訓(xùn)練集比率,每類(lèi)別140張作為訓(xùn)練樣本,560張作為測(cè)試數(shù)據(jù))得到結(jié)果見(jiàn)表3,可見(jiàn)在采用本文所提出的基于遷移可變形卷積的網(wǎng)絡(luò)模型方法后精度提高了4.83%,Kappa系數(shù)提高了0.041 1。在更具有挑戰(zhàn)性的數(shù)據(jù)集上可變形卷積的優(yōu)勢(shì)更為明顯,不僅在初始精度上有非常明顯的提升,在整體上精度都得到了明顯提升(圖10)。由圖11所給出的混淆矩陣可以看出,宮殿與教堂場(chǎng)景由于存在相似建筑風(fēng)格而導(dǎo)致產(chǎn)生混淆現(xiàn)象較為嚴(yán)重,露天體育場(chǎng)與田徑場(chǎng)同樣由于相似的結(jié)構(gòu)也產(chǎn)生了混淆現(xiàn)象,但相對(duì)于ResNet-50模型本文所提出的添加可變形卷積層的方法都對(duì)易產(chǎn)生混淆現(xiàn)象的場(chǎng)景辨別有不同程度的提高,如籃球場(chǎng)和網(wǎng)球場(chǎng)、島嶼和河流等場(chǎng)景都減少了混淆現(xiàn)象的發(fā)生。
圖9 NWPU-RESISC45數(shù)據(jù)集示例Fig.9 Example images of NWPU-RESISC45 dataset
表3 比較模型在NWPU-RESISC45數(shù)據(jù)集上的OA、Kappa、精準(zhǔn)率和召回率
圖10 NWPU-RESISC45數(shù)據(jù)集分類(lèi)精度變化曲線Fig.10 Classification accuracy variation curve of NWPU-RESISC45 dataset
圖11 NWPU-RESISC45數(shù)據(jù)集混淆矩陣結(jié)果Fig.11 Classification confusion matrix of NWPU-RESISC45 dataset
2.2.4 與其他方法對(duì)比結(jié)果
綜上所述,基于3個(gè)具有不同挑戰(zhàn)性的場(chǎng)景數(shù)據(jù)集分類(lèi)試驗(yàn)結(jié)果可以看出: 利用遷移學(xué)習(xí)的基礎(chǔ)模型在高分辨率遙感場(chǎng)景分類(lèi)上已經(jīng)具有一定的泛化能力,而本文所提出的DTDCNN模型在基礎(chǔ)網(wǎng)絡(luò)模型上添加具有偏移量的采樣模塊,更好地學(xué)習(xí)目標(biāo)特征,有效解決了同類(lèi)物體不同位置、不同類(lèi)具有相似特征等容易產(chǎn)生混淆的現(xiàn)象,提高了目標(biāo)數(shù)據(jù)集分類(lèi)精度。與近年其他場(chǎng)景分類(lèi)方法進(jìn)行對(duì)比,為方便比較模型整體性能,選擇了與本文在數(shù)據(jù)集的選擇和試驗(yàn)設(shè)置較為接近的研究方法,結(jié)果見(jiàn)表2。由表2中可以看出,本文所提方法在各數(shù)據(jù)集上的精度相比于其他方法精度都具有一定優(yōu)勢(shì),與MF-WGANs[29]相比,在較大型數(shù)據(jù)集上表現(xiàn)更為優(yōu)秀,與Siamese ResNet-50[30]相比則在小型數(shù)據(jù)集上更占優(yōu)勢(shì); DCA Fusion[31]采用特征融合策略較好地提高了分類(lèi)精度,與DTDCNN模型精度較為接近;VggNet-16-EMR[32]基于CNN模型獲得的特征采用EMR和VLAD進(jìn)行處理后分類(lèi),在UC-Merced數(shù)據(jù)集上表現(xiàn)優(yōu)秀,但對(duì)于其在大尺寸遙感數(shù)據(jù)集上的表現(xiàn)是未知的。高分遙感場(chǎng)景數(shù)據(jù)集分類(lèi)任務(wù)對(duì)于場(chǎng)景特征的學(xué)習(xí)和判別尤為重要,本文所提方法通過(guò)將預(yù)訓(xùn)練模型與可變形卷積層進(jìn)行結(jié)合,明顯提高了對(duì)場(chǎng)景特征的學(xué)習(xí)能力,與其他方法相比則具有更高的性能。因此總體上說(shuō)明DTDCNN在場(chǎng)景分類(lèi)上仍是具有較大潛力,驗(yàn)證了其在遙感場(chǎng)景分類(lèi)任務(wù)上的有效性。
同時(shí),為驗(yàn)證DTDCNN在不同模型基礎(chǔ)上是否具有普適性,本文采用該方法基于VggNet-16模型進(jìn)行試驗(yàn),如表4結(jié)果顯示,所提DTDCNN模型對(duì)于不同數(shù)據(jù)集得到結(jié)果都較原始模型有不同程度的提高,驗(yàn)證可變形卷積與其他CNN模型組合時(shí)優(yōu)勢(shì)仍然存在,說(shuō)明所提方法具有普適性。
表4 各種方法分類(lèi)精度
針對(duì)現(xiàn)有深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感場(chǎng)景影像的幾何形變不具有穩(wěn)健性等問(wèn)題,本文提出了一種面向高分遙感影像場(chǎng)景分類(lèi)的DTDCNN模型。該方法首先基于大型自然場(chǎng)景數(shù)據(jù)集ImageNet上訓(xùn)練的深度模型提取遙感影像的深度特征,通過(guò)添加可變形卷積層增加了模型對(duì)遙感影像中幾何形變穩(wěn)健深度特征的學(xué)習(xí)能力,在AID、UC-Merced和NWPU-RESISC45數(shù)據(jù)集上都取得了較好的結(jié)果。該方法僅增加很少的模型復(fù)雜度和計(jì)算量,在精度上較普通模型有明顯提高,使得模型性能得到較為明顯的提升。根據(jù)試驗(yàn)結(jié)果不難發(fā)現(xiàn),精度提升主要來(lái)源于一些具有明顯相同特征的場(chǎng)景類(lèi)別,例如池塘和河流、體育場(chǎng)和體育館、中等密度住宅區(qū)和高密度住宅區(qū)等,驗(yàn)證了所提方法在高分辨率遙感場(chǎng)景分類(lèi)具有較為明顯優(yōu)勢(shì),同時(shí)所提方法在時(shí)間性能上也同樣有著較為出色的表現(xiàn)。在接下來(lái)的研究中可針對(duì)該方法進(jìn)一步優(yōu)化提升分類(lèi)精度,同時(shí)也可將該方法應(yīng)用于高分辨率遙感影像土地利用分類(lèi)、遙感特征地物的提取[36]等實(shí)際問(wèn)題的解決或結(jié)合光譜數(shù)據(jù)[37]獲取圖像特征進(jìn)行分類(lèi)作為下一步研究目標(biāo)。