于明洋 徐海青 張文焯 徐帥 周放亮
(山東建筑大學(xué)測(cè)繪地理信息學(xué)院,濟(jì)南 250101)
高效準(zhǔn)確的從遙感影像中提取建筑物,對(duì)于城市發(fā)展與規(guī)劃、地圖制作與更新、地區(qū)人口預(yù)估等方面具有重要意義[1-3]。隨著衛(wèi)星和傳感器技術(shù)的不斷進(jìn)步,采集的數(shù)據(jù)空間分辨率不斷提高,圖像具有更多細(xì)節(jié)特征的同時(shí)其干擾信息的冗余程度和差異也在不斷增加。如何利用高分辨率遙感影像更準(zhǔn)確、更及時(shí)地檢測(cè)并分割出建筑物,實(shí)時(shí)掌握建筑物動(dòng)態(tài)信息具有十分重要的意義[4]。
傳統(tǒng)研究主要集中在結(jié)合機(jī)器學(xué)習(xí)算法和手工特征來(lái)解決建筑提取問題[5]。文獻(xiàn)[6]基于高分辨率多光譜航空?qǐng)D像和激光雷達(dá)數(shù)據(jù)進(jìn)行空間、光譜和紋理等特征的提取,利用該多特征數(shù)據(jù)對(duì)支持向量機(jī)(Support Vector Machine,SVM)算法進(jìn)行訓(xùn)練,并對(duì)建筑物和非建筑物進(jìn)行分類;文獻(xiàn)[7]結(jié)合數(shù)字地表模型(Digital Surface Model, DSM)數(shù)據(jù)來(lái)進(jìn)行建筑物提?。晃墨I(xiàn)[8]使用激光雷達(dá)(Laser Radar,LiDar)和合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)數(shù)據(jù)來(lái)提取建筑物。此外,諸如boosting[9]和隨機(jī)森林[10]等優(yōu)秀的機(jī)器學(xué)習(xí)分類器也被用于建筑物的提取。這些基于手工特征的傳統(tǒng)方法通常需要先驗(yàn)知識(shí),適用于解決特定的任務(wù),而且它們的提取效率無(wú)法保證,因此難以廣泛應(yīng)用于建筑物的自動(dòng)提取。
隨著計(jì)算機(jī)運(yùn)算性能和算力的快速增長(zhǎng),利用深度學(xué)習(xí)算法進(jìn)行建筑物提取取得諸多進(jìn)展。文獻(xiàn)[11]以Unet 為基礎(chǔ),設(shè)計(jì)了新的交叉熵?fù)p失函數(shù),并且引入形態(tài)學(xué)建筑物指數(shù)來(lái)進(jìn)行建筑物提??;文獻(xiàn)[12]提出基于注意力重新加權(quán)的RFU-Net,在融合不同特征時(shí)通過注意力機(jī)制彌合特征之間的語(yǔ)義差距,并在三個(gè)公開航空影像數(shù)據(jù)集上驗(yàn)證了模型的改進(jìn)性能;文獻(xiàn)[13]等基于雙線性插值上采樣和多尺度特征組合提出一種多尺度建筑物提取網(wǎng)絡(luò),以解決語(yǔ)義分割網(wǎng)絡(luò)中的連續(xù)下采樣會(huì)損失特征中的細(xì)節(jié)信息,導(dǎo)致提取結(jié)果邊緣模糊的問題;文獻(xiàn)[14]同時(shí)使用膨脹卷積與金字塔池化來(lái)進(jìn)行建筑物提?。晃墨I(xiàn)[15]使用雙注意力機(jī)制,并對(duì)比了不同的連接方式來(lái)進(jìn)行建筑物提取。諸多學(xué)者針對(duì)建筑物語(yǔ)義分割做了相關(guān)研究,但大部分沒有基于圖像的高級(jí)特征對(duì)模型進(jìn)行優(yōu)化改進(jìn),圖像高級(jí)特征的利用程度不夠,直接影響到部分建筑的提取效果。
與許多現(xiàn)存方法不同,本文針對(duì)在建筑物提取任務(wù)中深層語(yǔ)義特征利用程度不夠充分以及裁剪后圖像邊緣的建筑分割易混淆的問題,設(shè)計(jì)了一種新的深度學(xué)習(xí)建筑物提取網(wǎng)絡(luò)ASCP-Net。模型先經(jīng)過ASPP 模塊在多個(gè)尺度上進(jìn)行高級(jí)特征提取,再通過空間與通道注意力機(jī)制選擇性地融合特定位置和通道中更有用的特征,進(jìn)一步加強(qiáng)對(duì)圖像高級(jí)特征的利用。本文方法可以同時(shí)維持模型對(duì)淺層特征和深層多尺度特征的表征能力,保證對(duì)不同尺度建筑物提取的完整性;同時(shí),從空間和通道兩種維度表示不同的語(yǔ)義特征,提升對(duì)影像邊緣不完整建筑物的分割精度。最后,與五種經(jīng)典算法進(jìn)行對(duì)比,證明我們的方法可以有效改善提取過程中出現(xiàn)的漏提現(xiàn)象,提升建筑物的整體分割精度。
本文提出網(wǎng)絡(luò)的總體框架如圖1 所示??斩纯臻g與通道感知網(wǎng)絡(luò)(ASCP-Net)是一種端到端的訓(xùn)練模型,整體框架分為編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。編碼器部分通過深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network, DCNN)+ 空洞空間金子塔池化(Atrous Spatial Pyramid Pooling, ASPP)+ 空間與通道注意力(Spatial and Channel Attention, SCA)進(jìn)行影像特征提取,先在DCNN 中通過設(shè)置不同的空洞卷積擴(kuò)張率得到低層特征圖和高層特征圖,高層特征經(jīng)過ASPP 進(jìn)行多尺度特征提取,更好地保留影像中的語(yǔ)義信息; 再經(jīng)過SCA 網(wǎng)絡(luò)自適應(yīng)地將位置上相似的特征進(jìn)行關(guān)聯(lián),同時(shí)選擇性地強(qiáng)調(diào)相互依賴的通道圖;最后將兩個(gè)注意力模塊的輸出相加,以進(jìn)一步改進(jìn)特征表示,低層特征與經(jīng)過特征增強(qiáng)的高層特征將一起輸入到解碼器部分。解碼網(wǎng)絡(luò)負(fù)責(zé)對(duì)編碼信息進(jìn)行解碼,恢復(fù)特征圖的語(yǔ)義特征信息。高層特征經(jīng)過4 倍雙線性內(nèi)插上采樣再與經(jīng)過1×1 卷積運(yùn)算后的低層特征進(jìn)行融合,聚合不同尺度的語(yǔ)義特征,同時(shí)避免出現(xiàn)梯度消失問題。通過上采樣將輸出結(jié)果分為兩類:建筑物和非建筑物。
圖1 模型整體架構(gòu)Fig.1 Overall architecture of the model
DCNN 是在傳統(tǒng)CNN 的基礎(chǔ)上通過重復(fù)堆疊多個(gè)卷積層來(lái)實(shí)現(xiàn)的一種網(wǎng)絡(luò)結(jié)構(gòu),通過增加神經(jīng)網(wǎng)絡(luò)的深度來(lái)直接影響模型的信息提取能力。本文使用深層網(wǎng)絡(luò)模型Xception[16]來(lái)分別提取圖像的低級(jí)特征和高級(jí)特征,其內(nèi)部主要結(jié)構(gòu)為殘差卷積神經(jīng)網(wǎng)絡(luò)。ResNet[17]由何愷明等人于2015 年提出,它通過建立跳躍連接在很大程度上解決了梯度消失的問題,從而可以訓(xùn)練到更深層的網(wǎng)絡(luò),ResNet 的殘差計(jì)算方法如式(1)
式中xk-1為第k-1 層的輸出;L表示對(duì)上一層的輸入圖進(jìn)行卷積、歸一化等操作;xk為第k層輸出的結(jié)果;ResNet 的殘差結(jié)構(gòu)如圖2(a)所示。
圖2 殘差網(wǎng)絡(luò)和 ASPP 的結(jié)構(gòu)Fig.2 Structure of the residual network and ASPP
ASPP 最開始在Deeplab V2 中提出,它將空洞卷積與金字塔池化(Spatial Pyramid Pooling,SPP)進(jìn)行結(jié)合[18]。SPP 的核心思想是利用多個(gè)不同尺度的池化層進(jìn)行特征提取并融合成一個(gè)尺度統(tǒng)一的向量輸入到全連接層,以解決池化層產(chǎn)生的不同輸出導(dǎo)致全連接層無(wú)法訓(xùn)練的問題。如圖2(b)所示,對(duì)于給定的輸入,ASPP 用不同擴(kuò)張率的空洞卷積進(jìn)行并行采樣,包括一個(gè)1×1 的卷積層,多個(gè)不同擴(kuò)張率的3×3 的卷積層以及一個(gè)池化層,池化后的特征信息經(jīng)過1×1 的卷積和上采樣將圖像尺寸恢復(fù)至預(yù)期值,最后將得到的所有結(jié)果拼接來(lái)擴(kuò)大通道數(shù),再通過 1×1的卷積來(lái)將通道數(shù)降低到預(yù)期值進(jìn)行輸出。在本文中,輸入為上一步深度神經(jīng)網(wǎng)絡(luò)提取出的高級(jí)語(yǔ)義信息,經(jīng)過ASPP 進(jìn)行多尺度特征提取,從而有效聚合多個(gè)不同尺度的圖像高級(jí)語(yǔ)義特征。
SCA 模塊[19]通過加入通道注意力機(jī)制和位置注意力機(jī)制進(jìn)一步利用網(wǎng)絡(luò)中的多種特征信息。位置注意力模塊與特征圖中哪些位置更為重要相關(guān)聯(lián),即對(duì)應(yīng)原始圖像中哪些感受野更為重要;通道注意力模塊與特征圖中哪些通道更為重要相關(guān)聯(lián),它以一種自適應(yīng)的方式讓網(wǎng)絡(luò)更好的學(xué)習(xí)輸入影像中的重要信息,從而提高模型的特征表示能力。在本文中,輸入為經(jīng)過ASPP 處理的圖像高級(jí)語(yǔ)義特征,通過空間注意力模塊和通道注意力模塊分別處理后將兩者得到的結(jié)果進(jìn)行累加;再經(jīng)過一個(gè) 1 ×1的卷積后將最終結(jié)果輸入到解碼器中。
1.3.1 通道注意力模塊
通道注意力模塊通過計(jì)算輸入圖像各通道的權(quán)重來(lái)選擇性的關(guān)注信息更為豐富的通道,提高特征的表示能力。如圖3(a)所示,原始輸入A的形狀為C×H×W(C、H、W分別表示輸入的通道數(shù)、高度和寬度),先對(duì)其進(jìn)行變形、轉(zhuǎn)換得到大小為K×C(K=H×W)的矩陣,再對(duì)A進(jìn)行變形得到C×K(K=H×W)的矩陣,將兩個(gè)矩陣相乘再經(jīng)過Softmax 得到形狀為C×C的權(quán)重矩陣N;將N與變形后的原始輸入A相乘得到形狀為C×K(K=H×W)的矩陣,最后將得到的矩陣變形后與原始的A進(jìn)行累加得到最終結(jié)果E=C×H×W。
圖3 通道與位置注意力模塊Fig.3 Channel and position attention modules
1.3.2 位置注意力模塊
位置注意力模塊重點(diǎn)關(guān)注圖像關(guān)鍵信息更豐富的空間區(qū)域并賦予它們更大的權(quán)重。如圖3(b)所示,位置注意力機(jī)制與通道注意力機(jī)制類似,不同之處在于不是對(duì)原始輸入A本身進(jìn)行變形轉(zhuǎn)換,而是先通過神經(jīng)網(wǎng)絡(luò)對(duì)A進(jìn)行處理得到形狀相似的矩陣B、O、D,再分別對(duì)B、O、D進(jìn)行處理。B通過變形、轉(zhuǎn)換之后形狀為K×C(K=H×W),再與變形后的O矩陣進(jìn)行相乘,經(jīng)過Softmax 處理后得到形狀為K×K(K=H×W)的權(quán)重矩陣M;再對(duì)矩陣D進(jìn)行變形,得到形狀為C×K的矩陣,將該矩陣與M進(jìn)行相乘得到結(jié)果,再將變形后的結(jié)果與原始輸入A進(jìn)行相加得到最終輸出F=C×H×W。
解碼器的主要輸入為圖像經(jīng)過DCNN 處理得到淺層特征以及經(jīng)過雙重注意力機(jī)制處理后的深層特征。淺層特征通過1×1 的卷積將通道數(shù)縮減為預(yù)期值,深層特征通過上采樣調(diào)整大小后將得到的兩種特征進(jìn)行拼接;再使用一個(gè)3×3 的卷積對(duì)拼接結(jié)果進(jìn)行處理,通過一個(gè)上采樣把特征圖恢復(fù)到原始尺寸大小進(jìn)行最終輸出。
本研究采用WHU 建筑數(shù)據(jù)集(WHU Building Dataset),該數(shù)據(jù)集采集于新西蘭克賴斯特徹奇,包括8 189 幅大小為512 像素×512 像素的遙感影像,其中訓(xùn)練集、驗(yàn)證集和測(cè)試集的樣本數(shù)量分別為4 910、1 400 和1 879。驗(yàn)證集影像空間分辨率為0.3 m;同時(shí)本研究對(duì)原始影像進(jìn)行數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)主要通過對(duì)樣本進(jìn)行變形處理來(lái)增加訓(xùn)練樣本,避免模型出現(xiàn)過擬合現(xiàn)象[20]。如圖4 所示,本文通過對(duì)樣本進(jìn)行垂直、水平鏡像翻轉(zhuǎn)以及不同角度的旋轉(zhuǎn)來(lái)實(shí)現(xiàn)圖像數(shù)據(jù)增強(qiáng)。
圖4 經(jīng)過數(shù)據(jù)增強(qiáng)的影像與標(biāo)簽Fig.4 Data enhanced images and labels
本研究基于PyTorch 深度學(xué)習(xí)框架,使用TorchVision、Scikit-Image、Matplotlib 等開源python 庫(kù)進(jìn)行影像處理,搭配NVIDIA GeForce GTX 3070 Ti 顯卡進(jìn)行模型訓(xùn)練,顯存為8 GB,使用CUDA11.0 加速運(yùn)算,同時(shí)對(duì)比實(shí)驗(yàn)了五種經(jīng)典的語(yǔ)義分割模型。實(shí)驗(yàn)過程中,選用二元交叉熵作為損失函數(shù),優(yōu)化器的初始學(xué)習(xí)率設(shè)置為1×10-4。為了避免過擬合,在所有卷積中引入正則化操作,權(quán)重衰減為1×10-4,模型訓(xùn)練次數(shù)設(shè)置為150;為了克服GPU 內(nèi)存的限制,批量大小設(shè)為8。
本研究采用整體精度OA、召回率Recall、準(zhǔn)確率Precision、F1 評(píng)分、交并比IoU 和卡帕系數(shù)Kappa 六個(gè)指標(biāo)完成精度評(píng)價(jià)。部分指標(biāo)的定義見式(2) ~式(5):
式中 TP 表示被正確分類的正類像素?cái)?shù)目;TN 表示被正確分類的負(fù)類像素?cái)?shù)目;FP 表示被錯(cuò)分為正類的像素?cái)?shù)目;FN 表示被錯(cuò)分為負(fù)類的像素?cái)?shù)目;Po表示總體分類精度;Pe表示偶然一致性誤差;a1,a2,…,at分別表示每一類的真實(shí)樣本總個(gè)數(shù);b1,b2,…,bt分別表示每一類的預(yù)測(cè)樣本總個(gè)數(shù);t為樣本的類型數(shù);n為樣本總數(shù)。
本文對(duì)比實(shí)驗(yàn)了五種經(jīng)典的語(yǔ)義分割模型,包括DANet[21]、FCN8s[22]、SegNet[23]、Unet[24]和DeepLabv3+[25]。如圖5 所示,紅色區(qū)域表示各方法相對(duì)真實(shí)標(biāo)簽多提取的部分,藍(lán)色區(qū)域表示各方法相對(duì)真實(shí)標(biāo)簽未提取的部分。從圖中可以看出,除了本文方法外,其他方法都存在較多錯(cuò)誤識(shí)別的區(qū)域??傮w來(lái)說,DANet 表現(xiàn)最差,檢測(cè)到的建筑物邊界不清,存在目標(biāo)預(yù)測(cè)不完整以及多分的問題。FCN8s、SegNet、Unet、DeepLabv3+和ASCP-Net 在測(cè)試數(shù)據(jù)上建筑物邊緣的平滑性較好,但相比其他幾種方法,ASCP-Net 劃分的區(qū)域中錯(cuò)分點(diǎn)更少。同時(shí),ASCP-Net 模型提取出的建筑物具有準(zhǔn)確的輪廓以及較為完整的內(nèi)部結(jié)構(gòu),與實(shí)驗(yàn)的其他模型相比提取效果更好。
圖5 不同模型的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Comparison of experimental results of different models
受計(jì)算機(jī)內(nèi)存資源和硬件的影響,無(wú)法將獲取的高分辨率遙感影像直接輸入到神經(jīng)網(wǎng)絡(luò)模型中,需要將高分影像裁剪成需要的尺寸大小,但同一目標(biāo)可能會(huì)被裁剪到不同圖像的邊緣位置,這會(huì)破壞邊緣目標(biāo)的紋理特征,為準(zhǔn)確提取邊緣地物帶來(lái)挑戰(zhàn)。如圖6 所示,黃色線框表示不同模型對(duì)邊緣建筑的提取效果,對(duì)于FCN8s、Unet、DeepLabv3+等網(wǎng)絡(luò),所提取的邊緣建筑均有漏分、錯(cuò)分等現(xiàn)象,主要原因是邊緣地物的部分特征被破壞,網(wǎng)絡(luò)無(wú)法進(jìn)行準(zhǔn)確提取。而本文所提出的方法能夠較準(zhǔn)確提取出圖像邊緣被分割的地物,原因是該方法通過加入ASPP 有效的利用了圖像的高級(jí)語(yǔ)義信息,同時(shí)加入雙注意力機(jī)制來(lái)精確捕獲邊緣地物像素之間的位置依賴關(guān)系和通道依賴關(guān)系,增強(qiáng)利用了邊緣地物的特征語(yǔ)義信息,使得我們的方法能夠推斷出邊緣不完整地物的位置,同時(shí)實(shí)現(xiàn)更準(zhǔn)確的邊緣地物提取,有效改善了其他方法對(duì)邊緣地物提取不夠準(zhǔn)確的缺陷。
圖6 不同模型對(duì)圖像邊緣建筑的分割效果對(duì)比Fig.6 Comparison of segmentation effect of different models on image edge buildings
對(duì)于一些建筑區(qū)域的提取,本文方法實(shí)現(xiàn)了較好的效果,而FCN8s、Unet、DeepLabv3+等模型均出現(xiàn)了較多的漏分區(qū)域。如圖7 所示,黃色線框表示一定范圍內(nèi)各方法漏提的區(qū)域分布。從圖像上來(lái)看,該區(qū)域的建筑表面與多種地物相鄰,包括綠化植物、硬質(zhì)地面等,這為精確提取該類建筑帶來(lái)了挑戰(zhàn)。經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)FCN8s 和Unet 均出現(xiàn)了一些漏分區(qū)域,主要原因是網(wǎng)絡(luò)模型未充分利用圖像的高級(jí)語(yǔ)義特征,并且所劃分的像素之間并不具備多種依賴關(guān)系。DANet 雖然加入了雙注意力機(jī)制,但是對(duì)于圖像高級(jí)特征的挖掘還不夠充分。DeepLabv3+未加入注意力機(jī)制,無(wú)法充分建立相關(guān)像素點(diǎn)之間的各種依賴,最終導(dǎo)致無(wú)法有效利用地物的特征語(yǔ)義信息。本文提出的方法從多個(gè)尺度利用圖像的高級(jí)特征,并且通過雙通道注意力機(jī)制進(jìn)一步加強(qiáng)了高級(jí)特征維度上像素之間的依賴,相比其他方法,在該區(qū)域?qū)崿F(xiàn)了更好的提取效果。
圖7 不同模型漏提的區(qū)域分布對(duì)比示意圖Fig.7 Comparison figure of regional distribution omitted from different models
CNN 對(duì)圖像進(jìn)行卷積操作時(shí),所處理的圖像特征范圍都是在一定區(qū)域內(nèi)的,或者說是局部的。通過確定局部區(qū)域內(nèi)每個(gè)像素的類別,網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)不同目標(biāo)地物的提取和分類。但當(dāng)提取大尺度地物時(shí),對(duì)局部特征的提取并無(wú)法代表整個(gè)目標(biāo),提取的不連貫的細(xì)部特征會(huì)造成大尺度地物內(nèi)部的不一致性,使得整個(gè)區(qū)域的分割不完整。本文提出的方法通過加入ASPP 模塊和雙注意力機(jī)制,能夠有效聚合圖像相關(guān)區(qū)域的上下文依賴信息,將圖像位置不同的局部特征信息聯(lián)系起來(lái),保證了大尺度區(qū)域提取的內(nèi)部一致性。如圖8 所示,黃色線框表示一些方法所提區(qū)域內(nèi)部存在的空洞點(diǎn),紅色線框表示未能進(jìn)行有效識(shí)別的區(qū)域。本文方法加強(qiáng)了不同細(xì)節(jié)特征之間的聯(lián)系,可保證所提取目標(biāo)內(nèi)部的完整性。雖然DeepLabv3+模型也避免了該區(qū)域的內(nèi)部空洞現(xiàn)象,但是對(duì)于一些稍大的邊緣地物的提取,其內(nèi)部也容易出現(xiàn)不連續(xù)的空洞點(diǎn)。此外,對(duì)于原始影像的紅色線框內(nèi)區(qū)域,所有方法都未能實(shí)現(xiàn)準(zhǔn)確識(shí)別,主要原因是這種類似硬質(zhì)地面的紋理可能會(huì)被識(shí)別為非建筑物特征,而實(shí)際上它們也代表一些低層建筑的屋頂部分或者與主體建筑相鄰的微小建筑。
圖8 大尺度建筑的提取效果對(duì)比Fig.8 Comparison of the extraction effect of large-scale buildings
不同模型對(duì)建筑物提取的定量結(jié)果如表1 所示。
表1 不同模型的精度評(píng)估Tab.1 Accuracy evaluation of different models
DANet 幾乎在所有指標(biāo)上的表現(xiàn)最差,F(xiàn)CN8s 模型在Precision 參數(shù)指標(biāo)上的表現(xiàn)最差,本文的模型在所有指標(biāo)上都優(yōu)于其他模型。交并比指標(biāo)比FCN8s 模型提升了9.1 個(gè)百分點(diǎn),比DANet 模型提升了22.5 個(gè)百分點(diǎn),比SegNet 模型提升了10.6 個(gè)百分點(diǎn),比UNet 模型提升了6.9 個(gè)百分點(diǎn),比DeepLabv3+模型提升了3.1 個(gè)百分點(diǎn);Kappa 值比DANet 提升了14.9 個(gè)百分點(diǎn),比Unet 提升了2.4 個(gè)百分點(diǎn),比DeepLabv3+提升了1.6 個(gè)百分點(diǎn),總體提升效果顯著。定性分析和定量評(píng)價(jià)結(jié)果表明,ASCP-Net 在建筑物提取任務(wù)中具有更為優(yōu)異的綜合性能。
為有效驗(yàn)證各個(gè)模塊對(duì)最終實(shí)驗(yàn)結(jié)果的影響,本文在WHU Building Dataset 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。具體結(jié)果如表2 所示。
表2 各個(gè)模塊對(duì)實(shí)驗(yàn)結(jié)果的影響Tab.2 Influence of each module on the experimental results
消融研究以Xception 網(wǎng)絡(luò)為基礎(chǔ),依次增加ASPP 模塊、通道注意力模塊和位置注意力模塊進(jìn)行實(shí)驗(yàn)。ASPP 模塊可以提升網(wǎng)絡(luò)對(duì)多尺度特征的提取能力,同時(shí)一定程度上提高了網(wǎng)絡(luò)的泛化能力;位置注意力模塊選擇關(guān)注圖像關(guān)鍵信息更豐富的空間區(qū)域,通道注意力模塊可以重點(diǎn)關(guān)注信息更為豐富的影像通道,它們都可以進(jìn)一步提升網(wǎng)絡(luò)對(duì)高級(jí)特征的表示能力。由表2 可以得出,通過加入ASPP 模塊,IoU指標(biāo)和Kappa 系數(shù)分別提升了2.5 個(gè)百分點(diǎn)和3.8 個(gè)百分點(diǎn);同時(shí),加入通道注意力模塊和位置注意力模塊會(huì)進(jìn)一步提升網(wǎng)絡(luò)的精度,值得注意的是,只加入位置注意力模塊(方案4)相比只加入通道注意力模塊(方案3)帶來(lái)的精度提升更明顯。因此,在建筑物提取任務(wù)中,位置信息要比通道信息更為重要。以上說明了各個(gè)模塊的組合在ASCP-Net 中均產(chǎn)生了積極作用,有助于模型實(shí)現(xiàn)更精確的建筑物提取任務(wù)。
針對(duì)現(xiàn)有相關(guān)研究很少基于影像的高級(jí)語(yǔ)義特征對(duì)模型進(jìn)行優(yōu)化改進(jìn),本文提出一種新的深度學(xué)習(xí)模型架構(gòu)ASCP-Net,可用于高分辨率遙感影像建筑物較精準(zhǔn)的自動(dòng)提取,研究選用WHU Building Dataset 為數(shù)據(jù)源,采用融合了ASPP 與SCA 的非對(duì)稱編解碼結(jié)構(gòu)模型進(jìn)行建筑物提取,并與FCN8s、UNet、DeepLabv3+等經(jīng)典語(yǔ)義分割模型方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明:
1)本文所提出的ASCP-Net 模型對(duì)WHU 數(shù)據(jù)集的總體準(zhǔn)確率(97.4%)、精確度(94.9%)、召回率(94.3%)、F1 評(píng)分(94.6%)、IoU(89.8%)、Kappa 值(0.787)比其他方法要高,IoU 指標(biāo)相比其他方法有顯著提高。ASCP-Net 模型具有相對(duì)良好的性能,在建筑物提取中具有潛在的應(yīng)用前景;
2)相比其他模型,本文的方法在對(duì)圖像邊緣不完整建筑的分割中更具優(yōu)勢(shì),提取的邊緣建筑更為完整;
3)對(duì)于一些小地物的提取,本文方法還存在一些不足。部分獨(dú)立的微小建筑或者與主體建筑相鄰的微小部分容易被漏分。
地物背景信息的復(fù)雜多樣性為建筑物提取工作帶來(lái)困難,小地物的精確提取一直是語(yǔ)義分割任務(wù)中需要解決的難題。今后研究中將考慮在模型的解碼器部分增加更多的低層特征來(lái)源,并進(jìn)一步與其他算法相結(jié)合,以提高小地物的提取精度。