沈晶靈 楊曉竹
摘 要:針對(duì)傳統(tǒng)監(jiān)督分類對(duì)高空間分辨率遙感影像中建筑物信息提取精度較低的問(wèn)題,改進(jìn)SegNet模型,利用U-Net模型中的跳層連接結(jié)構(gòu)補(bǔ)充SegNet模型中解碼器層的目標(biāo)細(xì)節(jié),加入空洞空間金字塔池化模塊增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的捕捉能力。利用改進(jìn)后的SegNet、全卷積神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和最大似然法,對(duì)遙感影像中建筑物的提取結(jié)果進(jìn)行對(duì)比分析。以法國(guó)國(guó)家信息與自動(dòng)化研究所航空?qǐng)D像標(biāo)記數(shù)據(jù)集為數(shù)據(jù)源,對(duì)分類結(jié)果進(jìn)行定性和定量分析。在有限的迭代次數(shù)和實(shí)驗(yàn)區(qū)域內(nèi),改進(jìn)后的SegNet的Kappa系數(shù)在80%以上,總體精度超過(guò)90%,在邊緣細(xì)節(jié)的分類效果更精細(xì),改進(jìn)后的SegNet對(duì)遙感圖像中建筑物的提取效果更好、精度更高,具有可行性和有效性。
關(guān)鍵詞:SegNet;高分影像;建筑物提取;ASPP模塊
中圖分類號(hào):P237 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2021)25-0006-05
High-Scoring Image Building Extraction Based on the Improved SegNet
SHEN Jingling YANG Xiaozhu
(College of Surveying and Mapping and Geographic Science, Liaoning University of Engineering and Technology,
Fuxin Liaoning 123000)
Abstract: In view of the low accuracy of building information extraction in high spatial resolution remote sensing images by traditional supervision classification, this paper improves the SegNet model, used the jumper connection structure in the U-Net model to supplement the target details of the decoder layer in the SegNet model, and adds ASPP module to enhance the network's ability to capture multi-scale targets.The results of the extraction of buildings in remote sensing imagery are compared using the improved SegNet, Full Convolutional Neural Networks, Support Vector Machine, and Maximum Likelihood Classification.Using the INRIA aerial image marker data set as the data source, through qualitative and quantitative analysis of the classification results, the improved SegNet Kappa coefficient is more than 80% in the limited iteration and experimental area, the overall accuracy is more than 90%, and its classification effect in the edge details is more fine.It is shown that the improved SegNet is more effective, more accurate and feasible for the extraction of buildings in remote sensing images.
Keywords: SegNet;high-scoring imagery;building extraction;ASPP module
高分辨率遙感圖像的特征識(shí)別和檢測(cè)是當(dāng)前科學(xué)領(lǐng)域的研究熱點(diǎn)[1],其提取的信息內(nèi)容豐富,包括地物信息與紋理信息[2]。近年來(lái),大量學(xué)者對(duì)高分辨率遙感影像中的地物信息提取等問(wèn)題進(jìn)行了研究,并提出了K均值[3]、迭代自組織的數(shù)據(jù)分析法(Iterative Self-Organizing Data Analysis Method,ISODATA)[4]、面向?qū)ο蟮姆诸惙椒╗5]、最大似然法[6]、最小距離法[7]以及支持向量機(jī)[8-9]等方法。然而,在空間分辨率較高的遙感圖像中,由于這些方法依賴于光譜特征,導(dǎo)致提取精度較低。隨著分辨率的提高,圖像中的噪聲信息越來(lái)越突出。異物同譜和同物異譜等現(xiàn)象給影像質(zhì)量帶來(lái)的問(wèn)題日益突出,給在高分辨率遙感圖像中進(jìn)行目標(biāo)精確提取造成了很大影響[2]。
隨著計(jì)算機(jī)硬件性能不斷提高,由KRIZHEVSKY A等[10]提出的AlexNet網(wǎng)絡(luò),使得卷積神經(jīng)網(wǎng)絡(luò)在2012年再次受到廣泛關(guān)注。AlexNet使用了一種基于LeNet[11]的更深層次的網(wǎng)絡(luò)結(jié)構(gòu),使用卷積層來(lái)表現(xiàn)圖像特征。LONG等[12]研究的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)模型,使卷積神經(jīng)網(wǎng)絡(luò)進(jìn)入語(yǔ)義分割領(lǐng)域并得到廣泛應(yīng)用與發(fā)展。FCN的突出特點(diǎn)在于接受任意大小的輸入,且有效地前向傳播產(chǎn)生相應(yīng)的輸出。
寧宵等[13]提出利用U-Net模型,RONNEBERGER O等[14]提出利用SegNet模型和改進(jìn)后的SegNet模型對(duì)遙感影像進(jìn)行建筑物提取,對(duì)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,然后進(jìn)行遙感影像的預(yù)測(cè),達(dá)到了建筑物提取的目的,最后通過(guò)提取結(jié)果進(jìn)行對(duì)比分析?;谀壳斑b感影像豐富的地類信息和復(fù)雜的建筑物結(jié)構(gòu)的問(wèn)題,U-Net模型和SegNet模型在遙感影像的建筑物、道路以及水體等重要地物的提取方面取得了良好效果。
在此基礎(chǔ)上,對(duì)傳統(tǒng)的SegNet模型進(jìn)行改進(jìn)。結(jié)合U-Net模型優(yōu)點(diǎn),使用其中的跳層連接結(jié)構(gòu)補(bǔ)充SegNet模型的解碼器層的目標(biāo)細(xì)節(jié),并在其中加入改進(jìn)的ASPP模塊,加強(qiáng)捕捉多尺度目標(biāo)的能力,得到改進(jìn)后的SegNet模型。通過(guò)改進(jìn)后的SegNet模型對(duì)高分辨率遙感影像中的目標(biāo)建筑物進(jìn)行精確提取,并與MLC、SVM和FCN算法進(jìn)行比較。結(jié)構(gòu)表明該算法提取的分類精度更高,邊緣細(xì)節(jié)更好,效果更佳。
1 研究方法
空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)由CHEN L C等[15]在DeepLab v2網(wǎng)絡(luò)中提出,并在DeepLab v3中改進(jìn)。圖1為DeepLab v3中的改進(jìn)ASPP模塊。改進(jìn)ASPP模塊中包含空洞卷積的空洞率分別為6、12、18,以及一個(gè)1×1卷積和一個(gè)全局平均池化層,且在每一個(gè)空洞卷積和全局平均池化層后添加一個(gè)1×1卷積,使得各自輸出的特征圖維度相同。不同大小的空洞卷積能夠捕捉多種尺寸的目標(biāo),增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺寸建筑物的分割能力。DeepLab v2中,ASPP模塊采用4種不同空洞率的空洞卷積。但是,當(dāng)空洞卷積的空洞率接近輸入特征圖尺寸時(shí),空洞卷積只有中間部分的權(quán)重對(duì)特征圖有效。DeepLab v3在ASPP中加入了一個(gè)全局平均池化層為1×1的卷積核。1×1卷積用于捕捉更細(xì)小的目標(biāo),而全局平均池化能夠整合整個(gè)特征圖的信息,有效解決了上述問(wèn)題。最后,將空洞率為6、12、18的空洞卷積、1×1卷積和全局平均池化層得到的特征圖進(jìn)行concat操作。為了使其與輸入相當(dāng),使用1×1卷積調(diào)整輸出特征圖的維度。
SegNet在卷積層部分全部采用尺寸為3×3的卷積核,導(dǎo)致SegNet對(duì)不同尺度對(duì)象的捕捉能力存在欠缺。使用SegNet網(wǎng)絡(luò)進(jìn)行建筑物和非建筑物二分類,實(shí)現(xiàn)遙感影像建筑物提取。它的上池化操作使其在小尺寸建筑物上提取效果較好,但在大尺寸建筑物上則提取結(jié)果不連續(xù)。同時(shí),由于SegNet的解碼器沒(méi)有引入編碼器階段的特征圖,導(dǎo)致丟失一定的細(xì)節(jié)。為了增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的捕捉能力,在SegNet中加入改進(jìn)的ASPP模塊,同時(shí)通過(guò)加入U(xiǎn)-Net中的跳層連接結(jié)構(gòu)來(lái)補(bǔ)充解碼器層的目標(biāo)細(xì)節(jié)。
針對(duì)SegNet對(duì)不尺度目標(biāo)信息捕捉能力有限,對(duì)大尺寸建筑物提取不連續(xù)的問(wèn)題,提出改進(jìn)SegNet網(wǎng)絡(luò)結(jié)構(gòu),改進(jìn)后的SegNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中,Conv3-64是利用大小為3×3的卷積核,設(shè)置卷積層深度為64,整體網(wǎng)絡(luò)結(jié)構(gòu)采用對(duì)稱形式的編碼器-解碼器結(jié)構(gòu)。編碼器層與VGG16的卷積層部分完全相同。13個(gè)層主要是卷積層、最大池化層和ReLU激活函數(shù)。5個(gè)最大池化層分為5組,每組的卷積層深度分別為64、128、256、512、512,均采用大小為3×3的卷積核。解碼器與編碼器相對(duì)稱,同樣分為5組,卷積層的深度和卷積核的尺寸也相同。不同的是,解碼器將最大池化層對(duì)應(yīng)替換為上池化層,以將特征圖恢復(fù)至輸入大小。在編碼器與解碼器層中間則是改進(jìn)的ASPP模塊,用多個(gè)空洞率的空洞卷積增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的捕捉能力。改進(jìn)SegNet在使用上池化來(lái)恢復(fù)特征圖大小的同時(shí),引入U(xiǎn)-Net中提出的跳層連接結(jié)構(gòu)。該結(jié)構(gòu)能夠?qū)⒕幋a器得到的特征圖采用concat操作與解碼器對(duì)應(yīng)位置的特征圖結(jié)合,恢復(fù)在編碼器階段進(jìn)行最大池化操作時(shí)丟失的信息。最后,通過(guò)softmax分類器[16]計(jì)算每個(gè)像素屬于每一個(gè)類別的概率,從而判斷該像素的所屬類別。
2 試驗(yàn)與討論
2.1 數(shù)據(jù)介紹與組織
本次試驗(yàn)選取了法國(guó)國(guó)家信息與自動(dòng)化研究所的數(shù)據(jù)集(INRIA Aerial Image Labeling Dataset,IAILD)。該數(shù)據(jù)集所采用的遙感影像為美國(guó)、澳大利亞兩處的居民地,并標(biāo)注出建筑物與非建筑物,航空正射校正影像的空間分辨率是0.3 m,覆蓋范圍從人口密集地區(qū)(如舊金山的金融區(qū))延伸到高山城鎮(zhèn)地區(qū)(如奧地利蒂羅爾州的列昂斯),總面積為810 km2。同時(shí)法國(guó)國(guó)家信息與自動(dòng)化研究所的數(shù)據(jù)集航空影像標(biāo)注數(shù)據(jù)集也解決了遙感中的一個(gè)核心問(wèn)題,即航空影像的自動(dòng)像素化標(biāo)注。本文選取3幅影像Ⅰ、Ⅱ、Ⅲ作為試驗(yàn)的測(cè)試數(shù)據(jù),其原始影像和對(duì)應(yīng)的真值圖分別如圖3、圖4和圖5所示。
2.2 試驗(yàn)環(huán)境與參數(shù)設(shè)置
本文試驗(yàn)環(huán)境為Window 7操作系統(tǒng),基于Keras訓(xùn)練網(wǎng)絡(luò)。硬件方面CPU為Intel(R) Core i7 4790,GPU為Nvidia GTX1060 6G,選取MLC、SVM、FCN作為對(duì)比算法。訓(xùn)練參數(shù)方面,均采用Adadelta[17]作為優(yōu)化器,epoch設(shè)置為100,batch size設(shè)置為3。
2.3 試驗(yàn)結(jié)果與分析
圖6為MLC、SVM、FCN和改進(jìn)后的SegNet在a、b、c三幅影像的分類結(jié)果。由圖6可以看出:MLC和SVM對(duì)高空間分辨率遙感影像中建筑物的提取效果不理想,且噪聲多,在非建筑物的人造設(shè)施上出現(xiàn)了較為嚴(yán)重的錯(cuò)分現(xiàn)象;作為深度學(xué)習(xí)算法的FCN和改進(jìn)后的SegNet的分類效果要明顯好于MLC和SVM,二者對(duì)非建筑物的人造設(shè)施錯(cuò)分現(xiàn)象大大減少,整體分類效果較好;改進(jìn)后的SegNet與FCN相比,其在邊緣細(xì)節(jié)的分類效果上更優(yōu),對(duì)建筑物的邊緣把控得更好(見(jiàn)圖7),F(xiàn)CN則在大型建筑物的連續(xù)性上更有優(yōu)勢(shì)。
采用交并比(Intersection over Union,IoU)、Kappa和總體準(zhǔn)確率(Overall Accuracy,OA)對(duì)分類結(jié)果進(jìn)行定量評(píng)價(jià)。
交并比IoU的計(jì)算公式為:
IoU=TP/TP+FP+FN? ? ? ? ? ? ? ? ? ? (1)
式中:[TP]代表正確的分類;[FP]代表錯(cuò)誤分類;[FN]代表泄漏分類。表1、表2以及表3分別表示各個(gè)算法在3張影像上的分類準(zhǔn)確率。
由表1可以看到,在每個(gè)評(píng)估指標(biāo)中,改進(jìn)后的SegNet算法測(cè)試結(jié)果明顯高于其他3種分類算法。在表1中,F(xiàn)CN比MLC、SVM的Kappa系數(shù)和總體準(zhǔn)確率分別提高51.96%、46.94%和19.07%、9.17%,本文算法比FCN算法的Kappa系數(shù)和總體準(zhǔn)確率分別提高了1.83%和0.76%;在表2中,F(xiàn)CN比MLC、SVM的Kappa系數(shù)和總體準(zhǔn)確率分別提高了64.20%、62.09%和24.36%、16.79%,本文算法比FCN算法的Kappa系數(shù)和總體準(zhǔn)確率分別提高了0.17%和0.25%;在表3中,F(xiàn)CN比MLC、SVM的Kappa系數(shù)和總體準(zhǔn)確率分別提高了55.73%、62.775%和16.14%、18.28%,本文算法比FCN算法的Kappa系數(shù)和總體準(zhǔn)確率分別提高了0.73%和0.44%。
3 結(jié)論
①以IAILD作為試驗(yàn)數(shù)據(jù),使用改進(jìn)后的SegNet圖像語(yǔ)義分割算法對(duì)遙感影像中的目標(biāo)建筑物進(jìn)行精確提取。將其與FCN、SVM和MLC這3種方法進(jìn)行對(duì)比分析,得出以下結(jié)論:SVM和MLC兩種分類算法在高分辨率遙感影像中提取出的不同類別建筑物之間分界線不明顯,邊緣模糊,分類精度較低;從試驗(yàn)結(jié)果可知,這兩種分類算法的Kappa系數(shù)和總體準(zhǔn)確率均較低,不適合高空間分辨率遙感影像對(duì)建筑物的精確提取。
②在利用改進(jìn)后的SegNet和FCN兩種分類算法對(duì)高空間分辨率遙感影像進(jìn)行建筑物分類提取的結(jié)果中,兩者的Kappa系數(shù)均在80%以上,總體準(zhǔn)確率均超過(guò)90%,但相比之下改進(jìn)后的SegNet算法所獲得的結(jié)果在邊緣細(xì)節(jié)的分類效果上更優(yōu),對(duì)建筑物的邊緣把控得更好。
綜上所述,通過(guò)對(duì)以上4種分類算法所得到的結(jié)果進(jìn)行定性和定量分析,在有限的迭代次數(shù)及試驗(yàn)區(qū)域內(nèi),改進(jìn)后的SegNet對(duì)目標(biāo)建筑物的提取效果更好、精度更高,具有一定的可行性和真實(shí)有效性。盡管SegNet算法現(xiàn)處于起步階段,但可以預(yù)見(jiàn),未來(lái)幾年,在該算法的基礎(chǔ)上將會(huì)出現(xiàn)更加優(yōu)秀、更加靈活的深度學(xué)習(xí)算法與更加符合科技發(fā)展的新的研究路線。
參考文獻(xiàn):
[1]趙英時(shí).遙感應(yīng)用分析原理與方法[M].北京:科學(xué)出版社,2003:165-168.
[2]元晨.高空間分辨率遙感影像分類研究[D].西安:長(zhǎng)安大學(xué),2016:16-21.
[3]王慧賢,靳惠佳,王嬌龍,等.k均值聚類引導(dǎo)的遙感影像多尺度分割優(yōu)化方法[J].測(cè)繪學(xué)報(bào),2015(5):526-532.
[4]沈照慶,舒寧,龔衍,等.基于改進(jìn)模糊ISODATA算法的遙感影像非監(jiān)督聚類研究[J].遙感信息,2008(5):28-32.
[5]LOBO A,CHIC O,CASTERAD A.Classification of mediterranean crops with multisensor data:per-pixel versus per-object statistics and image segmentation[J].International Journal of Remote Sensing,1996(12):2385-2400.
[6]駱劍承,王欽敏,馬江洪,等.遙感圖像最大似然分類方法的EM改進(jìn)算法[J].測(cè)繪學(xué)報(bào),2002(3):234-239.
[7]朱建華,劉政凱,俞能海.一種多光譜遙感圖象的自適應(yīng)最小距離分類方法[J].中國(guó)圖像圖形學(xué)報(bào),2000(1):24-27.
[8]張錦水,何春陽(yáng),潘耀忠,等.基于SVM的多源信息復(fù)合的高空間分辨率遙感數(shù)據(jù)分類研究[J].遙感學(xué)報(bào),2006(1):49-57.
[9]FOODY G M,MATHUR A.A relative evaluation of multiclass image classification by support vector machines[J].IEEE Transactions on Geoscience and Remote Sensing,2004(6):1335-1343.
[10]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017(6):84-90.
[11]LECUN Y,BOTTOU L.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998(11):2278-2324.
[12]LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015(4):640-651.
[13]寧霄,趙鵬.基于U-Net卷積神經(jīng)網(wǎng)絡(luò)的年輪圖像分割算法[J].生態(tài)學(xué)雜志,2019(5):1580-1588.
[14]RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net:convolutional networks for biomedical image segmentation[M].New York:Springer Cham,2015:109-112.
[15]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018(4):834-848.
[16]蔣怡,黃平,董秀春,等.基于Softmax分類器的小春作物種植空間信息提取[J].西南農(nóng)業(yè)學(xué)報(bào),2019(8):1880-1885.
[17]MATTHEW D Z.ADADELTA:an adaptive learning rate method[J/OL].Computer Science,2012[2021-07-10].https://www.oalib.com/paper/4035734#.YYzJEflT8YE.
3985501908239