許慧敏,齊 華,南 軻,陳 敏
(西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756)
高空間分辨率遙感影像(以下簡稱高分辨率影像)具有豐富的空間特征及紋理信息[1],其高精度分類在精準(zhǔn)農(nóng)業(yè)、城市規(guī)劃、環(huán)境監(jiān)測等領(lǐng)域發(fā)揮著重要作用。在傳統(tǒng)高分辨率遙感影像分類方法中,最常用的是面向?qū)ο蠓诸惙椒?,該方法需要人工參與分割參數(shù)選擇和對象特征選取,過程耗時耗力且難以得到更好的分類效果[2]。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是圖像分類中最常用的深度學(xué)習(xí)網(wǎng)絡(luò)之一[3]。該網(wǎng)絡(luò)在實現(xiàn)高效、準(zhǔn)確的遙感影像分類中取得了一定的成果[4- 6]。文獻(xiàn)[7]在CNN基礎(chǔ)上提出了全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,FCN),通過上采樣方式還原圖像尺寸,在識別像元類別的同時還原像元在原圖中的位置,真正實現(xiàn)了影像的像素級分類。為了解決FCN分類方法中定位和識別精度的權(quán)衡問題,眾多學(xué)者不斷對FCN進(jìn)行改進(jìn),提出了一種U- Net網(wǎng)絡(luò)[8]。雖然研究人員對U- Net模型進(jìn)行了許多改進(jìn)[9- 11],但目前基于U- Net模型的遙感影像分類方法仍然存在以下問題:①高分辨率影像數(shù)據(jù)波段有限,光譜信息不豐富,在一定程度上限制了模型特征學(xué)習(xí)的豐富度,造成影像分類精度低;②存在地物內(nèi)部錯分現(xiàn)象和地物邊界殘缺等問題。
針對以上問題,本文研究一種結(jié)合歸一化數(shù)字表面模型(normalized digital surface model,nDSM)數(shù)據(jù)和U- Net模型的深度學(xué)習(xí)影像分類方法。nDSM數(shù)據(jù)記錄了所有高于地面的地物相對于地面的高度信息,能夠反映地物的真實高度。該信息在影像分類中對于區(qū)分不同類型地物(如建筑與地面、樹木與低矮植被等)具有重要作用。本文方法通過引入nDSM提供的高度信息提高U- net模型的特征豐富度,優(yōu)化分類結(jié)果,消除細(xì)小錯分現(xiàn)象,以實現(xiàn)影像高精度分類。
U- Net網(wǎng)絡(luò)因結(jié)構(gòu)清晰呈U狀而得名[8],是一種改進(jìn)的FCN網(wǎng)絡(luò)。FCN網(wǎng)絡(luò)中包含跳躍結(jié)構(gòu)[7],通過融合不同層次的特征圖,將低層網(wǎng)絡(luò)的細(xì)節(jié)信息和高層網(wǎng)絡(luò)的語義信息進(jìn)行結(jié)合,再進(jìn)行反卷積操作,優(yōu)化輸出結(jié)果。反卷積操作不僅可以對每個像素都產(chǎn)生一個預(yù)測,即識別像素類別,而且能還原像素在原圖中的位置,保留原始輸入圖像的空間信息即像素定位。
在實際應(yīng)用中,基于FCN的方法通常難以同時達(dá)到較高的定位精度和識別精度,而基于U- Net網(wǎng)絡(luò)的方法可以較好地克服該問題。U- Net網(wǎng)絡(luò)由壓縮通道和擴(kuò)展通道組成,具體模型參數(shù)見文獻(xiàn)[8]。壓縮通道是典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由卷積層和最大池化層組成。在擴(kuò)展通道,先進(jìn)行1次反卷積操作,再拼接對應(yīng)壓縮通道特征圖,重新組成一個2倍大小的特征圖,然后采用卷積層進(jìn)行特征提取,重復(fù)這一過程,在最后的輸出層用卷積層將特征圖映射成2維的輸出結(jié)果。
本文將U- Net網(wǎng)絡(luò)每一級的核函數(shù)維數(shù)減少一半以降低模型的運算量并使用邊界填充。因此,本文U- Net網(wǎng)絡(luò)是一個9級網(wǎng)絡(luò),壓縮通道用于逐層提取影像特征,擴(kuò)展通道用于逐漸還原影像的細(xì)節(jié)信息和位置信息,最后得到反映影像特征的輸出特征圖。通過特征拼接處理實現(xiàn)不同層次特征信息的結(jié)合,克服因反卷積而造成的分割精度損失問題,以優(yōu)化分類結(jié)果。本文使用的U- Net網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
本文方法主要分為兩個部分:模型訓(xùn)練和影像分類,如圖2所示。在模型訓(xùn)練階段,首先,nDSM數(shù)據(jù)作為最后一個波段疊加在遙感影像上,將疊加后的多源影像數(shù)據(jù)和真實地物分類組成的訓(xùn)練樣本輸入至U- Net模型中進(jìn)行特征學(xué)習(xí),得到預(yù)測概率分布圖;然后采用交叉熵函數(shù)[12]衡量分類結(jié)果與真實地物分類之間的損失值,采用Adam優(yōu)化算法[13]以縮小損失值為目標(biāo),當(dāng)損失值縮小至給定的閾值范圍內(nèi),則訓(xùn)練結(jié)束,得到最優(yōu)的U- Net模型。在影像分類階段,利用已訓(xùn)練好的U- Net模型對待分類影像進(jìn)行分類,最終得到高精度的地物分類結(jié)果。
本文試驗硬件平臺CPU為Inter(R) Xeon(R)E5- 2640 v4 2.40 GHz,GPU為NVIDIA Tesla P40 24 GB,內(nèi)存為128 GB,采用Mxnet深度學(xué)習(xí)框架實現(xiàn)U- Net模型的搭建與試驗。
試驗使用ISPRS提供的Vaihingen數(shù)據(jù)集,該數(shù)據(jù)集包含數(shù)字正射影像、數(shù)字表面模型(DSM)、LiDAR數(shù)據(jù)和地面真實分類數(shù)據(jù)等。圖3為試驗數(shù)據(jù)集中的一幅數(shù)字正射影像及其對應(yīng)的真實地物分類數(shù)據(jù)和DSM。
利用LiDAR數(shù)據(jù),使用TerraScan和ArcGIS軟件生成與數(shù)字正射影像分辨率相同的DEM數(shù)據(jù),再計算生成nDSM數(shù)據(jù),其計算公式如下
nDSM(i,j)=DSM(i,j)-DEM(i,j)
(1)
式中,nDSM(i,j)為nDSM在第i行第j列的高程值;DSM(i,j)為DSM在第i行第j列的高程值;DEM(i,j)為DEM在第i行第j列的高程值。
在構(gòu)建輸入影像時,本文將nDSM作為第4波段疊加在數(shù)字正射影像波段后參與模型的訓(xùn)練。
在訓(xùn)練影像中隨機(jī)裁剪出像素尺寸為256×256像素的圖像塊作為訓(xùn)練樣本。驗證影像采用規(guī)則格網(wǎng)的方式得到驗證樣本。本試驗初始學(xué)習(xí)率為0.001,每次隨機(jī)選取11組訓(xùn)練樣本輸入至網(wǎng)絡(luò)中訓(xùn)練,一次訓(xùn)練看作一次迭代,每迭代100次輸出一次驗證集精度,當(dāng)20次迭代的驗證集精度不變時,學(xué)習(xí)率降為原來的1/2。當(dāng)損失值小于0.05時,訓(xùn)練停止。
為定量評估影像分類精度,采用總體精度OA(overall accuracy)和F1- score作為評價指標(biāo)??傮w精度是常用的精度評價指標(biāo),表示每一個像素正確分類的概率。F1- score是精度與召回率的綜合評價指標(biāo),能夠綜合反映算法對正負(fù)樣本的識別與區(qū)分能力。
(2)
式中,Nkk為圖像中像元被正確分類的個數(shù);Ntotal為圖像中像元的總個數(shù)。
F1-score=(1+β2)precision×recall/β2(precision+recall)
(3)
式中,β為權(quán)重因子,其取值反映精確度與召回率對F1- score的重要程度,本文設(shè)β為1,表示精確度和召回率同等重要;precision和recall分別表示精確度和召回率。
precision=TP/(TP+FP)
(4)
recall=TP/(TP+FN)
(5)
式中,TP為分類器正確分類的正元組;FP為分類器錯誤標(biāo)記為正元組的負(fù)元組;FN為分類器錯誤標(biāo)記為負(fù)元組的正元組。
試驗將本文方法與現(xiàn)有影像分類方法SVM[14]、GBDT[15]和FCN- 8s[7]進(jìn)行對比試驗以驗證本文方法的有效性。圖4為兩組示例影像分類結(jié)果對比圖。傳統(tǒng)分類方法SVM和GBDT方法錯分和漏分現(xiàn)象明顯,建筑物邊緣細(xì)節(jié)粗糙雜亂,無法有效識別陰影區(qū)域真實地物類別,對車輛等小目標(biāo)無法準(zhǔn)確分類。這是由于傳統(tǒng)分類方法受到影像分割尺度和分類器性能等多方面因素的制約。深度學(xué)習(xí)方法FCN- 8s錯分和漏分現(xiàn)象較少,但在低矮植被和樹木的區(qū)分及建筑物邊緣、車輛等細(xì)節(jié)處理方面效果不佳。這是由于高分辨率遙感影像類內(nèi)差異大,同物異譜或同譜異物現(xiàn)象造成的。此外,從兩組試驗的分類結(jié)果可以看出,現(xiàn)有深度學(xué)習(xí)方法的分類效果不穩(wěn)定。本文方法分類效果最佳,nDSM提供的約束信息可以較好地區(qū)分低矮植被和樹木、車輛等易混淆地物,建筑物邊緣光滑準(zhǔn)確,對地物細(xì)節(jié)反映更加全面真實。
表1為不同方法的地物分類精度對比。從表1中可以看出,傳統(tǒng)分類方法SVM和GBDT方法分類精度較差;深度學(xué)習(xí)方法FCN- 8s優(yōu)于傳統(tǒng)分類方法。對不透水地面、建筑物和樹木可以獲得較高的分類精度,但在對于低矮植被和車輛的分類上表現(xiàn)不佳;本文方法在各種地物的分類精度上表現(xiàn)最佳,平均F1值達(dá)83.40%,總體精度達(dá)86.12%。
表1 本文方法與其他方法的精度比較 (%)
為了進(jìn)一步驗證加入nDSM數(shù)據(jù)可有效改善影像分類結(jié)果,在同一算法框架下將本文方法與未加入nDSM數(shù)據(jù)的方法進(jìn)行對比分析,試驗結(jié)果如圖5所示。未加入nDSM數(shù)據(jù)的方法結(jié)果中存在建筑物與地面錯分、樹木與低矮植被錯分、建筑物邊緣粗糙等現(xiàn)象,加入了nDSM數(shù)據(jù)后的分類結(jié)果中錯分現(xiàn)象明顯減少,地物邊緣更加細(xì)致。如圖5中A、B區(qū)域所示,建筑物在數(shù)字正射影像上與其他地物的光譜特性混淆,因此在未加入nDSM數(shù)據(jù)的方法結(jié)果中被分別錯分為低矮植被和不透水地面。由于nDSM對不同高度地物有很強(qiáng)的區(qū)分度,因此,加入nDSM數(shù)據(jù)的模型成功地修正了地物的錯分現(xiàn)象,A、B區(qū)域的建筑物均被正確分類,同時還刻畫出建筑物的光滑邊緣,建筑物邊界更加完整,更加符合真實地物結(jié)果。
表2為本文方法與未加入nDSM數(shù)據(jù)方法的精度對比。從表2可以看出,nDSM數(shù)據(jù)對U- Net模型的分類效果的影響顯著,其中不透水地面、建筑物、低矮植被的分類精度相比于未加入nDSM數(shù)據(jù)的方法結(jié)果各提高了3.18%、2.35%、2.56%。這說明本文方法通過引入nDSM數(shù)據(jù)用于模型訓(xùn)練和分類,可有效利用nDSM數(shù)據(jù)提供的高度信息輔助分類,從而提高影像分類精度。
表2 本文方法與未加入nDSM數(shù)據(jù)方法的精度比較 (%)
本文提出了一種nDSM約束的高分辨率遙感影像深度學(xué)習(xí)分類方法。nDSM數(shù)據(jù)提供的高度信息能夠優(yōu)化影像分類過程中的粗糙和不確定性的分類標(biāo)記,通過引入nDSM數(shù)據(jù)增加模型特征學(xué)習(xí)豐富度,以提高模型分類精度,優(yōu)化分類結(jié)果,消除細(xì)小錯分現(xiàn)象。試驗結(jié)果表明,nDSM數(shù)據(jù)的加入提高了U- Net模型的分類結(jié)果精度,在不透水地面、建筑物和低矮植被的分類精度上提高顯著。如何改進(jìn)U- Net模型的結(jié)構(gòu)從而使其得到更佳的分類結(jié)果是下一步的工作重點。