吳鋒振,楊德宏,李俊,何萬才,2,3,鄧云龍
(1.昆明理工大學 國土資源工程學院,云南 昆明 650093; 2.智慧礦山地理空間信息集成創(chuàng)新重點實驗室,云南 昆明 650093;3.云南省高校自然資源空間信息集成與應用科技創(chuàng)新團隊,云南 昆明 650211)
隨著遙感技術的蓬勃發(fā)展,高分辨率遙感影像提供了豐富的紋理和細節(jié)信息,從高分辨率遙感影像中高效準確提取特定目標地物成為研究熱點。其中,高分辨率遙感影像建筑物的自動檢測和提取對于人口密度估計、違規(guī)監(jiān)測、城市規(guī)劃以及地形圖的制作和更新具有非常重要的意義。
傳統(tǒng)建筑物提取方法包括基于特征、面向對象和結合輔助信息三種?;谔卣魈崛》椒ń柚ㄖ锵闰炛R(形狀、屋頂顏色和成像條件等)進行建筑物識別,方法主要包括模板匹配算法[1]、形態(tài)學算法[2]、圖論[3]、隨機森林[4]、決策樹[5]和支持向量機[6]。雖然上述基于先驗知識特征提取方法取得一定成果,但手動定義特征的方法普遍存在提取精度低、特征利用不足等缺點,此外,所提取建筑物局限于特定形狀區(qū)域,方法泛化能力差。面向對象分類方法是目前高分辨率遙感影像建筑物提取的重要方法[7],其步驟為影像分割與影像分類。賀曉璐等[8]提出一種基于引入紅色邊緣波段規(guī)則與基于樣本的面向對象分類相結合方法用于城市建筑物提取,與其他機器學習算法相比,識別結果有一定優(yōu)勢;韓東成等[9]采用基于規(guī)則的面向對象方法實現(xiàn)建筑物單體信息精提取;楊杰等[10]提出一種半自動信息提取構建分類規(guī)則方法用于高精建筑物識別,所提取建筑物錯分漏分現(xiàn)象得到緩解。面向對象方法充分應用高分影像的豐富細節(jié)與紋理信息,但在確定分割尺度參數(shù)時需反復調試,且難以滿足復雜場景(建筑物光譜與鄰近地物光譜相似)建筑物提取需求。結合輔助信息方法主要包括結合DSM數(shù)據(jù)[11]和LiDAR數(shù)據(jù)[12],本質是增加高度信息提升建筑物分割精度?;诮Y合輔助信息方法雖能提高建筑物分割精度,但數(shù)據(jù)獲取成本高,存在其自身局限性??傮w而言,傳統(tǒng)方法均或多或少存在缺陷,因此急需更高效、自動化的建筑物提取技術。
綜上所述,本文以UNet為基礎網(wǎng)絡框架,提出一種似空間注意力模塊,并將其嵌入UNet編碼階段,達到增強編解碼結構所提取的有效特征的目的,提升網(wǎng)絡特征提取準確性。在WHU和AIRS數(shù)據(jù)集上的提取結果表明,本文方法提取建筑物精度高,邊界準確,空洞少,有較強泛化能力。
UNet網(wǎng)絡因其出色的語義分割能力而備受青睞。它是一種典型的編碼器-解碼器結構,在其結構中,通過跳躍連接將底層語義信息與高層語義信息進行融合,極大提高網(wǎng)絡分割性能。然而,UNet網(wǎng)絡在編碼階段通過簡單堆疊卷積和池化層,所提取特征存在一定弊端:存在大量無效特征。針對UNet網(wǎng)絡在編碼階段特征提取不準確而導致建筑物分割精度低的現(xiàn)象,本文在每個編碼塊的第一個卷積層之后均嵌入一個似空間注意力模塊與第二個卷積層并聯(lián),通過將經(jīng)過似空間注意力得到的特征權重矩陣與第二次卷積得到的特征矩陣相乘的方式實現(xiàn)對編碼階段所提取特征的重標定,達到增強有效特征、抑制無效特征的目的。結合似空間注意力模塊的UNet網(wǎng)絡架構如圖1所示。
圖1 結合似空間注意力模塊UNet網(wǎng)絡
似空間注意力模塊是對空間注意力模塊的改進。似空間注意力模塊將原空間注意力模塊中7×7卷積替換為兩個3×3卷積的串聯(lián),感受野雖有所減小,但參數(shù)量相對較少,特征提取更精細,對小型建筑物提取更有益(較大卷積核容易忽略微小物體)。具體而言,似空間注意力模塊對輸入特征分別進行平均池化和最大池化操作,然后使用兩個3×3卷積進行特征精細提取,最后將得到的特征圖融合并使用sigmoid函數(shù)激活,生成最終的注意力圖Ms(F)。似空間注意力模塊如圖2所示。
圖2 似空間注意力模塊
其中,sigmoid函數(shù)的功能是將特征矩陣轉化為相應特征權重矩陣,數(shù)學表達式為:
(1)
注意力圖的計算公式如下:
(2)
2)改變超聲溫度313、323、333、343、353 K,超聲酸化后樣品編號記為ST1、ST2、ST3、ST4、ST5。
編碼器結構包括如圖3所示的四個編碼塊結構,其作用是使用權重映射方法,抑制無效特征,增強目標特征,對下采樣前的特征進行校正,從而使解碼階段得到的特征更精準。校正后的特征表達式為:
圖3 編碼塊結構
F=Ms(F)×F2
(3)
式中,Ms(F)表示經(jīng)似空間注意力模塊得到的注意力圖,F2表示編碼塊中經(jīng)第二次卷積后得到的特征圖,F表示校正后特征圖。
解碼階段由四個解碼塊結構組成,如圖4所示。每個解碼塊結構包括兩個3×3大小的卷積層,與UNet的解碼階段完全相同。
圖4 解碼塊結構
實驗使用WHU數(shù)據(jù)集[28]和AIRS數(shù)據(jù)集[29]驗證本文方法的有效性。兩個數(shù)據(jù)集的介紹如下:
(1)WHU建筑物數(shù)據(jù)集由武漢大學季順平教授及其團隊于2019年創(chuàng)建并實現(xiàn)開源,該數(shù)據(jù)集包括一個航空建筑物數(shù)據(jù)集和一個衛(wèi)星建筑物數(shù)據(jù)集。航空建筑物數(shù)據(jù)集中包含大型、小型建筑物,建筑物風格迥異,種類繁多,故本文選擇航空數(shù)據(jù)集進行實驗,并將其裁剪為512×512像素大小的影像,隨機選取 8 188張影像作為整個數(shù)據(jù)集,其中訓練集、驗證集、測試集各4 736、1 036、2 416張,數(shù)據(jù)集樣例如圖5所示。
圖5 WHU數(shù)據(jù)集樣例
(2)AIRS數(shù)據(jù)集是用于建筑物檢測的高分辨率公開數(shù)據(jù)。該數(shù)據(jù)集包含新西蘭南部克賴斯特徹奇整個城市的正射影像,覆蓋面積達 457 km2,包括 220 000棟建筑物,空間分辨率為 0.075 m。該數(shù)據(jù)集裁剪大小與WHU建筑物裁剪大小相同,數(shù)據(jù)集劃分方式也一致,訓練集、驗證集、測試集仍為 4 736、1 036、2 416張,數(shù)據(jù)集樣例如圖6所示。
圖6 AIRS數(shù)據(jù)集樣例
本文實驗的硬件環(huán)境為Intel(R) Xeon(R) Platinum 80255C CPU,39G RAM,GeForce RTX 2080TiGPU,內(nèi)存 11 G,操作系統(tǒng)為Windows 10,所使用的深度學習框架為TesorFlow,版本為1.15.0,編程語言為Python,版本為3.6。在訓練過程中,網(wǎng)絡參數(shù)設置為:批處理大小為2,迭代輪次為80,初始化學習率為0.001,損失函數(shù)為交叉熵,使用Adam算法進行優(yōu)化。
交叉熵損失函數(shù)表達式如下:
式中,y∈{0,1,表示地面真實標簽,建筑物用1表示,背景用0表示;p∈[0,1],表示模型預測的正類的概率值。
為定量評價網(wǎng)絡分割性能,選擇交并比(IoU)、精確率(Precision)、召回率(Recall)和F1分數(shù)(F1)4個指標評價分類結果。交并比是指預測值與真實值兩個集合的交集和并集之比。精確率是指正確預測為建筑物的像元數(shù)占總預測為建筑物的像元數(shù)比例。召回率是指正確預測為建筑物的像元數(shù)占真實建筑物像元數(shù)比例。F1分數(shù)綜合考量精確率與召回率,能夠衡量模型分割性能。4種評價指標計算公式如下:
式中,TP表示正確分類的建筑物像素數(shù)量,FP表示背景誤分為建筑物像素數(shù)量,TN表示正確分類的背景像素數(shù)量,FN表示建筑物誤分為背景像素數(shù)量。
為驗證本文方法的有效性,在WHU數(shù)據(jù)集上與FCN-8S[16]、SegNet[17]和UNet[18]等經(jīng)典建筑物提取網(wǎng)絡做對比實驗(除可視化實驗與精度對比實驗外,還有模型參數(shù)量與每輪次運行時間對比);另一方面,為驗證結合似空間注意力模塊UNet網(wǎng)絡的適用性,在 0.075 m的建筑物數(shù)據(jù)集-AIRS上做可視化與精度對比實驗,并分析各網(wǎng)絡在兩個數(shù)據(jù)集上的分割性能。(在兩個數(shù)據(jù)集上,每種模型的訓練策略與參數(shù)設置均相同。)
(1)WHU數(shù)據(jù)集實驗結果分析
在WHU建筑物數(shù)據(jù)集上,本文方法與其他網(wǎng)絡的建筑物提取結果如圖7所示。
圖7 不同網(wǎng)絡在WHU建筑物數(shù)據(jù)集上的提取結果(紅框部分表示本文方法的改進之處)
模型分割結果定性分析:第一個場景用于測試網(wǎng)絡對中小型建筑物的提取能力。由目視結果可知,FCN-8S、SegNet與UNet均能檢測到中小型建筑物,然而這三種網(wǎng)絡提取的建筑物邊界不準確,小型建筑物存在漏提現(xiàn)象,本文方法提取的中小型建筑物邊界平滑、完整,因為本文方法中包含似空間注意力模塊,提取的淺層特征更準確,與深層特征融合后,得到的特征也更準確,提取結果更好;第二個場景用于檢驗靠近但不粘連建筑物的提取性能。UNet提取的建筑物相互粘連,FCN-8S、SegNet雖能大致識別建筑物輪廓,但與本文方法相比,提取邊界模糊,原因仍是本文結合似空間注意力模塊,有效排除非建筑物特征干擾,故建筑物縫隙形成的陰影也能很好的去除,使提取建筑物不粘連。第三、四個場景是不同網(wǎng)絡大型建筑物提取結果。與本文方法相比,FCN-8S、SegNet與UNet存在漏提現(xiàn)象,提取的建筑物存在空洞,本文方法識別的大型建筑物邊界相對完整。這是由于似空間注意力模塊的特征校正作用使特征提取更精準。第五個場景用于驗證具有與建筑物類似光譜特征的背景對象的分割性能。與其他三種網(wǎng)絡相比,本文方法能更好去除背景信息,保留目標信息,其根本原因是似空間注意力模塊通過對特征賦予權重的方式使特征差異更明顯,從而降低誤分割率。
WHU數(shù)據(jù)集的建筑物提取結果進行定量評價如表1所示。由表1可知,通過嵌入似通道注意力模塊對UNet模型進行改進,與典型建筑物提取模型FCN-8S、SegNet和UNet相比,本文模型4個評價指標均為最優(yōu),交并比為91.74%,精確率為94.12%,召回率為94.21%,F1分數(shù)為94.17%。相對于FCN-8S、SegNet與UNet模型,結合似通道注意力模塊UNet模型交并比分別高出4.90%、5.08%和0.47%;精確率分別增加1.85%、1.24%和3.50%;召回率分別提升3.50%、1.38%和0.47%;F1分數(shù)分別提高2.69%、1.31%和2.02%。
表1 不同模型在WHU數(shù)據(jù)集上的分割精度對比
為進一步驗證本文模型的優(yōu)越性,本文還對模型參數(shù)量與訓練每輪次運行時間進行對比,實驗結果如表2所示。從表2可以看出,本文方法在參數(shù)量和每輪次運行時間的對比上均處于第二名,且與第一名UNet相差不大,在二者增加的可接受范圍內(nèi)實現(xiàn)4個評價指標的提升。
表2 不同模型參數(shù)量及運行時間對比
WHU建筑物數(shù)據(jù)集上的實驗結果無論從定性、定量分析,還是模型參數(shù)量和每輪次運行時間對比均驗證本文方法的有效性。這也驗證將似空間注意力模塊嵌入UNet模型,能過濾冗余特征,聚焦目標特征,極大優(yōu)化網(wǎng)絡分割性能。
(2)AIRS數(shù)據(jù)集實驗結果分析
為充分驗證結合似空間注意力模塊UNet網(wǎng)絡的泛化能力,將該網(wǎng)絡與對比網(wǎng)絡在空間分辨率為 0.075 m的屋頂分割航空影像數(shù)據(jù)集-AIRS上進行實驗,以便該網(wǎng)絡能應用到無人機影像分類任務中。對比實驗可視化結果如圖8所示。
圖8 不同網(wǎng)絡在AIRS數(shù)據(jù)集上的提取結果(紅框部分表示本文方法的改進之處)
模型分割結果定性分析:由圖8可以看出,在選取的第一個具有代表性的場景中,由于中間建筑物與周邊道路顏色接近,FCN-8S、UNet未能對其進行識別,SegNet識別出的建筑物存在空洞,然而本文方法能完整提取此種場景下的建筑物;在第二個場景中,三種對比網(wǎng)絡在提取小型建筑物時,FCN-8S產(chǎn)生誤檢現(xiàn)象,SegNet、UNet出現(xiàn)漏檢現(xiàn)象,本文方法能正確檢測小型建筑物輪廓;在第三個場景中,由于屋頂光譜特征與周圍樹木、車輛光譜特征相近,FCN-8S產(chǎn)生過分割現(xiàn)象,SegNet、UNet出現(xiàn)欠分割現(xiàn)象,本文方法提取的建筑物邊界平滑、準確;在最后一個場景中,在面對內(nèi)部存在背景的復雜建筑物,FCN-8S、SegNet和UNet均表現(xiàn)較大不適應性,但本文方法卻能完整識別出來。總之,產(chǎn)生這樣分割差異的根本原因是將似空間注意力模塊嵌入UNet網(wǎng)絡后,提取的全局與局部上下文特征均得到校正,故結合似空間注意力模塊UNet網(wǎng)絡在面對各種復雜場景時仍表現(xiàn)出很好的魯棒性。
對AIRS數(shù)據(jù)集的建筑物提取結果進行定量評價如表3所示。由表3可知,在AIRS數(shù)據(jù)集上,本文方法的各項評價指標幾乎為最優(yōu)值。與FCN-8S、SegNet和UNet相比,本文方法的并比分別提高0.47%、6.13%、6.57%;精確率分別增加1.05%、1.60%、0.55%;召回率高出0.06%、15.53%、28.35%;F1分數(shù)在對比模型中排名第二,除比FCN-8S略低外,相比SegNet和UNet,有一定程度提升,從定量分析的結果驗證本文方法的適用性和穩(wěn)定性。
表3 不同模型在AIRS數(shù)據(jù)集上的分割精度對比
從AIRS數(shù)據(jù)集的定性和定量評價可知,將似空間注意力模塊嵌入UNet網(wǎng)絡,有助于增強有效信息,緩解過分割,從而提高模型預測能力,證實本文方法具有較強泛化能力,擁有一定實際應用潛力。
卷積神經(jīng)網(wǎng)絡在建筑物語義分割方面擁有巨大潛力。本文提出結合似空間注意力模塊UNet網(wǎng)絡,用于改善建筑物提取中存在的邊緣模糊及內(nèi)部空洞等問題。筆者提出的似空間注意力模塊,用于對UNet編碼階段提取特征進行校正,抑制無效特征,增強有效特征。
實驗表明,在WHU建筑物數(shù)據(jù)集上預測結果表現(xiàn)良好,所提取大、小型建筑物邊界準確、平滑,面對與建筑物擁有相似光譜特征背景對象的提取時,誤分割、欠分割現(xiàn)象得到緩解。其次,通過對比實驗可知,本文方法的模型參數(shù)量與每輪次運行時間與UNet相差不大,相比其他對比網(wǎng)絡而言卻較小,各項評價指標也較優(yōu),從模型性能和效率方面驗證本文方法的有效性。將本文模型應用到AIRS數(shù)據(jù)集的高分辨率建筑物提取中,面對各種復雜場景效果提取效果理想,各項指標相比對比網(wǎng)絡也幾乎有所提升,證明本文方法的適用性,具有良好的應用前景。后續(xù)計劃將基于本文方法進一步提取建筑物矢量邊界,以提供結構化的單個建筑物多邊形,供實際應用。