王 穎,吳 旭,冷小鵬,余 戈
(成都理工大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)安全學(xué)院(牛津布魯克斯學(xué)院),四川 成都 610059)
滑坡一直是頻繁發(fā)生的地質(zhì)災(zāi)害之一,及時(shí)發(fā)現(xiàn)滑坡并更新滑坡清單,可以有效減少生命、財(cái)產(chǎn)的損失。另外,準(zhǔn)確檢測(cè)已存在滑坡的位置是加強(qiáng)滑坡災(zāi)害預(yù)防的先決條件[1]。由于傳統(tǒng)的實(shí)地野外調(diào)查和利用航空影像進(jìn)行目視解譯的檢測(cè)方式效率較低,近幾年滑坡檢測(cè)的主要研究方向轉(zhuǎn)換到利用遙感影像和深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行自動(dòng)滑坡檢測(cè)。Wang等人[2]采用基于注意力機(jī)制的YOLOv5模型實(shí)現(xiàn)了高分辨率遙感影像的滑坡識(shí)別。Su等人[3]針對(duì)雙時(shí)程RGB航拍圖像和數(shù)字地形模型提出了基于ResNet的LanDCNN滑坡識(shí)別模型。張?zhí)N靈等人[4]提出了基于ResNet的多尺度特征融合的CNN模型用于高分辨率遙感影像滑坡檢測(cè)。張倩熒等人[5]將Faster RCNN,YOLO,SSD應(yīng)用于遙感圖像滑坡檢測(cè),對(duì)比實(shí)驗(yàn)結(jié)果表明Faster RCNN更適合小數(shù)據(jù)集的檢測(cè),而YOLO和SSD分別有檢測(cè)精度高和推理速度快的優(yōu)勢(shì)。Xia等人[6]提出了適用于高分辨率多源數(shù)據(jù)集的FSTF-Net模型來(lái)檢測(cè)滑坡。以上研究中的YOLO,Faster RCNN,SSD模型都是針對(duì)目標(biāo)檢測(cè)任務(wù),只能檢測(cè)出滑坡的位置,無(wú)法檢測(cè)滑坡的規(guī)模、形狀。雖然其他研究提出的模型是基于圖像分割的,但所適用的數(shù)據(jù)集都是高分辨率的,且數(shù)據(jù)源較單一。高分辨率遙感影像不僅獲取成本高,而且解譯困難。相比較而言,中分辨率的遙感影像,如Sentinel-2,不僅可以通過(guò)開(kāi)放的哨兵中心(Sentinel Hub)或谷歌地球引擎(Google Earth Engine,GEE)直接完成預(yù)處理,使得滑坡檢測(cè)更方便、及時(shí)。而且其包含了13個(gè)波段,可以提供更多益于滑坡檢測(cè)的特征,從數(shù)據(jù)源方面提升滑坡檢測(cè)精度。
2021年,Ghorbanzadeh等人[7]基于Sentinel-2影像中的RGB波段和近紅外波段,研究了兩種經(jīng)典的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)對(duì)滑坡檢測(cè)的效果,分別是U-Net和ResU-Net,其中ResU-Net獲得了更高的F1分?jǐn)?shù):73.32%。后續(xù),Ghorbanzadeh等人[8]基于Sentinel-2影像的12個(gè)波段和ALOS PALSAR的數(shù)字高程模型(Digital Elevation Model,DEM)、坡度層生成了一個(gè)用于遙感圖像滑坡檢測(cè)的基準(zhǔn)數(shù)據(jù)集,并以此對(duì)比了11種語(yǔ)義分割模型(PSPNet,ContexNet,DeepLab-v2,DeepLab-v3+,FCN-8s,LinkNet,FRRN-A,FRRN-B,SQNet,U-Net,ResU-Net),實(shí)驗(yàn)結(jié)果表明,仍是ResU-Net模型表現(xiàn)最優(yōu),F1分?jǐn)?shù)達(dá)71.65%。
由上述研究可知,ResU-Net模型在針對(duì)中分辨率遙感多光譜影像的滑坡檢測(cè)任務(wù)上效果較好,但就滑坡自身的特殊性上該模型還有待改進(jìn)。本研究考慮了兩點(diǎn)特殊性:(1)滑坡特征不具有統(tǒng)一性。受不同地質(zhì)、水文、天氣條件等因素的影響,滑坡的地表特征可能有很大的差異[9];(2)滑坡形狀不規(guī)則,主要展示為各種多邊形[10]。以上兩點(diǎn)特殊性會(huì)限制ResU-Net模型的滑坡檢測(cè)精度。對(duì)此,該文對(duì)ResU-Net模型提出了對(duì)應(yīng)的改進(jìn)策略:(1)添加注意力機(jī)制,提升模型提取關(guān)鍵信息的能力;(2)加深網(wǎng)絡(luò)結(jié)構(gòu),以獲得更豐富的語(yǔ)義信息。除了模型改進(jìn)以外,該文還探討了不同特征組合的數(shù)據(jù)集對(duì)滑坡檢測(cè)精度的影響,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)剔除原始數(shù)據(jù)集中無(wú)效(對(duì)滑坡不敏感)的特征,添加歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)、歸一化水體指數(shù)(Normalized Difference Water Index,NDWI)和坡向特征可以最大化提升滑坡檢測(cè)的精度。
數(shù)據(jù)集中滑坡像素點(diǎn)與非滑坡像素點(diǎn)的比例大約為2.4%,類別占比極不平衡,針對(duì)此類問(wèn)題,使用復(fù)合損失函數(shù)性能更佳,也更穩(wěn)定[11]。常使用的有Dice損失+交叉熵?fù)p失、Dice損失+Focal損失,但在本研究任務(wù)中均表現(xiàn)不佳,故本研究使用了另一個(gè)效果更好的損失函數(shù)——Unified Focal loss[12]。這是一個(gè)將各種基于分布的(如交叉熵?fù)p失)、基于區(qū)域的(如Dice損失)以及復(fù)合損失函數(shù)(如Combo損失)統(tǒng)一到一個(gè)框架里面進(jìn)行計(jì)算的損失函數(shù)。實(shí)驗(yàn)選擇了文獻(xiàn)[12]中非對(duì)稱的Unified Focal loss,計(jì)算公式如下:
LaUF=λLmaF+(1-λ)LmaFT
(1)
其中,LmaF計(jì)算公式如下:
(2)
LmaFT計(jì)算公式如下:
(3)
其中,mTI的計(jì)算公式如下:
mTI=
(4)
式(1)至(4)中:λ用于控制LmaF和LmaFT的比例;δ用于控制各類別的權(quán)重;N是待分割樣本的所有像素點(diǎn)個(gè)數(shù);p0i是像素i屬于滑坡類的概率;p1i是像素i屬于非滑坡類的概率;g0i為1表示像素i屬于滑坡類,為0則屬于非滑坡類;g1i為1表示像素i屬于非滑坡類,為0則屬于滑坡類;c表示所有類別,即滑坡類和非滑坡類;r表示稀有類,在本研究中就是滑坡類;yi,r是一個(gè)真實(shí)標(biāo)簽中每個(gè)像素是否屬于滑坡類的矩陣,1表示屬于,0表示不屬于;pt,r是一個(gè)預(yù)測(cè)標(biāo)簽中每個(gè)像素是否屬于滑坡類的矩陣,1表示屬于,0表示不屬于;pt,c是一個(gè)預(yù)測(cè)標(biāo)簽中每個(gè)像素是否屬于非滑坡類的矩陣,1表示屬于,0表示不屬于;γ用于控制背景抑制和前景增強(qiáng)的程度。
本研究使用的是Loshchilov等人[13]提出的AdamW優(yōu)化算法,該算法解決了Adam配合權(quán)重衰減反而導(dǎo)致性能下降的問(wèn)題,其在圖像分類的數(shù)據(jù)集上與使用動(dòng)量的SGD優(yōu)化性能相當(dāng)。另外,由于在大多數(shù)深度學(xué)習(xí)框架中權(quán)重衰減與批量歸一化一起使用會(huì)削弱權(quán)重衰減的效果[14],所以本實(shí)驗(yàn)均不對(duì)批量歸一化層的參數(shù)做權(quán)重衰減。
本研究使用的注意力機(jī)制是Woo等人[15]于2018年提出的卷積注意力模塊(CBAM),其是一種混合注意力機(jī)制,同時(shí)包含了通道注意力模塊(CAM)和空間注意力模塊(SAM),兩者結(jié)合可以更穩(wěn)定地增強(qiáng)特征提取的能力;另外,與以往注意力機(jī)制的不同點(diǎn)還在于CBAM引入了全局最大池化作為全局平均池化的補(bǔ)充,更有利于重要特征的提取。其計(jì)算方式如下:
Fout=Fin?Mc(Fin)?Ms(Fin?Mc(Fin))
(5)
其中,Fout∈RC×H×W代表CBAM的輸出,C為通道數(shù),H為高,W為寬;Fin∈RC×H×W代表輸入;?代表兩個(gè)特征映射逐元素對(duì)應(yīng)相乘的操作;MC∈RC×1×1代表CAM;Ms∈R1×H×W代表SAM。
(6)
Ms(Fin)=σ(f3×3([Avg(Fin);Max(Fin)]))
(7)
其中,σ代表sigmoid激活函數(shù);f1×1代表卷積核大小為1×1的卷積操作;Avg代表全局平均池化;Max代表全局最大池化;f3×3代表卷積核大小為3×3的卷積操作。
改進(jìn)的ResU-Net模型網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖1。
圖1 改進(jìn)的ResU-Net模型網(wǎng)絡(luò)結(jié)構(gòu)
(1)在編碼器中添加CBAM(見(jiàn)1.3小節(jié))。除了提升模型提取關(guān)鍵信息的能力,還能緩解編碼器與解碼器兩邊特征映射拼接時(shí),編碼器前幾層帶來(lái)很多冗余信息的問(wèn)題。(2)在編碼器與解碼器之間的第1個(gè)橋連接中添加SAM(見(jiàn)1.3小節(jié))。因?yàn)榫幋a器第1個(gè)殘差塊產(chǎn)生的特征映射冗余信息太多,添加注意力模塊容易對(duì)后續(xù)殘差塊的特征提取造成負(fù)面影響,所以沒(méi)有添加,但參考文獻(xiàn)[16]可以在橋連接之間添加一個(gè)注意力門,緩解兩邊特征映射拼接時(shí)冗余信息太多的問(wèn)題。本研究經(jīng)過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),此處只添加SAM比添加CBAM得到的F1分?jǐn)?shù)略高一些。(3)加深網(wǎng)絡(luò)結(jié)構(gòu)。除了獲得更大的感受野和更豐富的語(yǔ)義信息以外,還因?yàn)樽⒁饬C(jī)制需要多層疊加才會(huì)有增強(qiáng)效果,所以原始ResU-Net編碼器的5層殘差塊不夠。對(duì)此,本研究參考了ResNet18[17]的網(wǎng)絡(luò)結(jié)構(gòu),在編碼器中使用了9層殘差塊,每個(gè)殘差塊包含兩次卷積,既獲得了更豐富的語(yǔ)義信息,又可疊加注意力效應(yīng)。(4)增加一次下采樣。原ResU-Net一共使用3次步距為2的下采樣,而改進(jìn)的ResU-Net增加了1次,共下采樣16倍,進(jìn)一步獲得更大的感受野和更豐富的語(yǔ)義信息。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比也證實(shí)了在本研究任務(wù)中下采樣16倍得到的F1分?jǐn)?shù)更高。下采樣的位置分別位于編碼器的MaxPool層和layer2、layer3、layer4的第1個(gè)殘差塊中的第1個(gè)卷積層。
實(shí)驗(yàn)數(shù)據(jù)取自LandSlide4Sense 2022[8],共3 799個(gè)樣本,各樣本大小都為128×128像素,都包含14個(gè)特征(見(jiàn)表1)。對(duì)應(yīng)的標(biāo)簽則包含兩個(gè)特征,0表示非滑坡,1表示滑坡,均以HDF5格式存儲(chǔ)。此數(shù)據(jù)集的滑坡域分別取自全球4個(gè)不同的地區(qū),地形多樣且滑坡類型豐富。
表1 數(shù)據(jù)集的14個(gè)特征
文獻(xiàn)[8]在“Benchmark Dataset Statistics and Shape”一節(jié)中,分別對(duì)4個(gè)地區(qū)的訓(xùn)練集、測(cè)試集中的滑坡類和非滑坡類各個(gè)特征的平均值進(jìn)行了統(tǒng)計(jì),從統(tǒng)計(jì)結(jié)果可知B1,B2,B3,B4,B5,B6,B10,B11,B12,B13,B14的滑坡類平均值和非滑坡類平均值存在差異,且差異的方向在4個(gè)地區(qū)對(duì)應(yīng)的訓(xùn)練集、測(cè)試集上大致相同,故保留這11個(gè)特征(剔除無(wú)效特征B7、B8、B9)。另外,通過(guò)文獻(xiàn)[18]可知,NDVI、NDWI與滑坡的易發(fā)性相關(guān),故引入這兩個(gè)特征。由此生成包含13個(gè)特征的新數(shù)據(jù)集(流程見(jiàn)圖2),也是做消融實(shí)驗(yàn)和模型對(duì)比實(shí)驗(yàn)時(shí)用的數(shù)據(jù)集,其中訓(xùn)練集2 553個(gè)、驗(yàn)證集524個(gè)、測(cè)試集722個(gè)。
圖2 新數(shù)據(jù)集合成流程
(8)
(9)
本研究使用的深度學(xué)習(xí)框架是Pytorch,運(yùn)行環(huán)境如下:Linux系統(tǒng),NVIDIA RTX A4000顯卡(內(nèi)存16G),英特爾12核Xeon(R) Gold 5320 @ 2.20 GHz處理器(內(nèi)存32G)。為了保證對(duì)比實(shí)驗(yàn)的公平性,所有實(shí)驗(yàn)的訓(xùn)練設(shè)計(jì)都保持一致:用訓(xùn)練集的平均值和方差做輸入標(biāo)準(zhǔn)化處理;參數(shù)初始化方式是He初始化[19];初始學(xué)習(xí)率為0.01,采用熱身(warm up)的方式開(kāi)始,衰減策略為多項(xiàng)式衰減,計(jì)算方式見(jiàn)公式;優(yōu)化器用AdamW(見(jiàn)1.2小節(jié)),β1=0.9,β2=0.999,權(quán)重衰減為5e-4;損失函數(shù)用Unified Focal loss(見(jiàn)1.1小節(jié)),λ=0.5,δ=0.4,γ=0.2;批量大小為32,共訓(xùn)練100次;數(shù)據(jù)增強(qiáng)方式只用隨機(jī)上下翻轉(zhuǎn)和隨機(jī)水平翻轉(zhuǎn)。
(10)
其中,iter為迭代次數(shù),max_iter=160,power=4.0。
本研究采用召回率(Recall)、精確率(Precision)、F分?jǐn)?shù)來(lái)評(píng)估分割結(jié)果,其計(jì)算公式如下:
(11)
(12)
(13)
所有評(píng)估指標(biāo)的計(jì)算均只針對(duì)滑坡類。式中TP、FP、FN分別表示滑坡類被正確識(shí)別的數(shù)量、將非滑坡類預(yù)測(cè)為滑坡類的數(shù)量、將滑坡類預(yù)測(cè)為非滑坡類的數(shù)量。召回率表示樣本中所有滑坡被檢測(cè)到的比例。精確率表示模型預(yù)測(cè)為滑坡的結(jié)果中,預(yù)測(cè)正確的比例。F分?jǐn)?shù)是綜合召回率和精確率的評(píng)估指標(biāo),可更加客觀地反映整體的性能,是主要的評(píng)估指標(biāo)。在本研究任務(wù)中召回率和精確率同樣重要,故設(shè)置β=1,即使用F1分?jǐn)?shù)。
基線模型就是ResU-Net(下采樣16倍),另外針對(duì)其改進(jìn)策略共有3個(gè)對(duì)比模型:(1)添加注意力機(jī)制。在ResU-Net編碼器中添加CBAM(第1個(gè)殘差塊除外),以及在編碼器與解碼器之間的第1個(gè)橋連接中添加SAM;(2)加深網(wǎng)絡(luò)結(jié)構(gòu)。去掉改進(jìn)的ResU-Net中的CBAM和SAM。(3)添加注意力機(jī)制和加深網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,即改進(jìn)的ResU-Net模型。消融實(shí)驗(yàn)的結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果表明,添加注意力機(jī)制和加深網(wǎng)絡(luò)結(jié)構(gòu)都可以提升模型的分割精度,其中網(wǎng)絡(luò)結(jié)構(gòu)的加深幫助最大,在ResU-Net的基礎(chǔ)上提升了0.27百分點(diǎn),再通過(guò)添加注意力機(jī)制則可以進(jìn)一步提升。
表2 改進(jìn)ResU-Net模型的消融實(shí)驗(yàn)結(jié)果
在對(duì)比實(shí)驗(yàn)中,除了U-Net和ResU-Net模型,在文獻(xiàn)[8]中已做過(guò)對(duì)比實(shí)驗(yàn)的語(yǔ)義分割模型之外,額外選擇了4種具有代表性的主流語(yǔ)義分割模型:Attention U-Net,BiSeNet,Semantic FPN,U-Net++,以豐富此類研究的對(duì)比工作。表3對(duì)6種對(duì)比模型的特點(diǎn)進(jìn)行了簡(jiǎn)單的總結(jié)。針對(duì)LandSlide4Sense 2022數(shù)據(jù)集進(jìn)行模型對(duì)比實(shí)驗(yàn)的結(jié)果如表4所示。經(jīng)實(shí)驗(yàn)證明,在該任務(wù)中Attention U-Net、U-Net以及ResU-Net下采樣16倍比原文獻(xiàn)中下采樣8倍效果更好,且與本研究改進(jìn)的ResU-Net下采倍數(shù)相同,所以對(duì)比實(shí)驗(yàn)中,這3個(gè)模型使用的是16倍下采樣結(jié)構(gòu),以此保證對(duì)比實(shí)驗(yàn)的公平性。
表3 6種對(duì)比模型特點(diǎn)的總結(jié)
表4 改進(jìn)的ResU-Net與6種對(duì)比模型的 滑坡檢測(cè)結(jié)果
從表4可以發(fā)現(xiàn),改進(jìn)的ResU-Net的性能最好,F1分?jǐn)?shù)達(dá)到76.91%,比ResU-Net高0.43百分點(diǎn),而推理時(shí)間只多了3.03 ms(每4張圖像),平均每張圖像0.76 ms,增加的時(shí)間代價(jià)較小;另外,改進(jìn)的ResU-Net的召回率也是最高的,比第二的Attention U-Net高0.4百分點(diǎn),說(shuō)明其能預(yù)測(cè)出最多的真實(shí)滑坡點(diǎn);而在精確率方面,則是U-Net++得分最高,達(dá)到79%,說(shuō)明其預(yù)測(cè)出的滑坡點(diǎn)可信度最高,但其召回率偏低,即對(duì)真實(shí)滑坡點(diǎn)的預(yù)測(cè)較少。還值得注意的是,改進(jìn)的ResU-Net得到的召回率和精確率最接近,只相差0.85百分點(diǎn),這說(shuō)明該模型得出的預(yù)測(cè)平衡性較好,預(yù)測(cè)結(jié)果不會(huì)太激進(jìn)也不會(huì)太保守。反觀ResU-Net、Semantic FPN和U-Net++的平衡性就差一些,召回率和精確率的差值分別為4.21、5.44和5.71百分點(diǎn)。從推理時(shí)間來(lái)看,BiSeNet、Semantic FPN以及U-Net推理最快,但精度與改進(jìn)的ResU-Net有差距,其中最接近的是U-Net。在本實(shí)驗(yàn)環(huán)境下,改進(jìn)的ResU-Net相比于U-Net,用每4張圖像多出8.14 ms推理時(shí)間的代價(jià)換取了0.69百分點(diǎn)的精度提升。而根據(jù)目前GPU運(yùn)行速度的提升和并行計(jì)算技術(shù)的增強(qiáng),增加的推理時(shí)間還可以縮短一些,故提出的改進(jìn)的ResU-Net模型在此類任務(wù)中是可行的。
為了展示模型的分割效果,圖3可視化了表4中7種模型的預(yù)測(cè)結(jié)果。前5個(gè)樣本從測(cè)試集抽取,最后一個(gè)是用GEE在Sentinel-2 MSI數(shù)據(jù)集上提取B1至B12的特征和用ASF Data Search在ALOS PALSAR數(shù)據(jù)集上提取B13、B14特征合并得到的,該滑坡點(diǎn)取自四川省雅安市漢源縣,由于采集數(shù)據(jù)的特征分布與實(shí)驗(yàn)數(shù)據(jù)有差異,所以分割精度降低。從圖中可以看出,整體上改進(jìn)的ResU-Net分割最準(zhǔn)確。但所有模型都表現(xiàn)出對(duì)小分支滑坡分割效果不好的問(wèn)題,如圖3中“image_1456” 底部的小分叉7個(gè)模型都沒(méi)預(yù)測(cè)出來(lái)?;滦螤罘彪s,提升模型對(duì)各樣式滑坡檢測(cè)的兼容性是改善模型性能的重點(diǎn)之一,也是后續(xù)的研究工作之一。
圖3 模型預(yù)測(cè)可視化
由文獻(xiàn)[18]可知,坡向可通過(guò)影響地表降水流向、植被生長(zhǎng)及繁茂程度,對(duì)滑坡的產(chǎn)生造成間接影響,其值可通過(guò)python的richde.TerrainAttribute函數(shù)傳入B14(DEM)計(jì)算得到。另外,歸一化濕度指數(shù)(Normalized Difference Moisture Index,NDMI)可以描述作物的水分脅迫等級(jí)[26],與滑坡產(chǎn)生有間接聯(lián)系,其計(jì)算公式如下:
(14)
首先,向3.2小節(jié)生成的新數(shù)據(jù)集依次加入坡向和NDMI特征,生成另兩個(gè)對(duì)比數(shù)據(jù)集;然后分別送入改進(jìn)的ResU-Net進(jìn)行訓(xùn)練、評(píng)估。評(píng)估結(jié)果見(jiàn)表5。
從中可以看出通過(guò)剔除無(wú)效特征,添加NDVI和NDWI特征、添加坡向特征都可以提升檢測(cè)精度,而對(duì)原始數(shù)據(jù)集同時(shí)進(jìn)行以上3種優(yōu)化,可將精度提升最大化,F1分?jǐn)?shù)可達(dá)77.03%,比使用原始數(shù)據(jù)集高了0.36百分點(diǎn)。另外,使用新數(shù)據(jù)集+NDMI比僅使用新數(shù)據(jù)集得到的F1分?jǐn)?shù)減少了0.15百分點(diǎn),這說(shuō)明NDMI的加入無(wú)益于滑坡檢測(cè)。
表5 特征組合對(duì)比結(jié)果
針對(duì)基于中分辨率遙感影像滑坡檢測(cè)精度低的問(wèn)題,提出了一種改進(jìn)的ResU-Net模型。實(shí)驗(yàn)結(jié)果證明改進(jìn)的ResU-Net優(yōu)于ResU-Net,U-Net,Attention U-Net,BiSeNet,Semantic FPN和U-Net++,其F1分?jǐn)?shù)達(dá)76.91%,并且由文獻(xiàn)[8]中已做的11種語(yǔ)義分割模型的對(duì)比實(shí)驗(yàn)結(jié)果為ResU-Net的F1分?jǐn)?shù)最高,可推斷改進(jìn)的ResU-Net在本研究任務(wù)上優(yōu)于大多數(shù)主流的語(yǔ)義分割模型。另外,基于LandSlide4Sense 2022的數(shù)據(jù)集,生成了不同特征組合的對(duì)比數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明Sentinel-2的B1、B2、B3、B4、B5、B6、B10、B11、B12和ALOS PALSAR的DEM、坡度層以及NDVI、NDWI、坡向共14個(gè)特征的數(shù)據(jù)組合最有利于滑坡檢測(cè)。