潘勇卓,謝洪斌,楊 雪,姜良美,張 勇
(1.外生成礦與礦山環(huán)境重慶市重點(diǎn)實(shí)驗(yàn)室(重慶地質(zhì)礦產(chǎn)研究院),重慶 401120;2.煤炭資源與安全開采國家重點(diǎn)實(shí)驗(yàn)室重慶研究中心,重慶 401120)
礦產(chǎn)資源是人類社會存在與發(fā)展的重要物質(zhì)基礎(chǔ),礦產(chǎn)資源的合理開發(fā)、利用是國土資源監(jiān)管的重要主題。為及時發(fā)現(xiàn)礦產(chǎn)資源的偷采、盜采、亂采行為,國土資源部開展了土地礦產(chǎn)衛(wèi)片執(zhí)法專項(xiàng)行動,對違法采礦行為進(jìn)行了有力打擊,有效維護(hù)了礦業(yè)開采秩序。然而衛(wèi)片執(zhí)法過程中,海量遙感影像的礦山信息提取工作主要為人工解譯,不僅成本高、時效性差,而且解譯結(jié)果受人為主觀影響,容易出現(xiàn)錯誤和遺漏。隨著遙感技術(shù)的發(fā)展,影像的獲取將更加快捷、頻繁,影像所包含的監(jiān)測信息也更加海量,這無疑對傳統(tǒng)的人工信息提取工作帶來更大的考驗(yàn)。
遙感影像信息自動提取分類常用的方法有BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)等,然而這些分類方法難以應(yīng)用于衛(wèi)片執(zhí)法工作,究其原因主要在于其自動提取的精度難以達(dá)到生產(chǎn)需求,因此難以代替人工解譯。近年來,人工智能領(lǐng)域的深度學(xué)習(xí)技術(shù)在計算機(jī)視覺、語音識別、信息檢索等領(lǐng)域取得了良好的效果,具有高精度、高時效的特點(diǎn),為遙感影像信息的分類提取提供了新的思路。
在此,本文以石灰?guī)r礦山為例,將深度學(xué)習(xí)的方法引入到遙感影像礦山信息精確識別中,利用大量人工解譯的礦山圖斑制作樣本,通過深度卷積神經(jīng)網(wǎng)絡(luò)框架Mask R-CNN 進(jìn)行機(jī)器訓(xùn)練圈取礦山,并結(jié)合采礦權(quán)信息與GIS空間分析技術(shù),探索露天礦山疑似違法圖斑線索快速提取的應(yīng)用方法。
Mask R-CNN是由HE等提出的一種用于實(shí)例分割(Instance Segmentation)的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)框架,是當(dāng)前實(shí)例分割領(lǐng)域的研究熱點(diǎn)。該框架擴(kuò)展自該作者提出的Faster R-CNN,模擬人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行信號識別,能并行地在邊緣檢測器(Bounding Box Recognition)分支上添加一個用于預(yù)測目標(biāo)掩模(Object Mask)的新分支,不僅可對圖像中的目標(biāo)進(jìn)行檢測,還可以對每一個目標(biāo)給出一個高質(zhì)量的分割結(jié)果,有效實(shí)現(xiàn)圖片中目標(biāo)物體的像素級識別圈取。
Mask R-CNN 框架的工作分兩階段進(jìn)行,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。第一個階段掃描圖像,通過CNN和區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN)生成有可能包含目標(biāo)區(qū)域的感興趣區(qū)(Region of Interest,RoI),第二個階段平行于預(yù)測類別和坐標(biāo)信息,利用一個小的全積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)對每個RoI 輸出一個預(yù)測分割掩膜Mask。
為了提供網(wǎng)絡(luò)的分層非線性映射學(xué)習(xí)能力,減小預(yù)測值與真實(shí)值之間的差距程度,Mask R-CNN 提供如下?lián)p失函數(shù)來參與訓(xùn)練,并對每個RoI 輸出一個二值Mask:
上式中,Lclass表示分類識別的損失,本文采用softmax的分類交叉熵形式表示;Lbbox表示邊框回歸的損失,邊框回歸的目的是增大輸出邊框與真實(shí)邊框之間的重疊度;Lmask表示掩膜的損失,根據(jù)RoI 中每個像素點(diǎn)計算sigmoid 形式的平均二值交叉熵得出,該定義允許每個類都生成掩膜,并且不會存在類間競爭關(guān)系。
圖1 Mask RCNN 網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 ResNet 結(jié)構(gòu)示意圖
常見的CNN 網(wǎng)絡(luò)模型由LeNet、AlexNet、GoogleNet、VGG、ResNet等,不同的模型結(jié)構(gòu)對樣本容量有不同的適應(yīng)性,樣本容量過低或過高則會出現(xiàn)訓(xùn)練欠擬合或過擬合的問題。深度殘差網(wǎng)絡(luò)ResNet 由He 提出,核心思想是用學(xué)習(xí)輸入x的殘差F(x)替代映射H(x),解決了網(wǎng)絡(luò)加深的同時梯度彌散越發(fā)顯著的問題[,該網(wǎng)絡(luò)模型在小樣本研究中表現(xiàn)出相比其他模型更高的準(zhǔn)確率,因此本文選擇ResNet 作為CNN的網(wǎng)絡(luò)模型,選擇ReLU 作為激活函數(shù)。其結(jié)構(gòu)如圖2所示。
Mask R-CNN 可用于遙感影像的訓(xùn)練與目標(biāo)識別,從而圈取影像中的目標(biāo)圖斑。本文以露天礦山作為自動提取的對象,通過Mask R-CNN 獲得礦山圖斑后,需對存在開采問題的圖斑進(jìn)行判定。
采礦許可證是采礦權(quán)人行使開采礦產(chǎn)資源權(quán)利的法律憑證,是國家有關(guān)部門指導(dǎo)和規(guī)范礦山開發(fā)秩序的有效參考。采礦權(quán)許可證明確規(guī)定了礦山合法開采的空間范圍,即采礦權(quán)范圍內(nèi)的視為合法開采,采礦權(quán)范圍外的則為疑似違法開采。因此本文以采礦權(quán)矢量圖層作為疑似違法檢測依據(jù),通過GIS空間疊加法[14]判定存在開采問題的圖斑。
實(shí)驗(yàn)所使用的影像為高分二號遙感影像(包含紅、綠、藍(lán)、近紅外4 波段,分辨率0.81m),選取石灰?guī)r、砂巖作為礦山識別對象。首先,對52 幅影像進(jìn)行人工解譯,圈取共632個礦山矢量圖斑;其次,以圖斑中的每個影像像素為中心,按50 像素的步長逐點(diǎn)裁切為512×512大小的樣本影像,同時裁切對應(yīng)的矢量范圍。最終形成礦山樣本(包含影像和矢量)共約110 000個。
為了增加樣本的相關(guān)性,使模型具有更好的泛化能力,本文依次對訓(xùn)練樣本進(jìn)行旋轉(zhuǎn)(90°、180°、270°)和翻轉(zhuǎn)(水平、垂直、對角線)操作,最終礦山樣本擴(kuò)充至880 000個。
Mask R-CNN的訓(xùn)練數(shù)據(jù)集通常為COCO數(shù)據(jù)格式,該格式文件包含了,即樣本圖片和該圖片對應(yīng)的掩膜。根據(jù)高分二號影像采集的樣本包含了樣本影像(tif圖像格式)和影像中對應(yīng)的礦山矢量范圍(shp文件格式),輸入到Mask R-CNN 進(jìn)行訓(xùn)練之前需將樣本轉(zhuǎn)換為COCO數(shù)據(jù)格式。
實(shí)驗(yàn)樣本的tif圖像包含四個波段信息,與常規(guī)RGB 三通道圖片不同,COCO 文件無法直接讀取tif圖像,因此通過二進(jìn)制文件流的形式讀取tif圖像并保存到COCO數(shù)據(jù)的圖片信息中。
shp 文件包含有礦山矢量范圍的節(jié)點(diǎn)坐標(biāo),可用于生成COCO 中的掩膜本。文中礦山樣本的shp 文件坐標(biāo)系為空間地理坐標(biāo)系,然而COCO數(shù)據(jù)中的掩膜節(jié)點(diǎn)坐標(biāo)為圖形坐標(biāo),因此需通過如下公式進(jìn)行坐標(biāo)轉(zhuǎn)換。
上式中,xgeo、ygeo為shp 文件中的節(jié)點(diǎn)坐標(biāo);x′、y ′為影像左上角頂點(diǎn)坐標(biāo),可從tif 頭文件中獲取;p為像素的空間分辨率,高分二號影像p值取0.81;x、y為轉(zhuǎn)換后的圖像坐標(biāo)。
根據(jù)上述方法將樣本構(gòu)建為COCO數(shù)據(jù)集輸入到Mask R-CNN 中進(jìn)行訓(xùn)練,直至損失函數(shù)不再下降,即完成模型訓(xùn)練。
通過Mask R-CNN 訓(xùn)練后的模型即可用于礦山圖斑的自動提取,而該過程的輸入影像尺寸應(yīng)與訓(xùn)練樣本的影像尺寸保持一致。在識別一幅完整的遙感影像之前,通過切割處理將影像分割為數(shù)個512×512尺寸的小影像。為避免影像邊緣的目標(biāo)被切割后區(qū)域過小而導(dǎo)致識別遺漏,本文設(shè)置一定的重疊區(qū)域提高目標(biāo)切割的完整性。
自動提取的圖斑成果基于切割后的小影像,圖斑掩膜節(jié)點(diǎn)坐標(biāo)為圖形坐標(biāo),無法與采礦權(quán)矢量圖層進(jìn)行疊加分析。因此根據(jù)式(2)反算節(jié)點(diǎn)的空間地理坐標(biāo),從而構(gòu)建礦山圖斑矢量文件。利用自動提取的礦山圖斑矢量文件與采礦權(quán)矢量圖層進(jìn)行空間疊加分析,位于采礦權(quán)矢量圖層范圍外的礦山圖斑即可提取判定為疑似違法圖斑。
圖3 礦山提取效果圖
1)人工解譯遙感影像制作礦山圖斑,并切割為512×512 尺寸的小樣本,樣本包含tif 影像和shp 矢量文件。
2)擴(kuò)充樣本,對樣本進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)操作。
3)制作COCO數(shù)據(jù)集用于Mask R-CNN 網(wǎng)絡(luò)模型訓(xùn)練,直至損失函數(shù)不再下降即完成訓(xùn)練。
4)利用訓(xùn)練好的模型提取遙感影像中的礦山圖斑。
5)根據(jù)采礦權(quán)矢量圖層提取疑似違法圖斑。
本文實(shí)驗(yàn)采用Linux系統(tǒng),Mask R-CNN 搭建采用Caffe2-GPU平臺,算法仿真采用Python 語言,計算機(jī)顯卡為GeForce GTX1080(顯存8G),處理器為Core i7-4790 CPU@3.60GHz(內(nèi)存16G)。模型訓(xùn)練時長約380小時,損失函數(shù)停留在1.05左右。提取效果如圖3所示。
mAP(mean,Average,Precision)是深度學(xué)習(xí)目標(biāo)檢測中衡量識別精度的常用指標(biāo),通過目標(biāo)、非目標(biāo)的正確、錯誤分類的數(shù)量反映識別的效果。本文以像素為單位,橫向?qū)Ρ缺疚姆椒ㄅcKNN和SVM 方法在本文數(shù)據(jù)上的實(shí)驗(yàn)效果。各類方法mAP 精度如下表。由表可知,本文方法的精度高于傳統(tǒng)方法,在露天礦山疑似違法圖斑提取的問題上具有很強(qiáng)的有效性和優(yōu)越性。
提取精度表
本文提出了一種基于Mask R-CNN的遙感影像露天礦山疑似違法圖斑自動檢測提取方法,通過人工采集大量礦山圖斑樣本并對其進(jìn)行擴(kuò)充處理,制作特定的COCO數(shù)據(jù)集輸入到Mask R-CNN 進(jìn)行訓(xùn)練,得到的分類網(wǎng)絡(luò)模型用于目標(biāo)識別,實(shí)現(xiàn)遙感影像礦山圖斑的自動提取,再以采礦權(quán)矢量圖層作為疑似違法的判定依據(jù),圈取影像中的問題圖斑,從而實(shí)現(xiàn)疑似違法圖斑的自動提取。經(jīng)實(shí)驗(yàn),本文方法的提取精度高于傳統(tǒng)分類方法20%以上,能有效圈取目標(biāo)圖斑。
同時本文方法仍有不足,實(shí)驗(yàn)過程中發(fā)現(xiàn)對部分礦山邊緣輪廓的勾畫不準(zhǔn)確;錯解、漏解的數(shù)量遠(yuǎn)高于人工解譯,因此難以替代實(shí)際衛(wèi)片執(zhí)法工作中的人工解譯勞動力;數(shù)據(jù)輸入和成果輸出以裁切后512×512的小圖形式為單元,未實(shí)現(xiàn)整幅遙感影像的直接輸入和成果展示。
礦產(chǎn)資源衛(wèi)片執(zhí)法工作中,本文方法提取成果可作為初步解譯結(jié)果輔助人工判讀,為深度學(xué)習(xí)在衛(wèi)片執(zhí)法中的應(yīng)用研究作出了實(shí)踐性嘗試。今后的研究重點(diǎn)將著力于提高識別的準(zhǔn)確性、精確性以及勾畫完整性,并嘗試實(shí)現(xiàn)完整影像的輸入與輸出。