李雨柯,趙院冬,陳偉濤,李顯巨,韓科胤,曹 會,溫秋園,王 群
1.中國地質(zhì)調(diào)查局 牡丹江自然資源綜合調(diào)查中心,黑龍江 牡丹江 157000;
2.中國地質(zhì)大學 計算機學院,湖北 武漢 430074
隨著遙感科技的發(fā)展,遙感影像光譜、空間、時間分辨率不斷提高,應(yīng)用領(lǐng)域和需求逐步延伸,對高效率、高精度提取影像信息的要求顯得越來越迫切[1].但是受限于遙感數(shù)據(jù)容量大、難識別、非平穩(wěn)等特點[2],加之地表復雜的地質(zhì)條件,傳統(tǒng)的人機交互方法花費時間長、解譯精度差的問題開始凸顯,因此,遙感大數(shù)據(jù)分析處理方法應(yīng)運而生[3-4].目前這種分析方法主要有兩類:一類是使用關(guān)系型數(shù)據(jù)庫的聯(lián)機分析統(tǒng)計技術(shù)方法;另一類是基于機器學習的智能化分析法.其中的深度學習方法在數(shù)據(jù)的提取和分析方面具有明顯的優(yōu)越性,是目前遙感智能化應(yīng)用的研究熱點[5].
深度學習是一種利用多個隱含層的神經(jīng)網(wǎng)絡(luò)來解決特征表達的學習方法,與監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、集成學習等機器學習方法相比,在智能提取遙感影像信息方面,精確度和智能化程度更高[6-10].
由于地表巖體地質(zhì)成因背景復雜,物理化學性質(zhì)具有各向異性和不連續(xù)性,對遙感智能化精確識別提出了更高要求.本研究利用深度學習方法在試驗區(qū)開展巖體智能解譯模型工作,結(jié)果顯示,該方法效果良好,能夠有效滿足智能、快速、高精度解譯需求.
本研究依托遙感地質(zhì)調(diào)查數(shù)據(jù),重點選取葦河鎮(zhèn)、亞布力鎮(zhèn)和綏陽鎮(zhèn)3個1∶50 000標準圖幅(圖1a、b)為試驗區(qū),分別位于黑龍江中東部地區(qū),跨越松嫩地塊和佳木斯-興凱地塊,總面積1 092 km2.圖幅內(nèi)巖性主要發(fā)育花崗巖、花崗閃長巖、流紋巖、安山巖、玄武巖、片巖,具有較好的代表性.
圖1 研究區(qū)地理位置示意圖Fig.1 Geographical sketch map of the study area
試驗區(qū)選取資源三號立體測繪衛(wèi)星影像為數(shù)據(jù)源,采用的數(shù)據(jù)清單見表1,主要包含3景后視、前視、多光譜和正視影像,數(shù)據(jù)能夠完全覆蓋研究區(qū).所有數(shù)據(jù)均沒有云、雪覆蓋,呈像時間在10月、11月和3月,該時段植被裸露程度較高,能夠提升遙感數(shù)據(jù)信息提取精度.
表1 試驗區(qū)使用的資源3號數(shù)據(jù)Table 1 Data from ZY-3 satellite images used in test areas
采用資源三號前后視立體像對影像提取數(shù)字高程模型(DEM)數(shù)據(jù),再進行偽洼地填充等后處理,得到精度為5 m的成果數(shù)據(jù).基于DEM數(shù)據(jù)和有理多項式系數(shù),對資源三號全色和多光譜影像進行正射校正.接著以全色影像為基準,采用二次多項式對多光譜影像進行幾何糾正.其中,糾正誤差控制在0.5個像元之內(nèi),重采樣選用立方卷積方法.最后采用Gram-Schmidt光譜銳化(GS)方法融合上述處理后的全色和多光譜影像,從而得到2.1 m的融合多光譜影像.
利用項目影像數(shù)據(jù),考慮到巖體在遙感影像上連續(xù)性的空間展布特征,按500×500像元制作了安山巖(98幅)、花崗巖(265幅)、石英閃長巖(87幅)、中性火山巖(53幅)4類巖性場景數(shù)據(jù)集,共503幅,作為參考數(shù)據(jù)集(圖2).
圖2 典型遙感巖體場景Fig.2 Typical rock scenes by remote sensing
根據(jù)試驗區(qū)巖體調(diào)查和解譯數(shù)據(jù),采用資源三號影像數(shù)據(jù),分別構(gòu)建了真彩色、假彩色和DEM場景數(shù)據(jù),尺寸為500×500像元和210×210像元.根據(jù)16 bit的多光譜圖像和DEM圖像,得到8 bit的圖像及其裁剪后的真彩色、假彩色和DEM圖像(表2),包含有真實地理坐標和無真實地理坐標兩個版本.
表2 試驗區(qū)場景數(shù)據(jù)集Table 2 Scene datasets of test areas
實驗環(huán)境的構(gòu)建及主要實現(xiàn)功能分為以下步驟:搭建軟件運行平臺的系統(tǒng)環(huán)境Ubuntu 16.04;遵循系統(tǒng)環(huán)境穩(wěn)定性的原則,分別配置和安裝對應(yīng)版本的NVIDIA Cuda Version 10.0、cu DNN Version 10.0、Open CV Version 3.4.1;安裝Anaconda3、Py Charm等Python語言編譯環(huán)境,并配置Numpy等語言擴展程序庫;創(chuàng)建數(shù)據(jù)集;編譯代碼并按照一定的窗口大小對數(shù)據(jù)影像進行隨機裁剪;網(wǎng)絡(luò)訓練及數(shù)據(jù)集擴展,模型驗證、測試、結(jié)果預(yù)測及精度評價.
將數(shù)據(jù)集按8∶2劃分為訓練和測試集.具體的技術(shù)路線如圖3所示.首先分別提取人工設(shè)計特征、中層視覺特征和深度特征;然后輸入SVM(支持向量機)、ANN(人工神經(jīng)網(wǎng)絡(luò))和Softmax分類器,從而得到混淆矩陣;接著開展分類精度評價.人工設(shè)計特征包括GLCM(灰度共生矩陣)、HOG(方向梯度直方圖)和CH(層次聚類);中層視覺特征包括BoVW(視覺詞袋模型)、超級位置模型SPM(level=1)和SPM(level=2);深度特征包括超分辨率測試序列(VGG)、Xception和ResNet網(wǎng)絡(luò)提取的特征.SVM算法使用默認參數(shù),未調(diào)參;ANN算法包含2個隱含層和1個輸出層,隱含層神經(jīng)元為300,輸出層神經(jīng)元為4,Dropout設(shè)為0.2,具體如圖4所示.人工設(shè)計特征和中層視覺特征均輸入了SVM和ANN算法,深度特征輸入了Softmax算法,從而得到5組分類結(jié)果.OA(總體精度)、Kappa和F-score評價各種模型的總體性能,采用統(tǒng)計檢驗探測不同模型之間是否具有統(tǒng)一意義上的顯著性差異.
圖3 巖體遙感智能解譯路線Fig.3 Intelligent interpretation route of rock mass remote sensing images
圖4 ANN算法結(jié)果圖Fig.4 ANN algorithm result diagram
選取基于人工設(shè)計特征和中層視覺特征的最優(yōu)模型,與基于深度特征的模型進行對比分析.模型總體性能見表3,不同模型總體性能的概率(PD)見表4.總體上,基于CH特征的模型明顯優(yōu)于深度學習模型;而深度學習模型略微優(yōu)于基于中層視覺特征的模型.相比于VGG模型,基于CH特征的模型OA、Kappa和F-score分別提高了25.00%、72.47%和79.71%;相比于Xception模 型,分 別 提 高 了29.03%、67.39%和59.30%;相比于ResNet模型,分別提高了31.15%、62.93%和37.98%.而相比于基于BoVW特征的模型,VGG、Xception和ResNet模 型 的OA分 別 提 高 了10.34%、6.90%和5.17%,Kappa分別提高了31.26%、35.25%和38.95%,F(xiàn)-score的PD分 別 為-1.95%、10.61%和27.71%.
表3 不同模型的總體性能Table 3 Overall performance of different models
表4 不同模型總體性能的PD值Table 4 PD values of overall performance for different models
統(tǒng)計結(jié)果(表5)表明:1)VGG和ResNet模型顯著優(yōu)于基于BoVW特征的模型,即卡方和p值分別為9.60和0.02,12.96和0.00;2)Xception模型和基于BoVW特征的模型之間沒有統(tǒng)計意義上顯著性的差異,卡方和p值分別為0.52和0.92;3)基于CH特征的模型顯著優(yōu)于VGG和ResNet模型,卡方分別為17.87和12.95,p值均為0.00;4)基于CH特征的模型與Xception模型之間沒有顯著差異,卡方和p值分別為3.67和0.30.
表5 不同模型統(tǒng)計檢驗結(jié)果Table 5 Statistical test results of different models
盡管基于CH特征的模型明顯優(yōu)于深度學習模型,但大多數(shù)情況下深度學習模型的特征提取能力更強.可以基于分類實驗的結(jié)果優(yōu)選特征提取能力強的深度學習預(yù)訓練模型,用于后續(xù)智能解譯模型構(gòu)建.
鑒于巖體類型具有地形異質(zhì)性的特點,以及精細的土地覆蓋分類數(shù)據(jù)對巖體分類和邊界的指示意義,擬構(gòu)建基于多源多模態(tài)數(shù)據(jù)和多流CNN(卷積神經(jīng)網(wǎng)絡(luò))的巖體分類模型(圖5).首先使用多光譜和地形數(shù)據(jù)及精細的土地覆蓋分類數(shù)據(jù),提取像元鄰域特征;然后構(gòu)建多流CNN分支,分別提取深度特征并分類;最后采用自適應(yīng)方法融合多流CNN分類結(jié)果,從而得到巖體分類結(jié)果.各個分支采用深度卷積神經(jīng)網(wǎng)絡(luò)模型和參數(shù)遷移策略構(gòu)建;精細的土地覆蓋分類則采用單獨的模型得到.
2.2.1 基于大尺度鄰域和深度卷積神經(jīng)網(wǎng)絡(luò)的巖體提取模型
使用遙感地質(zhì)解譯數(shù)據(jù)和遙感影像構(gòu)建本次實驗的訓練樣本數(shù)據(jù)集,樣本都是48×48的鄰域影像數(shù)據(jù);在模型的構(gòu)建階段,利用遷移學習,結(jié)合ImageNet數(shù)據(jù)和樣本池中的數(shù)據(jù)對VGG16模型進行預(yù)訓練和微調(diào);最后使用訓練好的模型對全圖的像元進行預(yù)測,依據(jù)遙感地質(zhì)解譯數(shù)據(jù)對預(yù)測的標簽進行評估.算法流程如圖6.將該模型直接遷移給圖5中第一個分支,另兩個分支直接遷移VGG16的結(jié)構(gòu).
圖5 基于多源多模態(tài)數(shù)據(jù)和多流CNN的巖土體分類模型流程圖Fig.5 Flowchart of rock-soil mass classification model based on multisource,multimodal data and multistream CNN
圖6 基于鄰域數(shù)據(jù)的深度學習巖體分類算法流程圖Fig.6 Flowchart of deep learning rock mass classification algorithm based on neighborhood data
使用遙感地質(zhì)解譯數(shù)據(jù)在每一類目標區(qū)域中隨機選擇樣本點,將樣本點作為圖片的中心點,在原始影像數(shù)據(jù)上裁剪48×48的鄰域數(shù)據(jù),保存為jpg格式的圖片,同一類別的數(shù)據(jù)保存在一個文件夾中.由于部分點在圖片的邊界,裁剪過程中會發(fā)生越界,需要進行剔除,所以實際的數(shù)據(jù)相對于計劃樣本數(shù)有所減少.
本方法使用5個指標進行性能評估:混淆矩陣、總體分類精度(Overall Accuracy)、精確率(Precision)、召回率(Recall)、Kappa系數(shù)和F-score.
ImageNet項目是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫,大約包含1500萬張照片,2.2萬個類別,每張圖片都是經(jīng)過嚴格的人工篩選和標記,利用VGG16通過學習ImageNet數(shù)據(jù)集提取圖像特征的方法,獲得預(yù)訓練的模型.
真彩色訓練集是進行獨立訓練的,使用圖像增強等方法增加訓練的數(shù)據(jù),最終保存驗證集精度最好的模型.實驗的硬件平臺為RTX 2080 Ti GPU,實驗框架為Python=3.6,kares=2.3.1和tensorflow=1.13.1.
利用訓練好的模型,對影像數(shù)據(jù)的每一個像元進行預(yù)測,得到一個和原始影像的寬和高相同的圖片,作為全圖的預(yù)測標簽圖.在此過程中,需要把每一個像元作為48×48鄰域的中心進行預(yù)測.該鄰域的標簽,即為該像元的標簽值.為了使得最終輸出標簽的數(shù)目與原始影像的像元數(shù)目一致,需要對影像的上下左右各填充24個像元,填充值設(shè)置為0.
2.2.2 精細土地覆蓋分類模型
精細的土地覆蓋分類數(shù)據(jù)采用基于波段組合和多模態(tài)數(shù)據(jù)的多流CNN融合模型獲?。▓D7).首先基于多光譜數(shù)據(jù)的真彩色和假彩色影像及DTM等多波段組合和多模態(tài)數(shù)據(jù),提取像元鄰域特征;然后構(gòu)建多流CNN分支,分別提取深度特征;最后融合多流深度特征,從而實現(xiàn)基于波段組合和多模態(tài)數(shù)據(jù)的多流CNN融合模型.
圖7 基于波段組合和多模態(tài)數(shù)據(jù)的多流CNN融合模型Fig.7 Multistream CNN fusion model based on band combination and multimodal data
將研究區(qū)土地覆蓋類型劃分為14個二級類,并構(gòu)建相應(yīng)的訓練、驗證和測試集.
模型訓練和構(gòu)建過程中的主要超參數(shù)為:epoch,1000;step_per_epoch,568;多光譜輸入尺寸,15×15像元鄰域;DEM輸入尺寸,15×15像元鄰域;batch size,50.
測試集精度評價結(jié)果為:總精度,88.30%;Kappa系數(shù),86.33%;F1分數(shù)(精度和召回率的調(diào)和平均數(shù)),87.71%.
基于真彩色影像數(shù)據(jù),最終得到巖體分類結(jié)果預(yù)測圖.與實際巖體分類結(jié)果對比(圖8)顯示,預(yù)測結(jié)果圖的整體目測效果較好,整體的區(qū)域預(yù)測分布正確,但是部分類別中存在“椒鹽現(xiàn)象”.
圖8 巖體分類結(jié)果與實際巖性對比Fig.8 Comparison of rock mass classification result and actual lithology
利用Recall、Precision、F1、Kappa和Acc作為精度評價的指標(表6),總精度達到84.4%.
表6 巖體模型精度評價結(jié)果Table 6 Accuracy evaluation result of rock mass model
(1)深度學習模型總體性能優(yōu)于基于中層視覺特征的模型,信息提取能力優(yōu)于基于人工設(shè)計特征的模型,可作為巖體預(yù)測學習模型.
(2)由于巖體具有地形異質(zhì)性特點,以及土地覆蓋分類數(shù)據(jù)對巖體類型和邊界的指示意義,采用深度卷積神經(jīng)網(wǎng)絡(luò)模型和參數(shù)遷移策略構(gòu)建多流CNN的巖體分類模型,并結(jié)合精細的土地覆蓋分類模型,從而得到巖體分類數(shù)據(jù),結(jié)果顯示總精度達到84.4%,能夠為地質(zhì)工作者提供輔助決策依據(jù).
利用深度學習方法開展高分辨率遙感地質(zhì)智能解譯研究意義重大[11-14].其中的CNN模型被廣泛應(yīng)用在圖像識別等領(lǐng)域,取得較好效果[10-12].但是,該模型也存在易于過擬合需要大量樣本提高模型泛化能力的缺陷[15].本研究文嘗試使用遷移學習策略對樣本數(shù)量進行擴容,較好地解決了小樣本問題,提高了模型的解譯精度.今后將繼續(xù)研究深度學習中不同模型的結(jié)合,并開展不同研究區(qū)、不同季節(jié)的測試研究,從而提升模型的泛化能力.