李大威
(中北大學電氣與控制工程學院,太原030051)
人工智能技術(shù)的飛速進步很大程度上是由于深度學習和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的突破,而且得益于大型數(shù)據(jù)庫的建立和更快的GPU硬件?;谏疃葘W習思想的遙感圖像計算機自動分類識別的研究層出不窮,取得了眾多的研究成果[1-4]。深度學習通過多層訓練機制挖掘潛在于數(shù)據(jù)中的非線性特征,從海量訓練數(shù)據(jù)中自動學習全局特征,促進了特征提取模型從手工特征向?qū)W習特征的質(zhì)變,典型的深度學習模型包括自編碼器[5]、深度置信網(wǎng)絡(luò)[6]、深度置信網(wǎng)絡(luò)[7]、堆棧自編碼[8]、深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)[9-10]和生成對抗網(wǎng)絡(luò)[11]等。
DCNN是特殊的深層神經(jīng)網(wǎng)絡(luò)模型[12],Le等在卡內(nèi)基梅隆大學機器人研究所所做的演講中特別強調(diào)了卷積神經(jīng)網(wǎng)絡(luò)的重要性和應(yīng)用,主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形,ILSVRC競賽采用的數(shù)據(jù)集為標準數(shù)據(jù),同一圖像屬于單一場景,且各圖像尺寸一致。遙感圖像識別領(lǐng)域的分類網(wǎng)絡(luò)也層出不窮[13]。但對于地物分布復雜的遙感圖像,傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)構(gòu)除了結(jié)構(gòu)參數(shù)的優(yōu)化調(diào)整,還面臨兩個亟待解決的問題:一是地面參考圖像的標記以及訓練樣本的選?。欢嵌S輸入數(shù)據(jù)的制備,尤其是后者。一般的處理方法可以包括等尺寸分塊和多尺度分割,但等尺寸分塊無法適應(yīng)地物的復雜分布情況,塊內(nèi)像元包含的地物種類勢必包含多種,如同混合像元,因此該塊所對應(yīng)的確定類別標簽不能反映地面實況,無法準確評估網(wǎng)絡(luò)性能。同時,典型的多尺度分割,如四叉樹分割,能夠在一定程度上表達地物分布差異,但由此方法得到的輸入數(shù)據(jù)需要后續(xù)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置,不能自適應(yīng)調(diào)節(jié),加大了網(wǎng)絡(luò)復雜程度。而對于前者所針對的學習方法都是有監(jiān)督的,也就是說只有監(jiān)督學習方法才需要標記訓練樣本,這在大數(shù)據(jù)時代面臨著諸多困難,某些情況下甚至是不可實現(xiàn)的。挑戰(zhàn)在于,如何讓機器從未經(jīng)處理的、無標簽無類別的數(shù)據(jù)中進行學習,比方說視頻和文字,即無監(jiān)督學習。在應(yīng)用部署中也應(yīng)充分利用遷移學習模型來加速實現(xiàn)模型構(gòu)造[14-15]。
本文根據(jù)遙感圖像復雜地物分布特點,以遙感圖像原始譜段信息為基礎(chǔ),提出基于上下文的像元擴展方法實現(xiàn)CNN二維圖像輸入的制備方法,研究光譜特征輸入的卷積神經(jīng)網(wǎng)絡(luò)分類方法,同時以人工解譯結(jié)果作為地面參考評估計算機自動分類結(jié)果?;谏鲜鰯?shù)據(jù)制備的研究,以深度學習技術(shù)為工具研究CNN結(jié)構(gòu)集成的遙感分類算法,通過高分遙感衛(wèi)星數(shù)據(jù)驗證方法的有效性。
卷積神經(jīng)網(wǎng)絡(luò)是目前研究最火熱且成果頗豐的深度學習算法,其基本結(jié)構(gòu)包括兩層,其一為特征提取層,每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來。其二是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的Sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。典型的數(shù)字識別卷積神經(jīng)網(wǎng)絡(luò)是LeNet-5,網(wǎng)絡(luò)結(jié)構(gòu)明確表達了卷積神經(jīng)網(wǎng)絡(luò)的核心特點:卷積、池化和非線性。卷積神經(jīng)網(wǎng)絡(luò)的訓練過程同堆棧自編碼等其他深度學習算法相似,同樣可以概括為前向傳播與后向傳播兩個階段,包括4個步驟。
步驟1自樣本集中隨機抽取第p個樣本(X,Yp),將X輸入網(wǎng)絡(luò)。
步驟2計算上述輸入相應(yīng)的實際輸出Op。信息從輸入層經(jīng)過逐級變換,傳送到輸出層。數(shù)學表達為
式中:Fi(·),i={1,2,…,n}表示網(wǎng)絡(luò)模型激活函數(shù),即不同層之間的非線性映射關(guān)系;Wi(·),i={1,2,…,n}表示網(wǎng)絡(luò)模型的權(quán)重矩陣;bi(·),i={1,2,…,n}表示網(wǎng)絡(luò)模型的偏置。
步驟3計算實際輸出Op與樣本參考輸出Yp的差值。
步驟4按極小化誤差的方法調(diào)整權(quán)重矩陣和偏置。
總之,DCNN的核心屬于端對端的學習過程,即輸入原始數(shù)據(jù),輸出為語義標簽,與其他傳統(tǒng)方法相比,這是最大的區(qū)別。Nogueira等[16]總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)的5個挑戰(zhàn),即復雜的調(diào)優(yōu)過程,黑箱的操作本質(zhì),高昂的計算成本,過擬合傾向以及模型開發(fā)的經(jīng)驗依賴性。
本文采用的算法總體流程如圖1所示。
圖1 元胞卷積集成算法流程
本文設(shè)計的元胞卷積結(jié)構(gòu)可以根據(jù)需求添加或刪除不符合的元胞,實現(xiàn)自適應(yīng)集成操作。依據(jù)CNN的一般結(jié)構(gòu),并考慮應(yīng)用,采用2層的卷積+池化的元胞結(jié)構(gòu),多個元胞集成多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,分別為輸入層、C-S元胞層、全連接層與輸出層。C為卷積層,S表示池化層,每個卷積特征圖像數(shù)量為3,卷積核大小為奇數(shù),如3×3,5×5或7×7,具體尺寸根據(jù)實際情況確定,本文選取5×5,卷積層激活函數(shù)設(shè)定為Relu。S為均值池化層,對應(yīng)卷積層輸出的2×2
斑塊像元的平均值作為該池化層激活函數(shù)的輸入,其特征圖像數(shù)量分別與對應(yīng)的卷積層一致。元胞層與輸出層之間采用全連接,輸出為類別標簽,維度與輸入圖像像元總數(shù)和類別數(shù)目相關(guān)。綜合考慮數(shù)據(jù)規(guī)模和計算成本,本文中元胞層的元胞數(shù)量K取5,L取3。
圖2 單特征輸入的元胞卷積網(wǎng)絡(luò)結(jié)構(gòu)
CNN的數(shù)據(jù)輸入格式為二維圖像,能夠更有效地挖掘地物空間信息。假定x為待處理的像元,將其作為中心像元,考慮5×5鄰域,為了突出核心像元,并區(qū)別其與鄰域內(nèi)各像元的空間關(guān)系,各自對應(yīng)的權(quán)重存在差異,文中采用的鄰域權(quán)重如表1所示。
表1 各鄰域位置像元權(quán)重
擴展后斑塊各像元的灰度值
式中:V為斑塊內(nèi)所有像元的灰度均值;P5×5為原輸入圖像斑塊;W5×5為權(quán)重核。卷積核尺寸為5×5,池化核大小為2,本文將原圖像的各像元擴展為22×22的斑塊作為二維卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像實現(xiàn)遙感圖像地物分類。
為驗證方法的效用和泛化能力,本文通過兩種不同傳感器的圖像進行實驗,成像系統(tǒng)分別為國產(chǎn)高分二號衛(wèi)星GF載荷和激光掃描測距LIDAR系統(tǒng)載荷。遙感圖像原始數(shù)據(jù)包括多光譜,如藍(B)、綠(G)、紅(R)和近紅外(NIR)以及全色圖像(PAN),分辨率分別為3.2 m和0.8 m。截取的實驗區(qū)域圖像首先經(jīng)過圖像融合成0.8 m分辨率的多光譜圖像,幅面尺寸為1 024×1 024,地面目標包括玉米種植區(qū)與其他兩類。
首先分別以兩數(shù)據(jù)集可見光紅波段為實驗基礎(chǔ)數(shù)據(jù)仿真確定訓練過程中樣本數(shù)量,高分數(shù)據(jù)不同樣本和不同隱含層數(shù)統(tǒng)計總體精度和Kappa系數(shù)的分布情況如圖3所示。
圖3 GF數(shù)據(jù)訓練樣本自測性能
本文從訓練集自預測分類總體精度與運算成本兩方面綜合分析。由圖3曲線可見,隨著樣本的增加,算法性能得到一定提高,本文確定訓練樣本像元數(shù)量為30 000,進而執(zhí)行后續(xù)集成分類實驗。
根據(jù)試驗確定的樣本數(shù)量,分別以各特征為輸入獲得相應(yīng)卷積神經(jīng)網(wǎng)絡(luò)分類結(jié)果,基于投票規(guī)則實現(xiàn)決策級融合實驗仿真,獲得最終分類精度,如表2所示。在有限特征范圍內(nèi),隨著參與決策的特征數(shù)量增加,不僅總體精度得到了顯著提升,由單特征B時的0.665增加到了4特征時的0.892,而且表征預測與真值間一致性程度的Kappa系數(shù)也由0.547提升為0.855,增幅明顯,充分說明不同光譜波段的互補作用對提升分類性能具有重要的作用,與4層的BP神經(jīng)網(wǎng)絡(luò)相比也有了10%以上的提升。
表2 不同數(shù)量的特征組平均分類精度比較
高分衛(wèi)星實驗數(shù)據(jù)的假彩色圖像如圖4(a)所示,場景為北方農(nóng)村區(qū)域,項目背景為統(tǒng)計該地區(qū)玉米種植面積,因此參考真值包括兩類,即玉米種植區(qū)與其他,參考標準如圖4(b)所示,黑色區(qū)域為玉米種植區(qū),白色區(qū)域為其他類型。各特征組合的分類結(jié)果如圖4(c)~(f),可見隨著特征數(shù)量的增加,可視化結(jié)果表現(xiàn)越優(yōu)秀,具體指標如表2所示,如B波段的結(jié)果僅0.664 6,最后提升到4波段的0.891 8。Kappa一致性系數(shù)也有同樣的提升。為了更清晰地表現(xiàn)各類別的性能,表3和表4分別列出了本文算法和BP神經(jīng)網(wǎng)絡(luò)分類結(jié)果的混淆矩陣。
表3 本文算法四光譜特征聯(lián)合分類的混淆矩陣
表4 BP神經(jīng)網(wǎng)絡(luò)四光譜特征聯(lián)合分類的混淆矩陣
圖4 GF數(shù)據(jù)實驗結(jié)果可視化對比(黑色為玉米種植區(qū),白色為其他)
面向農(nóng)業(yè)遙感領(lǐng)域農(nóng)作物種植面積的估計任務(wù),本文提出了一種基于像素擴展的多特征元胞卷積神經(jīng)網(wǎng)絡(luò)塊Boosting集成的算法,以提取高分遙感衛(wèi)星圖像中的玉米種植區(qū)域。首先將一個像素擴展到一個適當尺寸的圖像塊塊作為輸入數(shù)據(jù)集,圖像塊包含了該核心像素信息及其鄰域信息,保證能夠挖掘出豐富的地表覆蓋信息,然后構(gòu)建了相對簡單的元胞卷積網(wǎng)絡(luò)塊,搭建元胞層以提取深層次的圖像特征,提高分類器的性能。實驗結(jié)果表明,該方法達到了較高的精度。本文方法克服了常規(guī)卷積神網(wǎng)絡(luò)算法要求輸入數(shù)據(jù)具有規(guī)則的矩形尺寸特性,因此對源圖像中包含的眾多不規(guī)則的作物圖斑失效的弊端。文中僅對實現(xiàn)了元胞層的全連接構(gòu)建方式,該方式對小型元胞效果較好,但隨著元胞基本單元結(jié)構(gòu)復雜度的增加,計算量呈指數(shù)增長,因此下一步的工作擬開展探究更優(yōu)的連接方式,如跳連接方式等。