劉東杰
(蘭州大學(xué)資源環(huán)境學(xué)院,甘肅 蘭州 730000)
遙感影像分類是近年來遙感衛(wèi)星影像應(yīng)用的研究熱點(diǎn)之一[1,2],對(duì)于進(jìn)一步開展土地利用/覆被信息調(diào)查、分析土地利用類型變化具有重要意義。最早人們通過目視解譯作為分類方式進(jìn)行提取,但其嚴(yán)重依賴判讀人員的先驗(yàn)知識(shí),易受個(gè)人差異影響,且時(shí)效性差[3]。隨著技術(shù)的不斷進(jìn)步,計(jì)算機(jī)視覺領(lǐng)域的圖像分割技術(shù)逐漸被應(yīng)用于遙感影像的分類識(shí)別中。圖像分割是一種通過紋理、灰度與空間幾何等不同特征對(duì)圖像不同區(qū)域進(jìn)行分割,并增強(qiáng)同一區(qū)域內(nèi)特征一致性的技術(shù)[4],根據(jù)影像的最小處理單元可以分為基于像元的分類和基于對(duì)象的分類兩種方法。
基于對(duì)象的圖像分析 (Object-Based Image Analysis,OBIA),是一種高效、可靠的自動(dòng)化圖像分割分類技術(shù),能夠通過紋理、形狀、大小等特征在目標(biāo)圖像中生成包含多個(gè)像素的矢量對(duì)象。目前已有大量學(xué)者針對(duì)面向?qū)ο筮M(jìn)行了相關(guān)應(yīng)用研究[5,6]。其基本原理為通過多尺度影像分割,生成內(nèi)部有較小差異的同質(zhì)目標(biāo)[7]。與基于像元的傳統(tǒng)分類方法相比,OBIA 可以充分利用不同對(duì)象間幾何信息、結(jié)構(gòu)信息與光譜信息的差異進(jìn)行信息提取,克服基于像元分類中常見的椒鹽現(xiàn)象[2],從而在中高分辨率影像上取得更好的分類結(jié)果。
機(jī)器學(xué)習(xí)技術(shù)通過多年來的不斷發(fā)展,已經(jīng)成為了人工智能領(lǐng)域的重要研究方向,并廣泛應(yīng)用于信號(hào)處理、模式識(shí)別、大數(shù)據(jù)分析等多個(gè)領(lǐng)域。傳統(tǒng)的機(jī)器學(xué)習(xí)研究方向主要包括隨機(jī)森林[8]、人工神經(jīng)網(wǎng)絡(luò)[9]等。結(jié)合面向?qū)ο笈c機(jī)器學(xué)習(xí)對(duì)遙感影像進(jìn)行信息提取有助于提升分類效果,提取到更有價(jià)值的地物信息。本文將結(jié)合貝葉斯網(wǎng)絡(luò)、J48決策樹與隨機(jī)森林對(duì)比三種方法在landsat-8 衛(wèi)星影像上的分類效果。
選擇landsat-8 OLI 衛(wèi)星影像作為本文使用的數(shù)據(jù),裁剪其中1024*1024 的區(qū)域作為目標(biāo)研究區(qū)。多光譜波段空間分辨率為30 米,成像時(shí)間為2017 年7 月26 日10 點(diǎn)56 分13 秒,影像的中心坐標(biāo)為30°18' 7.16'' N 113°50' 22.17''E。本文使用的Landsat 8 影像采用WGS84橢球體模型,UTM投影分帶號(hào)為49,整體云量小于3%,整體質(zhì)量較高,如圖1。
圖1 目標(biāo)研究區(qū)
研究區(qū)坐落于為湖北省洪湖市與嘉魚縣交界地區(qū),海拔在23 至28 米之間,以南部較高,北部較低的特點(diǎn)形成自東南向西北緩慢傾斜的地勢(shì)。境內(nèi)河道交錯(cuò)密集,布滿大小不一的湖泊,境內(nèi)主要地物類型有耕地、河流、森林、公路、湖泊、裸地、城鎮(zhèn)居民地等。為了消除研究區(qū)影像中大氣散射導(dǎo)致的輻射誤差,對(duì)數(shù)據(jù)依次進(jìn)行輻射定標(biāo)、FLAASH 大氣校正以完成預(yù)處理。
貝葉斯網(wǎng)絡(luò)[10]本質(zhì)上是一種有向無環(huán)圖,包含多個(gè)代表變量的節(jié)點(diǎn),并利用不同節(jié)點(diǎn)間連接的有向邊表示節(jié)點(diǎn)之間的相互關(guān)系,可以很好地表達(dá)抽象、模糊的信息,在對(duì)概率性事件或不確定性較大事件的分析上有十分廣闊的應(yīng)用前景。可以通過使用概率測(cè)度權(quán)重描述不同數(shù)據(jù)之間的相關(guān)性來處理帶有噪聲的數(shù)據(jù),同時(shí),其本身也具有多元知識(shí)圖解可視化表達(dá)的分析能力,易于按照信息的相關(guān)關(guān)系進(jìn)行融合,有助于先驗(yàn)知識(shí)和概率的結(jié)合[11]。
決策樹是一種貪心算法,基本原理是從根節(jié)點(diǎn)開始自頂向下結(jié)合樣本集遍歷每個(gè)非葉結(jié)點(diǎn)以決定決策屬性。而J48決策樹是1993 年在ID3 算法的基礎(chǔ)上進(jìn)行改進(jìn)提出的一種更高效的算法。分類規(guī)則直觀可靠、易于理解,主要通過信息增益率進(jìn)行屬性選擇,通過篩選信息增量最大的特征值作為子節(jié)點(diǎn),確定最佳分裂的指標(biāo)。相比于之前的ID3 算法,其通過剪枝減少過擬合概率,并具有處理連續(xù)屬性值或含有缺失屬性樣本的能力[12]。
隨機(jī)森林[13]作為一種改進(jìn)的決策樹算法,在樣本和屬性兩個(gè)方面都具有一定的隨機(jī)性,常用于處理分類、回歸問題。算法利用bootsrap 技術(shù)隨機(jī)有放回地抽取多個(gè)樣本,并根據(jù)每組取得的樣本建立決策樹,隨機(jī)組合以得到隨機(jī)森林,最后通過投票概率得到最優(yōu)分類結(jié)果。每一棵樹個(gè)體的分類能力以及各樹之間的相關(guān)性都與整體算法誤差息息相關(guān),可通過改變不同剪枝方式或修改樹的數(shù)量來對(duì)分類精度進(jìn)行優(yōu)化。目前隨機(jī)森林已廣泛應(yīng)用于土地覆被分類[14]、農(nóng)業(yè)[15]、林業(yè)[16]等眾多領(lǐng)域。
使用多尺度分割算法進(jìn)行面向?qū)ο筇崛。瑢⒛繕?biāo)影像分割成具有高內(nèi)部同質(zhì)性,高外部異質(zhì)性的影像對(duì)象。多尺度分割包含三個(gè)重要的影響參數(shù):尺度因子(scale)、形狀因子(shape)和緊湊度因子(compactness)。形狀因子越高,圖像分割效果越整齊,緊湊度因子越低,地物分割效果越細(xì)碎。同時(shí)考慮采用不一致評(píng)價(jià)法對(duì)多尺度分割參數(shù)進(jìn)行優(yōu)化,結(jié)合歐幾里得距離與尺度特征的關(guān)系對(duì)影像參數(shù)進(jìn)行最終的確定。
樣本類型及解譯標(biāo)志如表1 所示,暫時(shí)將道路歸為building 類中;水田與魚塘也都暫時(shí)歸入到Farmland-wet 類中。根據(jù)研究區(qū)地理特征、自然狀況,結(jié)合Google Earth 高分影像應(yīng)用目視解譯的方法選取研究區(qū)訓(xùn)練樣本,經(jīng)面向?qū)ο蠓指詈笱芯繀^(qū)一共得到11539 個(gè)對(duì)象。選取其中每一類不少于50 塊的七類對(duì)象集作為訓(xùn)練樣本,并為后續(xù)工作建立分類規(guī)則。
表1 樣本解譯標(biāo)志對(duì)照
特征選擇利用樣本集內(nèi)部信息,從待選特征集合中篩選一個(gè)最優(yōu)特征子集,從而達(dá)到降低特征空間維數(shù),提高分類器實(shí)際分類性能的作用。 以 WEKA 自帶的ReliefFAttributeEval 作為屬性評(píng)測(cè)算法,結(jié)合光譜、幾何、紋理等特征集合進(jìn)行特征優(yōu)選,選取特征類型見表2。最后將多尺度分割結(jié)果結(jié)合優(yōu)選特征屬性利用貝葉斯網(wǎng)絡(luò)、J48 決策樹與隨機(jī)森林進(jìn)行分類。
表2 候選特征集
尺度因子閾值范圍設(shè)為30-100,通過多組實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),尺度30 和50 出現(xiàn)了明顯過分割,很多地物類型分的過小過細(xì);而尺度80 和100 的分割結(jié)果又有著欠分割狀況,綜合來看在60 尺度下分割結(jié)果與實(shí)際地物擬合程度最高。在目視解譯的基礎(chǔ)上,通過不一致性評(píng)價(jià)法結(jié)合ED2 與尺度因子的相互關(guān)系綜合考慮,對(duì)多尺度分割參數(shù)進(jìn)行優(yōu)選,最終將shape 值設(shè)為0.1,compactness 值設(shè)為0.5,得到的多尺度分割局部影像見圖2。
圖2 多尺度分割后的局部影像(底圖為假彩色合成影像)
如表3 所示,取計(jì)算結(jié)果中相關(guān)性排名前八的特征作為輸入特征,分別為:歸一化植被指數(shù)(NDVI)、近紅外波段(Mean Layer 5)、歸一化差異水體指數(shù)(NDWI)、差異環(huán)境植被指數(shù)(DVI)、比值植被指數(shù)(RVI)、標(biāo)準(zhǔn)差(Standard deviation Layer)、紅光波段(Mean Layer 4)與波段間最大差異指數(shù)(Max. diff.)。將優(yōu)選結(jié)果結(jié)合貝葉斯網(wǎng)絡(luò)、J48 決策樹以及隨機(jī)森林對(duì)目標(biāo)研究區(qū)進(jìn)行土地覆被分類。
表3 特征優(yōu)選結(jié)果
基于對(duì)象的貝葉斯網(wǎng)絡(luò)、J48 決策樹與隨機(jī)森林算法的分類結(jié)果見圖3,貝葉斯網(wǎng)絡(luò)與J48 決策樹分類器都將研究區(qū)西北部含水量較大的水田標(biāo)識(shí)為湖泊,且對(duì)于湖心島以及水稻田的提取效果較差,而針對(duì)村莊與水田之間的道路的提取也存在著較為突出的問題。整體來看隨機(jī)森林算法優(yōu)于另外兩種方法,水田與湖泊誤分情況明顯減少,影像中局部道路等細(xì)節(jié)也較好,但是依然有部分地物(如湖心島中的未開發(fā)土地)存在識(shí)別誤差??偟膩碚f對(duì)于三種分類方法,與實(shí)際地物類型相比誤差集中出現(xiàn)在:水田- 湖泊;裸土- 建筑物;旱地- 森林之中;旱地- 裸土中。其中收到季節(jié)影響,部分作物正處于收割期或播種期,可能會(huì)導(dǎo)致旱地大面積呈裸土狀,從而影響最終的分類效果。
圖3 基于對(duì)象的貝葉斯網(wǎng)絡(luò)結(jié)果(右上)、J48 決策樹結(jié)果(左下)與隨機(jī)森林分類結(jié)果(右下)
由表4 可知,在相同檢驗(yàn)樣本的條件下,隨機(jī)森林算法的整體分類精度為92.54%,Kappa 系數(shù)為0.901,誤差主要出現(xiàn)在建筑物、裸土之中,而湖泊、河流整體提取效果較好。相比于貝葉斯分類器與J48 決策樹的分類結(jié)果,隨機(jī)森林取得了更高的分類精度。
表4 精度評(píng)價(jià)對(duì)比
本文結(jié)合了面向?qū)ο笠约叭N不同機(jī)器學(xué)習(xí)算法,基于典型地物訓(xùn)練樣本進(jìn)行了覆被分類研究,均取得了不錯(cuò)的分類效果。其中基于隨機(jī)森林的算法相比貝葉斯網(wǎng)絡(luò)和J48 決策樹有更好的典型地物識(shí)別準(zhǔn)確率和更高的Kappa 系數(shù)。實(shí)驗(yàn)結(jié)果表明結(jié)合機(jī)器學(xué)習(xí)與基于對(duì)象的遙感影像分類算法可以有效利用不同對(duì)象間幾何信息、結(jié)構(gòu)信息與光譜信息進(jìn)行特征提取,從而達(dá)到提升土地覆被分類準(zhǔn)確性的目的。分類識(shí)別的過程中,三種分類算法都遇到了針對(duì)復(fù)雜地物類型錯(cuò)誤識(shí)別的問題,比如設(shè)置的水田和旱田都遠(yuǎn)遠(yuǎn)不夠代表研究區(qū)內(nèi)復(fù)雜的作物類型,如何有效提升分類精度還需進(jìn)一步進(jìn)行討論與研究。