国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Relief-F算法及決策樹方法下的濕地信息提取

2021-07-16 01:41郝玉峰滿衛(wèi)東汪金花劉明月
關(guān)鍵詞:決策樹尺度精度

郝玉峰,滿衛(wèi)東,2,3,汪金花,劉明月,2,3,張 闊

(1.華北理工大學 礦業(yè)工程學院,河北 唐山 063210;2.河北省礦業(yè)開發(fā)與安全技術(shù)重點實驗室,河北 唐山063210;3.河北省礦區(qū)生態(tài)修復(fù)產(chǎn)業(yè)技術(shù)研究院,河北 唐山063210)

0 引言

濕地是地球三大生態(tài)系統(tǒng)之一,雖然只占地球表面積的6%左右,但憑借其豐富的自然資源,為動植物提供了良好的生存環(huán)境,同時也具有調(diào)節(jié)氣候、保護生物多樣性、蓄洪抗旱、改善環(huán)境等作用[1],被稱為“地球之腎”[2].近年來,由于受氣候變化、自然災(zāi)害、環(huán)境污染、城鎮(zhèn)擴張、農(nóng)業(yè)發(fā)展等因素的影響,大面積的自然濕地轉(zhuǎn)變?yōu)榻ㄔO(shè)用地、農(nóng)業(yè)用地以及人工濕地[3],導(dǎo)致濕地生態(tài)系統(tǒng)功能遭到嚴重破壞.第二次全國濕地資源調(diào)查結(jié)果表明,截止2013年,中國濕地總面積為5 360.26萬km2,相較于第一次調(diào)查結(jié)果,濕地面積減少了339.63萬km2[4].準確掌握濕地的面積和分布情況,對濕地的管理與保護以及生態(tài)系統(tǒng)的可持續(xù)發(fā)展具有重要意義.

快速、準確提取濕地信息是進行濕地探究的基礎(chǔ),20世紀70年代,計算機技術(shù)在遙感圖像解譯中得到廣泛應(yīng)用,其中目視判讀憑借簡單易操作、靈活性強等優(yōu)點,成為主要的方法之一[5],但該方法很大程度上取決于解譯人員的專業(yè)知識水平.隨著遙感技術(shù)的發(fā)展,土地覆被信息提取方法也取得了較大發(fā)展,分類精度得到了很大提高,主要包括監(jiān)督分類、非監(jiān)督分類、支持向量機、決策樹等方法[6].其中,決策樹分類方法憑借其靈活、直觀、運算效率高等特點在濕地分類中較為常用[7].但當前多數(shù)方法都以像元為基準進行分類,使得光譜相似的地物類型無法準確分離,必然造成“同譜異質(zhì)”、“同質(zhì)異譜”等現(xiàn)象[8].面向?qū)ο蠓诸惙椒☉?yīng)用地物類型的光譜、形狀、空間關(guān)系等特征建立規(guī)則,將含有更多信息的對象應(yīng)用到分類中,能夠解決傳統(tǒng)分類方法出現(xiàn)的光譜混淆等問題[9].將面向?qū)ο蠓诸惡蜎Q策樹相結(jié)合,利用面向?qū)ο蠓▽⒂跋穹指畛赏|(zhì)對象,再經(jīng)過決策樹進行滿足和不滿足的條件判斷[10],實現(xiàn)更加快速、高效地影像分類,使得分類結(jié)果更準確.由于濕地所處地形豐富,覆被地物類型多樣,需要應(yīng)用較多的特征變量,才能對濕地進行精確的分類.從影像中提取的特征變量間往往存在相關(guān)性,且應(yīng)用過多的特征變量參與分類將影響分類精度和分類速度.因此,如何能在特征集中選擇出最優(yōu)的特征變量的同時,又能高效的對濕地進行精確分類顯得尤為重要.

Relief-F算法[11]是一種典型的過濾式特征優(yōu)化算法,通過計算特征變量的權(quán)重并進行排序,進而提取出最優(yōu)特征集合.Relief-F算法具有高效、不受數(shù)據(jù)類型限制的優(yōu)點,被廣泛應(yīng)用于國內(nèi)外各研究領(lǐng)域.何云[12]等利用優(yōu)選特征進行隨機森林土地覆蓋分類,并與原始隨機森林分類結(jié)果進行對比,得出基于特征優(yōu)選的分類結(jié)果精度明顯提高.劉家福[13]等采用 Relief-F算法對全部特征變量進行權(quán)重排序,采用基于特征優(yōu)選的隨機森林模型與傳統(tǒng)的分類方法提取黃河口濱海濕地信息,得出特征優(yōu)選的隨機森林模型精度和效率最高.以上研究都是利用隨機森林決策樹模型進行分類,但不同決策樹對于濕地分類的適用性沒有明確說明,不同決策樹方法分類精度存在一定差異.對不同的決策樹模型進行比較,選擇出最優(yōu)模型,有助于提高分類精度.

該研究以唐山市曹妃甸為研究區(qū),基于Landsat8 OLI數(shù)據(jù),經(jīng)輻射定標、大氣校正等預(yù)處理后,對影像進行面向?qū)ο蠓指睿崛》指顚ο蟮墓庾V、紋理、幾何、植被指數(shù)、水體指數(shù)等特征,并利用Relief-F算法對特征變量進行優(yōu)選,獲取適合本研究區(qū)的最優(yōu)特征集,分別使用 CART、C5.0和QUEST決策樹及未特征優(yōu)化的QUEST決策樹對研究區(qū)的濕地類型進行分類,評價不同方法在濕地分類中的優(yōu)劣.

1 數(shù)據(jù)與方法

1.1 研究區(qū)概況

曹 妃 甸 區(qū) ( 39°07′43″N ~ 39°27′23″N ,118°12′12″E~118°43′16″E)處于河北省唐山市南部沿海、渤海灣中心地帶,面積為1 943.72 km2,其中野生動植物豐富多樣,省級濕地和鳥類保護區(qū)110 km2,被國際濕地組織稱為“開發(fā)潛力巨大、不可多得的濕地保護區(qū)”.該地區(qū)位于東部季風區(qū)溫帶半濕潤區(qū),大陸性季風特征顯著,夏季潮濕多雨,冬季寒冷干燥,四季分明,年均氣溫11 ℃,年降水量636 mm,主要集中在7月和8月.研究區(qū)土地利用類型多樣,主要以鹽田、水田、養(yǎng)殖池、不透水表面等為主,濕地植被主要以蘆葦和翅堿蓬為主,見圖1.

圖1 曹妃甸區(qū)Fig.1 study area ofCaofeidian

1.2 數(shù)據(jù)來源與預(yù)處理

該研究使用的數(shù)據(jù)為曹妃甸地區(qū)2013年7月24日夏季的Landsat8 OLI影像,來源于USGS官網(wǎng)(https://www.usgs.gov/),軌道行列號為 122/33,影像的云量少,圖像清晰,主要包括7個波段,可見光與近紅外包括5個波段,TIRS 包括2個波段,空間分辨率為30 m,其中全色波段的分辨率為15 m.輔助數(shù)據(jù)主要包括Google Earth 衛(wèi)星影像、曹妃甸矢量文件和野外調(diào)查數(shù)據(jù).

利用ENVI軟件對遙感影像進行輻射定標和大氣校正,消除大氣所造成的輻射誤差,獲得地物表面的真實反射率;采用二次多項式對遙感數(shù)據(jù)進行幾何精校正,將幾何誤差控制在0.5個像元內(nèi);采用Gram-Schmidt變換對30 m的多光譜影像和15m的全色波段影像進行融合;最后利用曹妃甸矢量邊界對遙感影像裁剪,得到研究區(qū)遙感影像.

1.3 濕地遙感提取的分類系統(tǒng)

以《濕地公約》、《全國濕地資源調(diào)查與監(jiān)測技術(shù)規(guī)程》和文獻的濕地分類體系為依據(jù),通過實地考察和Google Earth影像的目視判讀,將研究區(qū)的主要濕地劃分草本沼澤、河流、泥沙質(zhì)灘涂、庫塘/水庫、養(yǎng)殖池、鹽田、水田、非濕地(建設(shè)用地、耕地)共9類,見表1.

表1 研究區(qū)遙感分類體系Tab.1 remote sensing classification system in study area

1.4 特征變量說明

本文選取光譜特征、紋理特征、幾何特征、形狀特征、指數(shù)特征和纓帽變換求得的亮度、綠度、濕地構(gòu)建共52個特征集(表2).

表2 樣本特征與描述Tab.2 features and description of sample

續(xù)表2

將遙感影像波段的平均值和標準差作為光譜特征;并利用各波段反射率為基準構(gòu)建水體指數(shù)和植被指數(shù);但研究區(qū)濕地類型豐富多樣,僅依靠光譜特征和指數(shù)特征很難將相似的地物分離[14],紋理特征能夠更好的描述地物信息的細節(jié)[15],因此本文利用灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)提取56個特征變量.并利用主成分分析對其降維,其中第一主成分的貢獻率達到51.23%,第6主成分的貢獻率達到95.74%,因此選取前6個主成分作為紋理特征.

纓帽變換不僅對原始影像的地物信息起到圖像增強的效果,還能壓縮各波段間的冗余信息[16].本文選擇Baig等人提出的Landsat8 OLI纓帽變換系數(shù)進行纓帽變換[17],得到6個分量,其中前3個分量為亮度、綠度、濕度,第3到6變量均為噪聲,因此提取前3個分量的均值和標準差用于區(qū)分不同的濕地類型.

1.5 分類方法

(1)多尺度分割

面向?qū)ο蠓椒ㄊ菍⒂跋穹指畹玫酵|(zhì)對像,再根據(jù)地物類型的光譜、形狀、空間關(guān)系等特征建立規(guī)則,將對象分配到相應(yīng)的類中[18].其核心步驟是多尺度分割,分割的好壞直接影響到分類結(jié)果的精度.其原理是根據(jù)給定的閾值對像元進行聚集合并,形成具有更多信息的對象,并將對象提取出來的過程[19].面向?qū)ο蠓指罘椒ㄖ饕O(shè)置6個參數(shù):波段權(quán)重、分割尺度、光譜、形狀、緊湊度和光滑度.其中分割尺度對分類結(jié)果的影響最為明顯,尺度設(shè)置的越大,像元合并的面積就越大,獲得的對象越少,越容易造成像元混淆的現(xiàn)象,反之則導(dǎo)致分割對象過于破碎,大大增加工作量[20];光滑度和緊湊度、形狀因子和光譜因子的取值范圍均為0.1~0.9,參數(shù)的和均是1.由于地區(qū)的空間差異和不同信息提取的需要,應(yīng)根據(jù)實際情況設(shè)置相應(yīng)的參數(shù),從而得到最優(yōu)的分割結(jié)果.

(2)特征優(yōu)選算法

Relief-F算法是一種基于數(shù)理統(tǒng)計的多類別特征選擇算法,其核心思想是通過隨機抽取樣本的方式,計算各個特征變量的權(quán)重,并對權(quán)重值的大小進行排序[21].其主要內(nèi)容是從訓練集中隨機選擇一個樣本R,然后從和R同類的樣本中尋找k最近鄰樣本H,從和R不同類的樣本中尋找k最近鄰樣本M,最后定義特征權(quán)重為

式中,A為特征變量的個數(shù);m為樣本抽樣次數(shù);k為最近鄰樣本個數(shù);Hj為樣本R的第k個最近鄰?fù)慄c;diff(A,R,Hj)為在特征A上樣本R和Hj的差;Mj(C)為異類樣本點;Class(R)為樣本R的類別;P為概率.

(3)決策樹分類方法

CART(Classification and Regression Tree,分類回歸樹)算法基本原理是將測試變量與目標變量構(gòu)成數(shù)據(jù)集,通過計算基尼系數(shù)(Gini Index)選擇最優(yōu)分割特征,再根據(jù)特征值構(gòu)建二叉樹,并循環(huán)此步驟,直到待分類的樣本集達到停止分類的條件[22].基尼系數(shù)的計算式為

式中,r為類別變量的個數(shù);P(Ui)為所選樣本的數(shù)據(jù)集中屬于第i個類別概率.

C5.0決策樹算法以特征變量信息增益率(Information Gain)為標準確定最優(yōu)分割特征和分割值,并通過代價矩陣對決策樹的節(jié)點進行修剪[23],除此之外,C5.0算法還引入了Boosting技術(shù).Boosting技術(shù)依次建立一系列決策樹,后建立的決策樹會對前面構(gòu)建決策樹出現(xiàn)的錯分現(xiàn)象加以分析,最終生成更加準確的決策樹模型[24].

QUEST決策樹算法是一種二元分類方法,其基本流程和其他決策樹相同,主要分為特征變量和特征分割值的選擇.QUEST將特征變量和分割閾值的確定分開進行,一方面對連續(xù)性變量和離散型變量同時適用,另一方面還減小了分類方法中常見的偏向類別較多預(yù)測變量的趨勢,因此在特征變量選擇上基本無偏[25],同時可通過多個變量構(gòu)成的超平面在特征空間中區(qū)別類別成員和非類別成員[26].

基于分類結(jié)果,構(gòu)建混淆矩陣,利用總體精度、Kappa系數(shù)、生產(chǎn)者精度和用戶精度對不同方法的結(jié)果進行評價.

2 結(jié)果與分析

2.1 影像多尺度分割

本研究采用試錯法選擇最優(yōu)分割尺度,分割尺度以20為步長,從60到200,不斷改變分割尺度、形狀和緊密度的權(quán)重,得到不同尺度的分割結(jié)果.由于研究區(qū)主要為水田、養(yǎng)殖池和水庫這樣較為規(guī)則的地物,因此將形狀因子的權(quán)重設(shè)置的較高,經(jīng)過多次試驗發(fā)現(xiàn),設(shè)置形狀因子權(quán)重為0.9、緊湊度權(quán)重為0.5,當分割尺度為60時,地物類型分割的過于破碎;而當設(shè)置尺度為 160時,建設(shè)用地能夠準確的分離,但是水田、養(yǎng)殖池會出現(xiàn)錯分的現(xiàn)象;當分割尺度為100時,不同的地物類型均得到較好的分割,見圖2.因此,選取分割尺度為100,形狀因子為0.9,緊湊度為0.5對研究區(qū)進行多尺度分割.

圖2 研究區(qū)局部不同尺度的分割結(jié)果對比Fig.2 comparison of segmentation results of different scales in study area

2.2 特征優(yōu)選

利用Relief-F算法對52個特征變量進行優(yōu)選,主要設(shè)置兩個參數(shù),分別為決策樹數(shù)量和輸入特征變量個數(shù).假設(shè)構(gòu)建決策樹的數(shù)量N=1 000,以5為步長,從1到52,不斷改變特征變量個數(shù)k,計算得出分類精度.由圖3可知,隨著特征變量的增加,前7個特征的分類精度呈現(xiàn)持續(xù)增長的態(tài)勢,由第一個特征分類精度為79.3%增長到89%,這是由于前期特征變量間的相關(guān)性較低,對分類都起到了積極作用;但到了7~20個特征變量時,少數(shù)的冗余特征開始出現(xiàn),致使分類精度呈現(xiàn)波動上升趨勢,輸入 20個特征變量時,分類精度達到最大值,為89.5%;從21個特征變量開始,分類精度呈現(xiàn)明顯的下降趨勢,這是由于不相關(guān)特征的增加,對最優(yōu)特征的選擇產(chǎn)生了干擾,導(dǎo)致分類精度降低.固定特征變量的個數(shù)k=20,對決策樹數(shù)量N進行選取,通過測試發(fā)現(xiàn),當決策樹的數(shù)量N≥1 000時,分類精度逐漸趨于穩(wěn)定.因此,本文在特征數(shù)k=20,決策樹數(shù)量N=1 000時選取最優(yōu)特征集.

圖3 特征變量個數(shù)與分類精度關(guān)系Fig.3 relationship between number of feature variables and classification accuracy

利用上述Relief-F算法計算52個特征變量的權(quán)重,得出權(quán)重系數(shù)排在前 30的特征變量見圖4.根據(jù)Relief-F算法計算得到的最優(yōu)特征數(shù)量,選取前20個特征變量構(gòu)成最優(yōu)特征集.最優(yōu)特征集中,光譜特征有8個,纓帽變換有4個,水體指數(shù)有3個,幾何特征和植被指數(shù)均有2個,紋理特征有1個,形狀特征則最不明顯,權(quán)重最高的形狀特征排在所有特征的第21個.結(jié)果表明光譜特征在本研究區(qū)的分類中作用最為顯著,其次是纓帽變換求得的濕地、亮度和綠度.圖4中,Std Red/Blue/SWIR1/PC1/PC2/PC3/ PC4/ PC5為紅波段、藍波段、紅外波段1、第一、第二、第三、第四、第五主成分標準差,MeanWetness/ Brightness/Greenness為濕度、亮度、綠度均值,MeanRed/Blue/Coastal/Green/SWIR1/SWIR2為紅波段、藍波段、海岸波段、綠波段、紅外波段1、紅外波段2均值,Std Wetness/Brightness為濕度、亮度標準差,其他變量參照表2.下文中圖6變量符號與圖4相同.

圖4 特征權(quán)重分布和前30個特征變量的占比Fig.4 distribution of feature weight and proportion of the first 30 feature variables

2.3 決策樹的建立

基于9種地物類型578個訓練樣本和20個特征變量,應(yīng)用 C5.0、CART、QUEST建立決策樹模型,與未進行特征優(yōu)選的QUEST決策樹模型進行比較分析見圖5.用 4種方法構(gòu)建決策樹使用的特征變量明顯不同,見圖6.C5.0決策樹應(yīng)用到Boosting算法,所選的20個特征變量都參與到模型的構(gòu)建,且權(quán)重沒有較大差距,其余的三種方法使用了10個左右的特征變量.從出現(xiàn)次數(shù)上看,近紅外均值、地表水指數(shù)是最主要的變量,在C5.0、QUEST和未特征優(yōu)選的QUEST決策樹種均出現(xiàn)1次;從特征的權(quán)重系數(shù)上看,未特征優(yōu)選的QUEST決策樹的形狀指數(shù)的最大系數(shù)為0.54,而其他特征變量的權(quán)重系數(shù)較低,CART與QUEST決策樹的最優(yōu)特征變量系數(shù)均在 0.20左右,且各特征變量間的差距不大.

圖5 決策樹模型Fig.5 decision tree model

圖6 不同決策樹權(quán)重對比Fig.6 comparison of weights of different decision trees

2.4 分類精度評價

對比4種模型得到的結(jié)果見圖7.由圖7可見,經(jīng)過特征優(yōu)化的 3種決策樹方法與未特征優(yōu)化的QUEST決策樹在對濕地類型的判斷上存在較大差異.圖8(d)中,都出現(xiàn)了草本沼澤、建設(shè)用地、水田等濕地類型混淆嚴重,其中建設(shè)用地(道路)被錯分為細河流最為明顯,還有部分水庫坑塘被劃分為養(yǎng)殖池和鹽田.特征優(yōu)化下的 3種決策樹方法相比,QUEST決策樹的分類效果更優(yōu).在區(qū)域1中,C5.0和CART決策樹都將部分草本沼澤錯分為養(yǎng)殖池和建設(shè)用地;在區(qū)域2中,都存在建設(shè)用地與河流混淆的情況,但QUEST決策樹相較下錯分的較少,部分水庫坑塘被分為河流和養(yǎng)殖池;在區(qū)域 3中,C5.0和CART決策樹都將建設(shè)用地錯分為河流,水田、旱地與草本沼澤相互錯分.

圖8 不同方法分類結(jié)果對比Fig.8 comparison of different classification result

4種決策樹分類結(jié)果出現(xiàn)不同的錯分情況,原因可能為:Landsat8影像為中等分辨率的影像,導(dǎo)致細小的河流、道路容易和周圍的植被形成混合像元,光譜特征與草本沼澤相似;在設(shè)置分割尺度時,只查看了主要的濕地類型是否分割,而造成了過多的小斑塊出現(xiàn),導(dǎo)致部分分類結(jié)果稀碎化.因此針對差異較大的地物類型,應(yīng)利用多尺度、多數(shù)據(jù)源相結(jié)合的方法來優(yōu)化分類結(jié)果.

為更直觀地比較不同決策樹方法對濕地分類的效果,參照實地考查數(shù)據(jù)和Google Earth高分辨率影像,均勻的在研究區(qū)內(nèi)選取水田、養(yǎng)殖池、水庫坑塘等9類地物類型共291個驗證點.將驗證點與分類結(jié)果進行疊加分析,利用統(tǒng)計結(jié)果構(gòu)建混淆矩陣,計算得到總體精度(Overall Accuracy,OA)、Kappa系數(shù)、生產(chǎn)者精度(Producer’s Accuracy,PA)和使用者精度(User’s Accuracy,UA),對分類結(jié)果的好壞進行評價.

4種分類方法的精度評價見表3,QUEST決策樹的總體精度86.9%,Kappa系數(shù)為0.85;未特征優(yōu)選的QUEST決策樹的分類精度最低,總體進度為75.6%,Kappa系數(shù)為0.71,其他兩種決策樹的分類結(jié)果均能滿足精度需求.從使用者精度來看,旱地和河流的分類效果在4種方法上都達到了最優(yōu),而對草本沼澤的分類效果較差,這是由于在多尺度分割時,建設(shè)用地、植被這種相鄰地物間的混合像元易造成錯分現(xiàn)象,從而與草本沼澤的光譜特征相似.從生產(chǎn)者精度來看,C5.0和QUEST決策樹在水田和鹽田的分類精度達到最大值,但是在河流的精度較低,為57.7%,存在較為明顯的錯分現(xiàn)象.因此總體來看,利用特征優(yōu)選下的QUEST決策樹對研 究區(qū)濕地信息提取得到的效果最佳.

表3 4種分類方法的精度評價Tab.3 accuracy evaluation of four classification methods

3 結(jié)論

(1)基于Relief-F算法,從光譜特征、紋理特征、水體指數(shù)等共52個特征中選取出20個最優(yōu)特征集,解決特征變量過多引起的“維度災(zāi)害”現(xiàn)象,從而提高濕地的分類精度.基于特征優(yōu)選的 3種決策樹模型的分類結(jié)果均能滿足分類精度的要求,但未特征優(yōu)選的QUEST決策樹,總體精度為75.6%,未能達到分類精度的要求.其中,針對草本沼澤、旱地這種光譜特征相似的地物類型,分類精度有了明顯提高.

(2)將決策樹的數(shù)據(jù)自動挖掘的能力和面向?qū)ο蠓椒ǖ亩嗵卣飨嘟Y(jié)合,實現(xiàn)了更加精確的分類.從 3種決策樹模型的分類精度中可以看出,應(yīng)用Relief-F算法的QUEST決策樹模型的分類精度最高為86.9%,Kappa系數(shù)為0.85,C5.0決策樹的分類精度最低為83.8%,Kappa系數(shù)為0.81.基于特征優(yōu)化下的決策樹算法在提高濕地的遙感分類精度方面具有很好的作用,為濕地信息提取在特征變量和決策樹的選擇上提供了新思路.

猜你喜歡
決策樹尺度精度
財產(chǎn)的五大尺度和五重應(yīng)對
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
基于DSPIC33F微處理器的采集精度的提高
宇宙的尺度
基于決策樹的出租車乘客出行目的識別
GPS/GLONASS/BDS組合PPP精度分析
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
改進的Goldschmidt雙精度浮點除法器
9