張潤(rùn)雷
(嘉興市第一中學(xué),浙江嘉興,314000)
遙感是一項(xiàng)在20世紀(jì)60年代逐步發(fā)展起來的新興技術(shù),經(jīng)過一系列的技術(shù)革新,如今已經(jīng)成為人們獲取地球表面信息的主要方法之一。遙感指的是“遙遠(yuǎn)的感知”,陳述彭院士[1]認(rèn)為其狹義含義為“從遠(yuǎn)距離、高空以至外層空間的各種平臺(tái)上,利用可見光、紅外、微波等探 測(cè)儀器,通過攝影或掃描,信息感應(yīng)、傳輸和處理,從而識(shí)別地面物質(zhì)的性質(zhì)和運(yùn)動(dòng)狀態(tài)的一門現(xiàn)代化技術(shù)科學(xué)”。目前遙感主要通過搭載一系列光學(xué)、電子儀器的航天器,從遙遠(yuǎn)的宇宙采集地球表面物體輻射和反射的電磁波信息,并且傳回地球,提供給人們進(jìn)行一系列分析,以獲得地球的地質(zhì)地貌、資源分布、土壤類型、植被覆蓋等種種信息,這些信息具有極大的參考意義和研究?jī)r(jià)值。隨著“數(shù)字地球”概念的提出,并基于遙感技術(shù)觀測(cè)范圍廣、獲取信息速度快、觀測(cè)具有周期性等其他技術(shù)無可比擬的優(yōu)點(diǎn),以及觀測(cè)數(shù)據(jù)多波段、多時(shí)相、全天候的特點(diǎn),這項(xiàng)技術(shù)被廣泛應(yīng)用在生產(chǎn)生活的方方面面。從環(huán)境監(jiān)測(cè)、大氣探測(cè)、海洋觀測(cè),到對(duì)資源、地質(zhì)、森林、農(nóng)田的信息提取和分析,再到日常生活常見的衛(wèi)星地圖、衛(wèi)星云圖,都離不開遙感技術(shù)。
然而,獲取了遙感器傳回的遙感圖像和數(shù)據(jù)后,如何讓對(duì)其進(jìn)行數(shù)據(jù)處理和分類,一直是這門學(xué)科上的一個(gè)難題。現(xiàn)有的遙感圖像的分類方法可分為人工分類和計(jì)算機(jī)自動(dòng)分類兩種,由于人工分類消耗的人力多,時(shí)間長(zhǎng),效率低,且對(duì)專業(yè)知識(shí)需求高,目前的研究中大多采用計(jì)算機(jī)進(jìn)行數(shù)據(jù)分類處理。
遙感圖像上的數(shù)據(jù)十分龐大,利用計(jì)算機(jī)進(jìn)行遙感圖像分類的重點(diǎn)之一便是從眾多的數(shù)據(jù)中提取有用的信息,并通過分類技術(shù)實(shí)現(xiàn)遙感圖像的分類。遙感圖像上的光譜特征是最重要的一項(xiàng)分類依據(jù),但是,僅僅依靠不同波段的光譜特征分類已無法滿足現(xiàn)今高精確度的遙感圖像的分析處理。因此,現(xiàn)在更多地要求從像元的光譜特征及其與周圍像元之間的空間聯(lián)系著手,將圖像紋理(例如形狀、大小、圖案、色調(diào)等)納入遙感圖像分類的依據(jù)。另外,另一維度時(shí)間的引入,增加了對(duì)其隨時(shí)間變化的分析。所以遙感圖像分類所需的計(jì)算量越來越大,變得更加復(fù)雜,愈發(fā)迫切地要求更加迅速便捷的分類算法的創(chuàng)新與改進(jìn)。
目前已有的分類方法有最大似然法、神經(jīng)網(wǎng)絡(luò)分類法、支持向量機(jī)分類法、模糊分類法等等,但這些方法都在分類精度或是應(yīng)用難度上存在不足,實(shí)際應(yīng)用中存在一定困難。在眾多遙感圖像分類方法中,決策樹憑借它簡(jiǎn)單高效、邏輯性強(qiáng)的模型,且可以廣泛用于無規(guī)則、無次序的樣本數(shù)據(jù)集等優(yōu)點(diǎn)成為是一種較為常用的監(jiān)督分類方法。
決策樹是樹形結(jié)構(gòu)的分類預(yù)測(cè)模型,其由代表屬性或特征的根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)以及代表類別屬性的葉子節(jié)點(diǎn)等組成。除此之外決策樹還可以表示成為一組IF-THEN形式的產(chǎn)生式規(guī)則,每條規(guī)則即為由根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的每條路徑。
決策樹方法可以分為決策樹生成和決策樹分類兩大部分。
決策樹生成過程,實(shí)際上是一個(gè)分類的規(guī)則集的生成過程。主要流程是用留出法、k-折交叉驗(yàn)證法或自助法等,從已分類的數(shù)據(jù)集中獲取幾組互斥的測(cè)試集和訓(xùn)練集,之后對(duì)選出的訓(xùn)練集進(jìn)行學(xué)習(xí),通過遞歸算法選取節(jié)點(diǎn)的最優(yōu)屬性分類標(biāo)準(zhǔn),形成一個(gè)個(gè)節(jié)點(diǎn),最終形成決策樹。在構(gòu)造決策樹的過程中還需要進(jìn)行剪枝等處理,之后將測(cè)試集放到?jīng)Q策樹中進(jìn)行性能測(cè)試,最終得到一棵最適合這個(gè)數(shù)據(jù)集分類、擁有較好的泛化能力的決策樹,也就是得到了一套分類的規(guī)則。
決策樹生成的關(guān)鍵在用于生成節(jié)點(diǎn)的遞歸算法。算法的輸入為上一節(jié)點(diǎn)分類后的數(shù)據(jù)子集。遞歸算法的遞歸出口有三個(gè):
(1)該節(jié)點(diǎn)上的樣本類別已經(jīng)完全相同,無需繼續(xù)分類;
(2)該節(jié)點(diǎn)的屬性集為空,或是所有樣本在所有屬性上取值相同,無法繼續(xù)分類;
(3)節(jié)點(diǎn)上樣本集合為空,不能繼續(xù)分類。
遞歸算法首先判斷輸入的數(shù)據(jù)子集是否滿足遞歸出口(1)(2),若滿足則結(jié)束遞歸形成葉子節(jié)點(diǎn),若不滿足則通過一定指標(biāo)選取最優(yōu)劃分屬性進(jìn)行劃分,對(duì)于劃分后的數(shù)據(jù)子集,判斷是否滿足遞歸出口(3),若滿足則形成葉子節(jié)點(diǎn),若不滿足則遞歸調(diào)用算法。
決策樹生成遞歸算法的核心是最優(yōu)屬性的選取。采用不同指標(biāo)進(jìn)行最優(yōu)屬性選取就衍生出了不同的決策樹算法,目前常用的決策樹算法有ID3、 CART、C4.5、隨機(jī)森林等。
決策樹的分類則對(duì)于輸入的單個(gè)對(duì)象,按照每個(gè)節(jié)點(diǎn)上的分類規(guī)則,進(jìn)行判斷,層層向下找到對(duì)應(yīng)的子節(jié)點(diǎn),最終就可以找到葉子節(jié)點(diǎn),即為分類結(jié)果。
決策樹算法能夠被人們廣泛接受和使用,是因?yàn)樗兄渌惴o可比擬的優(yōu)點(diǎn):
(1)決策樹的樹狀分類結(jié)構(gòu)是通過決策樹自我學(xué)習(xí)得到的一套分類規(guī)則,對(duì)專業(yè)知識(shí)水平要求低;
(2)決策樹學(xué)習(xí)訓(xùn)練樣本數(shù)據(jù)速度快、效率高,且結(jié)果準(zhǔn)確性相比于傳統(tǒng)算法也令人滿意;
(3)決策樹的獨(dú)特算法結(jié)構(gòu)不需要假設(shè)先驗(yàn)概率分布,因此具有較好的靈活性和魯棒性;
(4)決策樹對(duì)連續(xù)或離散的數(shù)據(jù)都可以進(jìn)行分類,應(yīng)用范圍廣;
(5)決策樹的結(jié)構(gòu)直觀簡(jiǎn)潔,方便理解,容易進(jìn)行分析和修正。
圖1 決策樹算法應(yīng)用于遙感圖像分類的基本流程
整體流程如圖 1所示。首先是決策樹的生成過程,為方便分類,先將遙感圖像數(shù)據(jù)進(jìn)行預(yù)處理,并進(jìn)行分割和特征提??;之后進(jìn)行隨機(jī)采樣,用自助法或留出法等方法獲得幾組訓(xùn)練集和測(cè)試集;再利用上文提到的ID3或C4.5等方法對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),構(gòu)造成決策樹;由于可能有“過擬合”情況的存在,因此要通過剪枝,主動(dòng)去掉一些分支來降低過擬合的風(fēng)險(xiǎn),提高決策樹精度和效率。完成這些步驟后,用測(cè)試集對(duì)已構(gòu)造的決策樹進(jìn)行評(píng)價(jià),達(dá)到預(yù)期精度要求后才能形成一套規(guī)則集,用于之后的圖像分類中。
在決策樹分類時(shí),輸入待分類的遙感圖像到已生成的決策樹規(guī)則集中,按照其分類規(guī)則進(jìn)行分類,得到最終的分類結(jié)果。
在國(guó)內(nèi),應(yīng)用決策樹進(jìn)行遙感圖像分類的研究主要包括:
2006年,南京林業(yè)大學(xué)的陳鑫[2]針對(duì)目前遙感圖像分類技術(shù)中傳統(tǒng)方法數(shù)據(jù)利用不充分、計(jì)算速度慢、無法處理復(fù)雜的高光譜遙感圖像、實(shí)用性差等問題展開研究,發(fā)現(xiàn)決策樹算法在遙感圖像分類方面具有直觀、靈活、效率高等特點(diǎn)。隨后通過應(yīng)用到實(shí)際遙感圖像分類中的實(shí)驗(yàn),分析比較了6種決策樹算法,包括CART、卡方自動(dòng)交互檢驗(yàn)決策樹(CHAID)、徹底的卡方自動(dòng)交互檢驗(yàn)決策樹(Exhaustive CHAID)、快速無偏高效的決策樹(QUEST)、提升樹、決策樹森林,發(fā)現(xiàn)決策樹相比于傳統(tǒng)算法有較大優(yōu)勢(shì),且得出了組合決策樹模型(提升樹和決策樹森林)精度比單一樹高的結(jié)論。
2007年申文明在《遙感技術(shù)與應(yīng)用》上發(fā)表的文章中[3],不僅描述了決策樹技術(shù)應(yīng)用于遙感圖像中土地覆蓋/土地利用分類過程中高靈活性、高魯棒性、簡(jiǎn)單易用、有效解決屬性缺失等優(yōu)點(diǎn)。同時(shí)以實(shí)驗(yàn)證明決策樹分類較最大似然法和ISODATA法相比,具有高分類精度和適應(yīng)能力,并且指出在分類過程中適當(dāng)加入GIS數(shù)據(jù)可以提高精度,但若輔助數(shù)據(jù)選取不當(dāng),則會(huì)帶來相反的效果。同年,羅來平等人利用改進(jìn)的CART算法解決傳統(tǒng)分類方法處理空間特征分布復(fù)雜圖像效果不佳的問題[4]。文章中主要通過引入用戶的先驗(yàn)知識(shí)過濾不必要的屬性,生成更加可信的決策樹,并提出“屬性重要性”作為決策樹中新的屬性選擇標(biāo)準(zhǔn)兩個(gè)方面對(duì)CART算法進(jìn)行改進(jìn)。雖然該方法可以提高分類精度,但在處理形狀相似且分布較為緊密的不同類別時(shí)錯(cuò)分現(xiàn)象較為嚴(yán)重。
在中國(guó)地質(zhì)大學(xué)李琳2009年的研究中[5],針對(duì)遙感圖像數(shù)據(jù)量大和迅速獲取信息的需求之間的矛盾,構(gòu)建了一種同時(shí)滿足遙感圖像分類中精度高、效率高、速度快的改進(jìn)算法。該算法將支持向量機(jī)(SVM)與決策樹算法相結(jié)合,綜合了SVM精度高誤差小和決策樹算法效率高耗時(shí)少的優(yōu)點(diǎn),達(dá)到了優(yōu)勢(shì)互補(bǔ)的目的。最終通過實(shí)驗(yàn)證明該算法在遙感圖像分類應(yīng)用中有計(jì)算速度快的優(yōu)點(diǎn)的同時(shí),有96.25%的分類精度和0.9531的Kappa系數(shù),較好地滿足了當(dāng)今研究中對(duì)速度和精度的需求。
2012年,福建師范大學(xué)的林志壘發(fā)表于《計(jì)算機(jī)應(yīng)用》上的論文提出了獨(dú)立分量分析(ICA)和決策樹算法(DTC)聯(lián)合工作的ICA-DTC模型[6]。該模型利用ICA在盡可能降低圖像信息損失的前提下對(duì)波段降維,從而解決了高光譜圖像分類過程中“維數(shù)災(zāi)難”的問題,并彌補(bǔ)了傳統(tǒng)特征提取方法存在的信息缺失的不足。隨后建立決策樹,并利用決策樹進(jìn)行分類,以達(dá)到提高高光譜圖像分類精度的目的。在文章中,作者通過實(shí)驗(yàn)將ICA-DTC模型與傳統(tǒng)最大似然法進(jìn)行對(duì)比,ICA-DTC模型在針對(duì)多地物遙感圖像分類時(shí),其精度提高了18.8%,能夠正確真實(shí)地反映各類地物以及其空間分布,具有較好的應(yīng)用價(jià)值。
在張曉賀2013年的文章中[7],針對(duì)目前決策樹在遙感圖像分類問題中存在的側(cè)重實(shí)際應(yīng)用而忽視算法改進(jìn)以及缺少完整的決策樹遙感影像分類軟件的問題,通過改進(jìn)現(xiàn)有的C4.5算法和AdaBoost算法與決策樹的結(jié)合方式,最終構(gòu)造了新的AdaTree.WL算法,并以該算法為基礎(chǔ)實(shí)現(xiàn)了GLC(Global Land Cover)決策樹分類器。除此之外,其實(shí)現(xiàn)了依托于GLC樹分類器的應(yīng)用于基于像元和面向?qū)ο髢煞N遙感影像分類方法的軟件系統(tǒng),最終通過實(shí)驗(yàn)表明其應(yīng)用于上述兩種分類方法中分類精度平均kappa系數(shù)達(dá)到0.9052和0.9398。
在陳麗萍的2013年研究中[8],針對(duì)基于像元的分類方法在處理高分辨率遙感圖像時(shí),無法利用遙感影像本身豐富的信息資源,造成的空間數(shù)據(jù)大量冗余、分類精度降低的問題,設(shè)計(jì)了基于決策樹的面向?qū)ο蠓诸惙椒?。該方法利用多尺度分割遙感圖像,隨后對(duì)每個(gè)分割對(duì)象進(jìn)行特征提取,利用決策樹C4.5算法對(duì)樣本的學(xué)習(xí)過程自動(dòng)挖掘分類規(guī)則,構(gòu)建決策樹。其不僅打破了傳統(tǒng)決策樹分類中只能依賴經(jīng)驗(yàn)總結(jié)獲得規(guī)則的現(xiàn)狀,同時(shí)具有高分類精度,以及較好的彈性和魯棒性。
2014年燕山大學(xué)的范成龍[9]在對(duì)高光譜遙感圖像分類算法的研究中,提出了結(jié)合二叉決策樹與多維尺度分析的高光譜圖像分類算法。這一算法解決了傳統(tǒng)算法分類精度和穩(wěn)定性不足以及現(xiàn)有改進(jìn)算法只能達(dá)到局部最優(yōu)效果的問題。在理論方面,其在提高了信息處理效率的同時(shí),提升了傳統(tǒng)二叉決策樹的整體分類效果;在實(shí)際應(yīng)用方面,整體分類效果的提升能使其應(yīng)用在不同領(lǐng)域時(shí)的工作性能得到提高。通過與支持向量機(jī)法和最大似然法的對(duì)比試驗(yàn),證明了基于二叉決策樹的多維尺度分析算法在高光譜圖像分類過程中具有明顯優(yōu)勢(shì)。
遙感技術(shù)在當(dāng)今社會(huì)越來越流行,在各種生產(chǎn)生活中人們?cè)絹碓揭蕾囉谶b感技術(shù)解決實(shí)際問題。而遙感圖像分類技術(shù)因?yàn)榭梢允挂粡堖b感圖像上海量的數(shù)據(jù)發(fā)揮其最大作用,在如今倍受青睞,越來越多的科學(xué)家和學(xué)者投入到研究遙感圖像分類算法的領(lǐng)域中。本文中主要研究的決策樹算法便是其中之一,它以計(jì)算速度快、效率高、精確度高、簡(jiǎn)潔直觀等特點(diǎn)在琳瑯滿目的分類算法中處于優(yōu)勢(shì)地位。目前已有的并且常用的決策樹算法包括ID3、C4.5、CART等等,并且都已經(jīng)通過前輩們的苦心研究成功應(yīng)用到遙感圖像分類中。
對(duì)于遙感圖像應(yīng)用中決策樹分類的改進(jìn)主要包括兩個(gè)方面。首先,對(duì)于分類算法本身,多種算法組合工作的決策樹模型成為了遙感圖像分類領(lǐng)域的新的熱潮,由于不同算法間的優(yōu)勢(shì)互補(bǔ)、取長(zhǎng)補(bǔ)短,這種組合工作的形式在遙感圖像分類工作中獲得了極大成功,分類精度和分類效率都大大提升。其次,遙感圖像的特征提取技術(shù)也在日益進(jìn)步,用以前的傳統(tǒng)方法進(jìn)行高光譜遙感圖像的特征提取往往很不充分,造成數(shù)據(jù)冗余和精確度下降,在各種降維算法的引入后,這一問題得以緩解,大大提升了決策樹工作時(shí)的效率以及分類結(jié)果的精度。
雖然,基于決策樹的遙感圖像分類技術(shù)的不斷進(jìn)步,使遙感圖像的廣泛高效應(yīng)用成為了現(xiàn)實(shí)。但是,在目前的遙感圖像分類研究工作中,仍有許許多多問題亟待解決,例如如何在特征提取時(shí)減少盲目性、如何尋找更優(yōu)化的遙感圖像分類算法、如何在分辨率更高的遙感圖像中尋找更多有價(jià)值的信息等等,都是需要更多的研究者去深入鉆研的難題。解決好這些問題,遙感圖像分類技術(shù)的前景將會(huì)更加光明。