黃奇瑞
(南陽理工學(xué)院 電子與電氣工程學(xué)院,河南 南陽 473004)
衛(wèi)星遙感技術(shù)是20 世紀(jì)70 年代發(fā)展起來的新興綜合技術(shù),是研究地球資源環(huán)境的最有力的技術(shù)手段之一[1].遙感影像的分類解譯是遙感地理信息系統(tǒng)中的核心技術(shù)之一,快速、精準(zhǔn)的自動分類算法是實現(xiàn)從遙感影像中提取有用信息的關(guān)鍵[2]. 由于遙感影像數(shù)據(jù)的信息量大、維數(shù)高,對于遙感影像的應(yīng)用,傳統(tǒng)的分類方法有較大的限制.因此探尋適合遙感影像的分類方法是關(guān)于遙感技術(shù)研究的首要課題.國內(nèi)外很多學(xué)者都在研究和分析探索新的分類方法,以便提高遙感影像自動分類的精度和效率[3].
支持向量機(Support Vector Machine,SVM)是由Vapnik 提出的一種基于統(tǒng)計學(xué)習(xí)理論的新的通用機器的學(xué)習(xí)方法[4].統(tǒng)計學(xué)習(xí)理論是研究在有限樣本情況下機器的學(xué)習(xí)規(guī)律的一門學(xué)科.SVM 是在統(tǒng)計學(xué)習(xí)理論的VC 維理論以及結(jié)構(gòu)風(fēng)險最小化原則基礎(chǔ)上建立的一種機器學(xué)習(xí)方法[5-6]. SVM 分類方法在解決有限樣本、非線性及高維模式識別問題中具有很多獨特的優(yōu)勢,相關(guān)研究成果也表明,其能夠達到比傳統(tǒng)分類器更高的分類精度[7].
傳統(tǒng)的基于SVM 的遙感影像分類法,大部分是通過對待分類的影像進行人工解譯形成訓(xùn)練樣本集,送入支持向量機訓(xùn)練后進行分類.這種方法雖然也取得了很好的分類精度,但是由于這種監(jiān)督分類方法需要有豐富經(jīng)驗的專家對影像進行目視解譯來選取訓(xùn)練樣本,使得分類的精度和分類效率對人的依賴性比較大.
SVM 處理分類問題的基本思想是構(gòu)造一個最優(yōu)分類超平面作為決策曲面[8],使得兩類之間的分類間隔最大,然后將尋找最優(yōu)分類超平面轉(zhuǎn)化為求解二次規(guī)劃尋優(yōu)的對偶問題,從而使計算的復(fù)雜度取決于樣本數(shù)目而非樣本空間的維數(shù). 更準(zhǔn)確地來說,是取決于樣本中支持向量的數(shù)目. 因此,支持向量機能夠有效地解決樣本數(shù)據(jù)的高維問題.
設(shè)有2 類樣本集合:(xi,yi;i=1,2,…,n),xi∈Rd.相應(yīng)的分類標(biāo)簽記為:yi∈{+1,-1},SVM 在高維特征空間中求最優(yōu)超平面的問題:
式中:C 為一個正常數(shù),稱為懲罰因子,起到控制對錯分樣本懲罰程度的作用,實現(xiàn)在錯分樣本的比例和算法復(fù)雜程度之間的“折衷”;ξ 為在訓(xùn)練樣本線性不可分時引入的非負(fù)松弛變量.
通過引入Lagerange 函數(shù),構(gòu)造并轉(zhuǎn)化求解上述最優(yōu)問題為如下凸二次規(guī)劃(Quadratic Programming,QP)尋優(yōu)的對偶問題:
解上述問題后得到的最優(yōu)分類面函數(shù)為:
式中b*為分類閾值,可由約束條件
求解.
對于非線性分類問題,根據(jù)泛函的相關(guān)理論,只要有一種內(nèi)積函數(shù)(核函數(shù))K(xi,xj)滿足Mercer條件[9],就能夠通過非線性映射把樣本空間映射到高維特征空間,從而在高維特征空間中構(gòu)造最優(yōu)分類超平面實現(xiàn)線性的分類,同時也解決了算法中維數(shù)災(zāi)難的問題,計算復(fù)雜度卻沒有增加,此時目標(biāo)函數(shù)式(2)變?yōu)?
對應(yīng)的分類判別函數(shù)也變?yōu)?
常用的滿足Mercer 條件的核函數(shù)有以下4 種:線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)(高斯核函數(shù)、Sigmoid 核函數(shù). 選用不同的核函數(shù)可構(gòu)造不同的支持向量機.
模糊C 均值聚類算法是1973 年由Bezdek 提出的一種基于目標(biāo)函數(shù)的動態(tài)優(yōu)化算法. 其用隸屬度來確定每個樣本點屬于某個類別的程度,可以實現(xiàn)對數(shù)據(jù)的自動聚類[10]. FCM 作為早期硬C 均值聚類(HCM)算法的一種改進算法,其不同于HCM 分類時非此即彼的劃分方法.FCM 是一種柔性的模糊劃分,其聚類原則是使得被劃分到同一類別的樣本之間具有最大的相似度,而不同類別之間的相似度則最?。虼薋CM 是用隸屬度來確定每個樣本屬于某個類別的程度[11].
對于由n 個樣本組成的數(shù)據(jù)集Xi(i =1,2,…,n),用隸屬度函數(shù)進行定義的聚類損失函數(shù)可寫為
式中:c 為設(shè)定的聚類數(shù)目;Mj(j=1,2,…,c)為各個類別的聚類中心;μj(xi)為第i 個樣本數(shù)據(jù)對于第j個類別的隸屬函數(shù);b >1,為一個常數(shù),其能夠控制聚類結(jié)果的模糊程度. 由不同的隸屬度定義下最小化聚類損失函數(shù)Jf,可得到不同的模糊聚類算法.其中的典型代表就是FCM 聚類算法,其基本要求是每個對象對各類別的隸屬度之和為1,即
在條件式(8)下求式(7)的極小值,令Jf對Mi和μj(Xi)的偏導(dǎo)數(shù)為0,得到必要條件:
用迭代的方法求解式(9)和式(10),就是模糊C 均值算法.當(dāng)算法收斂時,就得到了各個類別的聚類中心以及每個對象對于各個類別的隸屬度函數(shù),也即實現(xiàn)了對所有對象的模糊分類.
由上文所述SVM 的基本原理可知,支撐SVM最優(yōu)分類超平面的支持向量即為距離這個超平面最近的樣本,然而這些樣本在整個訓(xùn)練數(shù)據(jù)中通常只占很小的比例,即最優(yōu)分類超平面僅取決于少數(shù)的支持向量,而占絕大多數(shù)的非支持向量對SVM 分類器的構(gòu)建是不起作用的[11]. 在用SVM 分類器進行分類的時候,這些大量的非支持向量的訓(xùn)練樣本在訓(xùn)練過程中會耗費大量的時間和內(nèi)存,從而降低SVM 分類器的分類效率,甚至?xí)蛴嬎銠C內(nèi)存不足而使訓(xùn)練無法完成.
FOODY 等[12]指出,在求解SVM 分類器的最優(yōu)分類超平面時,使用混合像元比使用純凈像元更有效.即在SVM 分類器的構(gòu)建時,采用少量的混合像元作為訓(xùn)練樣本集和采用大量的純凈像元作為訓(xùn)練集,其訓(xùn)練效果是一樣的.因此,筆者結(jié)合FCM 聚類算法提出了一種基于模糊C 均值聚類和支持向量機的且能夠自動挑選混合像元的算法.FCM 作為非監(jiān)督聚類算法,可以根據(jù)預(yù)先設(shè)定的類別數(shù)自動聚類,并得到每個樣本隸屬于各個類別的隸屬度矩陣.因此所謂的混合像元,可以認(rèn)為是那些同時對某兩個類別具有較高隸屬度的像元. 同時根據(jù)遙感影像的特點,為了避免影像中孤立點(噪聲)對訓(xùn)練分類器產(chǎn)生的影響,在聚類后每個類別中最大的連通區(qū)域內(nèi)挑選符合上述條件的像元作為訓(xùn)練樣本集. 由此提出自動選取混合像元D(i,j)的算法,即對于影像中每個像元D(i,j)需要滿足如下的約束條件:
式中:U 為利用FCM 算法對遙感影像聚類后得到的隸屬度矩陣;U(i,j)1st,U(i,j)2nd分別為像元D(i,j)的隸屬度矩陣中的最大值和次大值;T 為設(shè)置的用于挑選純凈像元的閾值;Ck為聚類后第k 類地物的所有連通區(qū)域.
為了驗證筆者所提出的算法的有效性,選取大理洱海西南區(qū)域(如圖1 所示)的一塊TM 影像作為對象進行驗證.?dāng)?shù)據(jù)來源于中國科學(xué)院計算機網(wǎng)絡(luò)信息中心的地理空間數(shù)據(jù)云平臺(http://www.gscloud.cn).該試驗區(qū)域的假彩色合成圖(4、5、3 波段)如圖2 所示.TM 遙感影像是由美國Lansat 7 衛(wèi)星獲取的,共7 個波段,其空間分辨率為30 m×30 m.試驗選用的是第1—5 和第7 波段,共6 個波段.TM 遙感影像的分類方法基本上都是基于像元分類的,因此每個像元是一個6 維的特征向量. 試驗的測試環(huán)境為P4 2. 80 GHz CPU,1G 內(nèi)存,操作系統(tǒng)為Windows XP,在MATLAB 7.1 的平臺上編程實現(xiàn).
圖1 陰影區(qū)域為試驗所選的研究區(qū)域
圖2 研究區(qū)域的假彩色合成圖(TM 4,5,3)
通過參照對應(yīng)的1∶50 000 的土地利用圖,將試驗區(qū)地物類別分為5 類:水體、林地、耕地、建筑(包括道路)和草地.首先通過FCM 算法對試驗區(qū)影像進行聚類,結(jié)果如圖3 所示,同時得到聚類后所有像元的隸屬度矩陣.
圖3 FCM 非監(jiān)督分類的結(jié)果
結(jié)合上述聚類結(jié)果,根據(jù)筆者提出的訓(xùn)練樣本自動選擇算法,從影像中自動挑選出混合像元作為訓(xùn)練樣本集,并將其歸一化處理后送入SVM 分類器進行訓(xùn)練.用徑向基核函數(shù)作為SVM 分類器的核函數(shù),通過網(wǎng)格搜索和交叉驗證的尋優(yōu)方法確定最佳參數(shù)(C,g),其中C 為懲罰系數(shù),g 為核函數(shù)寬度.利用上述方法訓(xùn)練完成后,就可以得到最終用來分類的SVM 分類器,并對遙感數(shù)據(jù)進行分類,分類結(jié)果如圖4 所示.
圖4 筆者提出方法的分類結(jié)果
為了對比SVM 監(jiān)督分類方法和筆者所提出方法的分類效果,利用人工選取的訓(xùn)練樣本(如圖5所示),用同樣的方法訓(xùn)練SVM 分類器,并對遙感數(shù)據(jù)進行分類,最終得到的分類結(jié)果如圖6 所示.
圖5 SVM 分類器人工標(biāo)注的訓(xùn)練樣本
圖6 SVM 監(jiān)督分類的結(jié)果
以上3 種分類方法的分類結(jié)果的混淆矩陣見表1. 通過對比圖4、圖5 和圖6 以及對表1 中數(shù)據(jù)的分析可知,傳統(tǒng)的FCM 非監(jiān)督分類和SVM監(jiān)督分類方法對陰影區(qū)域都出現(xiàn)了大面積的錯分,同時對較小的河流由于處于陰影中,也會出現(xiàn)一定的錯分,致使分類后的河流出現(xiàn)斷裂.利用筆者所提出的方法分類能避免上述問題. 從圖6可以看出,只有極少量的陰影被錯分,能較完整地分出影像中的河流. 從表1 中也可看出,筆者提出的方法總體分類精度和Kappa 系數(shù)分別達到了0. 952 和0. 940,明顯高于其他兩種分類方法.
表1 3 種分類方法分類結(jié)果的混淆矩陣
利用筆者提出的方法,將FCM 非監(jiān)督分類和SVM 監(jiān)督分類結(jié)合,實現(xiàn)了對遙感影像的自動分類.該方法不需要對待分類的影像有太多先驗知識,只需通過簡單的目視解譯,確定出原始影像所具有的類別數(shù),將其和其他參數(shù)輸入編好的程序即可完成整個分類流程.該方法比傳統(tǒng)的非監(jiān)督分類具有更高的分類精度,同時解決了監(jiān)督分類時需要人工選擇訓(xùn)練樣本且樣本難以選定的問題,分類精度也有所提高,對于利用TM 影像進行大尺度的地物類別判定具有實用價值.
[1]丁志雄,顏廷松,屈吉鴻. 多源遙感影像在水庫水位-庫容曲線復(fù)核中的應(yīng)用[J]. 華北水利水電學(xué)院學(xué)報,2012,33(4):32 -35.
[2]朱建華,劉政凱,俞能海. 一種多光譜遙感圖像的自適應(yīng)最小距離分類方法[J]. 中國圖象圖形學(xué)報,2000,5(1):21 -24.
[3]張立民,劉峰,張瑞峰. 一種構(gòu)造系數(shù)的自相關(guān)函數(shù)特征提取算法[J]. 無線電通信技術(shù),2012,38(5):56-59.
[4]VAPNIK V N. Estimation of Dependencies Based on Empirical Data[M].Berlin:Springer-Verlag,1982.
[5]邊肇祺,張學(xué)工. 模式識別[M]. 北京:清華大學(xué)出版社,2000.
[6]VAPNIK V N. The Nature of Statistical Learning Theory[M].Berlin:Spring-Verlag,1995.
[7]杜培軍.基于支持向量機的高光譜遙感分類進展[J].測繪通報,2006(12):37 -40.
[8]張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J].自動化學(xué)報,2000,26(1):32 -41.
[9]CRISTIANINI N,SHAWE-YAYLOR J. An Introduction to Support Vector Machines and Other Kemel-based Learning Methods[M].Cambridge:Cambridge University Press,2000.
[10]BEZDEK J C,EHRLICH R.FCM:The fuzzy c-means clustering algorithm[J].Computers & Geosciences,1984,84(10):191 -203.
[11]劉志勇,耿新青. 基于模糊聚類的文本挖掘算法[J].計算機工程,2009,35(5):44 -49.
[12]FOODY G M,MATHUR A,F(xiàn)ULL W. Toward intelligent training of supervised image classifications:Directing training data acquisition for SVM classification[J]. Remote Sensing of Environment,2004,93(1):107 -117.