任智偉,吳玲達(dá)
(航天工程大學(xué) 復(fù)雜電子系統(tǒng)仿真實(shí)驗(yàn)室, 北京 101416)
與其他遙感圖像相比,高光譜圖像具有更高的光譜分辨率,能夠表達(dá)更豐富的地物信息。但高光譜圖像存在數(shù)據(jù)量大,各波段間相關(guān)性大,信息冗余現(xiàn)象嚴(yán)重等問(wèn)題。因此,在對(duì)高光譜圖像分析之前,往往對(duì)其進(jìn)行降維處理。高光譜圖像降維方法通常分為兩類:光譜特征選擇和特征提取。光譜特征選擇又稱波段選擇,常見的波段選擇方法包括:基于信息量的波段選擇以及基于類間可分性的波段選擇[1]。特征選擇不對(duì)原始數(shù)據(jù)進(jìn)行數(shù)學(xué)變換,而特征提取則是在N維原始數(shù)據(jù)變換后,選取其中M維數(shù)據(jù)(M 高光譜圖像特征提取方法分為線性提取和非線性提取兩類。目前應(yīng)用廣泛的線性提取方法有主成分分析法[3]、最大/最小自相關(guān)因子分析法[4]及最小噪聲分離法[5]等。常見的非線性提取有基于核函數(shù)的非線性特征方法比如Kernel LDA方法[6]和基于流型學(xué)習(xí)的特征提取方法[7]等。與非線性特征提取相比,線性提取計(jì)算代價(jià)低,在實(shí)際工程中應(yīng)用廣泛?,F(xiàn)有的特征提取方法大都以方差貢獻(xiàn)率作為評(píng)價(jià)標(biāo)準(zhǔn),沒有顧及到數(shù)據(jù)本身信息的度量問(wèn)題。本文提出利用香農(nóng)信息量對(duì)主成分分析過(guò)程中的變換矩陣進(jìn)行修正,使提取出的成分包含更多信息量,有效增加分類精度。 本文將分別用PCA法和信息量改進(jìn)PCA法對(duì)高光譜圖像數(shù)據(jù)降維。將降維結(jié)果輸入最小距離分類器[8-9]中進(jìn)行分類,比較兩種方法的分類精度。通過(guò)實(shí)驗(yàn)證明,與傳統(tǒng)PCA降維方法相比,信息量改進(jìn)PCA降維能夠有效提高高光譜圖像的地物分類精度。 主成分分析法(principal component analysis,PCA)在目前高光譜圖像數(shù)據(jù)特征提取中應(yīng)用廣泛。主成分分析法的核心是計(jì)算不同數(shù)據(jù)特征之間的相關(guān)性,根據(jù)相關(guān)性的強(qiáng)弱提取主要特征,完成信息融合。PCA能夠有效地摒除原始圖像數(shù)據(jù)中的冗余信息,提取出方差貢獻(xiàn)率大的主成分因子。對(duì)高光譜圖像數(shù)據(jù)進(jìn)行PCA降維的具體步驟如下: 1) 計(jì)算高光譜圖像數(shù)據(jù)矩陣的協(xié)方差矩陣。 輸入矩陣Pm×n,其中,m表示樣本個(gè)數(shù),在高光譜圖像中表示像素點(diǎn);n表示特征個(gè)數(shù),在高光譜圖像中表示波段個(gè)數(shù)。計(jì)算協(xié)方差矩陣C: (1) 2) 求解協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量。 求解出按照降序排列的特征值λi,并利用式(2)計(jì)算出與特征值λi一一對(duì)應(yīng)的單位化特征向量xi。 λixi=C*xi (2) 3) 計(jì)算各特征xi的累積方差貢獻(xiàn)率,選取貢獻(xiàn)率高的成分構(gòu)造線性變換矩陣。 根據(jù)式(3)計(jì)算累積方差貢獻(xiàn)率pi以及設(shè)定降維維數(shù)k,選取變換矩陣的前k列對(duì)高光譜原始數(shù)據(jù)矩陣進(jìn)行線性變化,得到所要提取的特征,如式(4)。 (3) Y=P*[x1,x2,…,xk] (4) 雖然PCA降維能夠較好地用少數(shù)特征代替原始高光譜圖像數(shù)據(jù)特征,但該方法并沒有顧及到原始圖像數(shù)據(jù)的信息量問(wèn)題,無(wú)法完全利用原始數(shù)據(jù)中隱含的信息。在香農(nóng)信息論中,信息量I表示數(shù)據(jù)包含信息量的大小。信息量越大,說(shuō)明數(shù)據(jù)包含的信息越多,反之?dāng)?shù)據(jù)包含的信息越少。因此,將信息量的理論引入高光譜圖像特征提取中,是對(duì)現(xiàn)有提取方法十分有效的補(bǔ)充和完善。 以ai(i=1,2,…,n)表示高光譜圖像的每一個(gè)特征,即每一個(gè)波段。hi(i=1,2,…,n)表示每個(gè)特征提供信息的概率。用一個(gè)樣本空間及其概率空間來(lái)描述原始的高光譜圖像: (5) 針對(duì)高光譜圖像矩陣的協(xié)方差矩陣的特征值,對(duì)概率hi進(jìn)行定義: (6) 因此,各特征包含信息量可計(jì)算得到: Ii=-log2hi(i=1,2,…,n) (7) 根據(jù)各特征的信息量,可以計(jì)算信息量貢獻(xiàn)率w: (8) 根據(jù)信息量貢獻(xiàn)率wi,構(gòu)造信息量加權(quán)矩陣W: W=diag[w1,w2,…,wn] (9) 利用信息量加權(quán)矩陣對(duì)PCA變換后的矩陣進(jìn)行信息融合,得到信息融合后的變換矩陣Y*: Y*=YW (10) 利用香農(nóng)信息量理論對(duì)主成分分析降維方法提取成分進(jìn)行信息量加權(quán)計(jì)算,充分利用了原始高光譜圖像的信息,特征提取的結(jié)果也能夠更有效地表示原始數(shù)據(jù)特征。 實(shí)驗(yàn)所用的兩組高光譜圖像數(shù)據(jù)是分別由成像光譜儀AVIRIS獲取的美國(guó)Indiana某農(nóng)林混合實(shí)驗(yàn)場(chǎng)和加利佛尼亞州薩利納斯山谷的高光譜圖像數(shù)據(jù)[10]。圖1是Indiana Pines數(shù)據(jù)集地物理想分類和各種類地物分布和名稱。該高光譜圖像數(shù)據(jù)分為兩部分,其一是地物空間信息,其二是地物真實(shí)分類類別。此圖像數(shù)據(jù)的波長(zhǎng)為0.4~2.5 μm ,空間分辨率為25 m ,空間大小為145×145個(gè)像素點(diǎn)。本文實(shí)驗(yàn)在原始的220個(gè)波段中,去除水汽吸收波段和低信噪比波段([104-108],[150-163],220),保留了其他200個(gè)波段進(jìn)行數(shù)據(jù)降維及分類處理。該數(shù)據(jù)中,地物真實(shí)分類類別為16類。圖2是Salinas數(shù)據(jù)集理想地物分類和各類地物名稱及分布。與Indiana Pines數(shù)據(jù)集相類似,去除水汽吸收波段和低信噪比波段([108-112],[154-167],224),保留其他204個(gè)波段進(jìn)行數(shù)據(jù)降維及分類處理。 圖1 Indiana Pines數(shù)據(jù)集地物理想分類及名稱 圖2 Salinas數(shù)據(jù)集地物理想分類及名稱 對(duì)Indiana Pines數(shù)據(jù)集的200個(gè)波段數(shù)據(jù)進(jìn)行直接分類處理,采用的分類方法為最小距離分類法,分類結(jié)果與地物真實(shí)分類類別進(jìn)行比對(duì),分類準(zhǔn)確率為81.38%。分別采用未改進(jìn)PCA方法和信息量改進(jìn)PCA方法對(duì)原始數(shù)據(jù)進(jìn)行降維,降維結(jié)果輸入最小距離分類器,將分類結(jié)果與地物真實(shí)分類比對(duì),統(tǒng)計(jì)分類精度。 表1為使用兩種特征提取方法的分類精度匯總。從表1可看出:PCA方法整體精度略低于直接使用200個(gè)波段進(jìn)行分類的精度,這說(shuō)明雖然PCA選取出有效信息多的成分,但對(duì)高光譜圖像進(jìn)行降維處理,仍丟失了部分有用信息。信息量改進(jìn)PCA方法整體分類精度明顯優(yōu)于傳統(tǒng)PCA方法以及使用200個(gè)波段進(jìn)行分類的結(jié)果。這說(shuō)明使用信息量對(duì)變換矩陣進(jìn)行加權(quán)運(yùn)算,能夠更好地提取出原始數(shù)據(jù)包含的有用信息量,能夠避免無(wú)用甚至錯(cuò)誤信息對(duì)分類精度的影響,更加有效地對(duì)高光譜圖像進(jìn)行分類。隨著降維維數(shù)的增加,兩種方法的分類精度略有增加;維數(shù)增加到一定程度,分類精度變化不大。這說(shuō)明維數(shù)進(jìn)一步增加所提供的額外有效信息量不大,無(wú)效信息量增加,因此可以少數(shù)波段的有用信息代替全部波段的信息,再一次證明了降維的合理和必要性。在計(jì)算代價(jià)方面,改進(jìn)PCA是在傳統(tǒng)PCA的基礎(chǔ)上進(jìn)行線性加權(quán)計(jì)算,計(jì)算代價(jià)的增加少,遠(yuǎn)遠(yuǎn)小于分類所用時(shí)間。因此,改進(jìn)PCA方法實(shí)踐性、有效性、合理性都很高。 表2為兩種方法降維的運(yùn)行時(shí)間。從表中可以看出,兩種方法運(yùn)行時(shí)間的差距不大。信息量改進(jìn)的PCA方法是在傳統(tǒng)PCA的基礎(chǔ)上,利用協(xié)方差矩陣特征值計(jì)算信息量貢獻(xiàn)率。因此,計(jì)算代價(jià)僅增加此步驟的運(yùn)行時(shí)間。不同維數(shù)的時(shí)間相近的原因是,兩種方法均是對(duì)全部數(shù)據(jù)進(jìn)行變換,根據(jù)維數(shù)要求選擇結(jié)果的維數(shù),因此時(shí)間相近。 表1 (Indiana Pines數(shù)據(jù)集)不同維數(shù)下不同方法的分類精度匯總 % 表2 不同維數(shù)下不同方法的運(yùn)行時(shí)間 s 圖3是使用數(shù)據(jù)集Indiana Pines進(jìn)行實(shí)驗(yàn)的結(jié)果。圖3(a)是未降維處理的地物分類圖像。圖3(b)是使用傳統(tǒng)PCA方法將維數(shù)降至30維時(shí)的地物分類圖像,此時(shí)最小距離分類器的分類精度為81.01%。圖3(c)是使用信息量改進(jìn)PCA方法將維數(shù)降至30維時(shí)的地物分類圖像,此時(shí)最小距離分類器的分類精度為86.06%。從圖中可以看出,使用改進(jìn)PCA方法降維的分類效果優(yōu)于傳統(tǒng)PCA降維方法以及未降維方法。在面積大、周圍環(huán)境簡(jiǎn)單的區(qū)域劃分精度高,如圖中“小麥”、“非耕犁玉米”和“牧草(左下部分)”等部分;在面積小、周圍環(huán)境復(fù)雜的區(qū)域,改進(jìn)PCA方法仍明顯優(yōu)于PCA降維方法,如圖中“非耕犁大豆(左上部分)”、“燕麥”和“牧草(左上部分)”等部分。因此,信息量改進(jìn)PCA降維方法能夠適用于簡(jiǎn)單環(huán)境和復(fù)雜環(huán)境,使用此方法可以明顯提高地物分類精度。此外,從分類結(jié)果圖中可以看出,三種方法均將“石鐵堡”部分誤判,說(shuō)明存在不足,需要改進(jìn)。 對(duì)Salinas數(shù)據(jù)集的204個(gè)波段數(shù)據(jù)分別使用PCA和信息量改進(jìn)PCA降維方法進(jìn)行降維處理。表3列出使用兩種降維方法及未降維處理的分類準(zhǔn)確率匯總。圖4(a)、(b)、(c)分別是未降維處理的分類圖像、使用PCA方法降至20維的地物分類圖像及使用信息量改進(jìn)PCA方法降至20維的地物分類圖像。從表中可以看出,實(shí)驗(yàn)2的結(jié)果與實(shí)驗(yàn)1類似,信息量改進(jìn)PCA降維方法確實(shí)提高了分類精度。但與實(shí)驗(yàn)1相比,實(shí)驗(yàn)2改進(jìn)PCA降維方法對(duì)分類精度的改善小于實(shí)驗(yàn)1。這是因?yàn)閷?shí)驗(yàn)2使用的Salinas數(shù)據(jù)集中地物分類明顯,環(huán)境相對(duì)簡(jiǎn)單,說(shuō)明了信息量改進(jìn)PCA降維方法更加適用于環(huán)境相對(duì)復(fù)雜的環(huán)境,具有很強(qiáng)的實(shí)用性。從圖4可以看出:改進(jìn)PCA方法對(duì)地物的整體分類精度明顯提高,比如在“Vinyard_vertical_trellis(左下部分)”、 “Vinyard_vertical_trellis(中間部分)”和“Com_senesced_green_weeds(中下部分)”等區(qū)域。 圖3 未降維、PCA降維及改進(jìn)PCA降維的分類結(jié)果 圖4 未降維、PCA降維及改進(jìn)PCA降維的分類結(jié)果 % 基于信息量改進(jìn)PCA的高光譜圖像特征的降維方法整體分類精度高于未降維處理和傳統(tǒng)PCA降維,能夠更加有效地利用數(shù)據(jù)集的信息,提高分類精度,而計(jì)算代價(jià)比傳統(tǒng)PCA方法計(jì)算復(fù)雜度僅多o(n)的復(fù)雜度。在分類時(shí)間遠(yuǎn)大于降維時(shí)間的情況下,改進(jìn)方法所增加的計(jì)算時(shí)間成本可忽略不計(jì)。從分類結(jié)果圖可以看出,不同區(qū)域分類效果差異加大,存在區(qū)域判錯(cuò),因此,按區(qū)域進(jìn)行特征提取及分類以及使用其他分類器將是今后的研究方向。1 信息量改進(jìn)PCA的特征提取方法
1.1 成分分析降維方法
1.2 信息量改進(jìn)PCA
2 高光譜圖像特征提取
2.1 特征提取實(shí)驗(yàn)樣本數(shù)據(jù)
2.2 特征提取結(jié)果對(duì)比分析
3 結(jié)論