宋海峰 ,陳廣勝 ,楊巍巍
(1.東北林業(yè)大學 信息與計算機工程學院,黑龍江 哈爾濱 150040;2.黑龍江工程學院 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150050;3.哈爾濱工程大學 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001)
引用著錄:宋海峰,陳廣勝,楊巍巍.基于PCA的高光譜遙感圖像分類[J].測繪工程,2017,26(12):17-20,26.
DOI:10.19349/j.cnki.issn1006-7949.2017.12.003
基于PCA的高光譜遙感圖像分類
宋海峰1,2,陳廣勝1,楊巍巍2,3
(1.東北林業(yè)大學 信息與計算機工程學院,黑龍江 哈爾濱 150040;2.黑龍江工程學院 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150050;3.哈爾濱工程大學 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001)
高光譜遙感圖像的出現(xiàn)進一步提升遙感圖像分類的準確性,但高光譜遙感圖像的數(shù)據(jù)量大,處理高光譜遙感圖像復雜度高、效率低。為解決這一問題,將主成分分析算法作為遙感圖像分類的預處理技術(shù)。分析主成分分析算法的原理,利用主成分分析算法提取高光譜圖像的主要波段圖像。通過實驗驗證得出結(jié)論:高光譜遙感圖像的主波段圖像包含分類所需的大部分信息,利用少數(shù)的主波段圖像即可達到70%以上的分類正確率。實驗結(jié)果表明,在保證分類正確率的前提下,PCA算法可有效地減少圖像分類處理的數(shù)據(jù)量,提高圖像的處理效率。
高光譜;遙感圖像;主成分分析;圖像分類
光譜分辨率是高光譜遙感圖像的重要指標參數(shù),利用光譜分辨率可以確定待分類圖像的光譜特征[1]。光譜分辨率是指單幅圖像的光譜范圍,高光譜圖像的光譜范圍一般在5~10 nm[2-3],這幾乎是以連續(xù)的光譜信息來記錄地物影像。高光譜遙感圖像為圖像處理帶來新的機遇的同時也帶來了問題:一方面,與傳統(tǒng)的多光譜遙感圖像處理不同,高光譜遙感圖像不僅能夠區(qū)別不同類別的地物,而且能夠給出不同地物的具體屬性,比如礦物質(zhì)、土地、植被等;另一方面,處理不同波段的圖像時帶來了困難,顯著增加了圖像處理的時間和空間復雜度。根據(jù)休斯效應(yīng)(Hughes):高光譜遙感圖像分類的正確率會隨著光譜波段數(shù)的增加而降低[4-5]。因此,如何有效減少數(shù)據(jù)量,或者從全部數(shù)據(jù)集中選出與特定應(yīng)用相關(guān)的波段圖像成為了目前高光譜遙感圖像處理的主要工作。本文首先利用PCA(Principles Components Algorithm)算法計算出可用于圖像分類的最佳波段,然后分析這些最佳波段圖像的特征,最后驗證利用PCA主波段圖像分類所得的正確率。實驗證明PCA算法在保證分類正確率的前提下,可有效提高高光譜圖像的分類效率,降低分類復雜度。
主成分分析算法認為高光譜圖像的相鄰波段之間存在著高度的相關(guān)性,并且對高光譜圖像中的相同地物以相同的信息進行描述[6]。PCA變換通常是將原始圖像進行變換,從而達到去除波段圖像之間相關(guān)性的目的。在這個過程中,根據(jù)波段圖像像素值的變化來確定原始圖像的優(yōu)化線性組合方式。
PCA算法利用高光譜波段間的統(tǒng)計特性分析其相關(guān)性。PCA算法的計算過程下[7-9]:
將用圖像像素組成的向量表示如下:
(1)
式中:x1,x2,…,xN為高光譜圖像中每一個像素點的對應(yīng)值。圖像向量的維數(shù)為高光譜圖像的波段數(shù)N,對于一個m行n列的高光譜圖像一共有M=m×n個向量,i=1,2,…,M,所有波段圖像的均值可表示為
(2)
其中,x的協(xié)方差矩陣,
Cov(x)=E[(x-E(x))(x-E(x))T].
(3)
式中:E為期望運算,T為轉(zhuǎn)置運算,Cov為協(xié)方差運算。
同時可通過下式近似計算得到協(xié)方差矩陣:
(4)
對協(xié)方差矩陣進行特征值分解:
Cx=ADAT.
(5)
其中:
D=diag(λ1,λ2,…,λN).
(6)
式中:D是由協(xié)方差矩陣Cx的特征值λ1,λ2,…,λN所構(gòu)成的對角陣。A是由協(xié)方差矩陣Cx的特征值λ1,λ2,…,λN對應(yīng)的特征向量所構(gòu)成的正交向量:
A=(a1,a2,…,aN).
(7)
原始波段圖像線性變換:
yi=ATxi,(i=1,2,…,M).
(8)
所得yi即為原始圖像xi的PCA變換圖像,由所有原始圖像x變換所得y即為原始高光譜圖像的PCA變換圖像。
對特征值和特征向量降序排序:
λ1≥λ2≥…≥λN,
(9)
計算得到的PCA波段圖像中,第一個波段圖像具有最大的對比度和方差,最后一個波段圖像具有最小的對比度和方差。因此,前k個PCA波段圖像通常包含了原始圖像的主要信息,由于圖像的波段數(shù)和噪聲明顯減少,因此用k個PCA波段圖像來代替原始圖像進行分析計算效率將會更高。
PCA算法的幾何表示法如圖1所示,原始圖像由band1和band2兩個波段所構(gòu)成,兩個波段之間存在很大的相關(guān)性。PCA變換的特性:①可以有效的消除band1和band2之間的相關(guān)性;②PCA波段1描述了圖像中最大的變化,PCA波段2表述的是圖像中第二大的變化,在最初的幾個PCA波段都符合這一變化趨勢中,其余的PCA波段則包含著越來越少的有用信息。
圖1 主成分分析和PCA波段的幾何表示
基于PCA波段圖像內(nèi)容進行實驗分析。實驗數(shù)據(jù)采用黑龍江省伊春市涼水林場數(shù)據(jù)集,該數(shù)據(jù)集是2012年7—8月間由B5飛機拍攝于黑龍江省伊春市帶嶺區(qū)涼水林場地區(qū),該數(shù)據(jù)集一共有144個波段,空間分辨率為1.5 m,光譜覆蓋范圍為371~1 051 nm,圖像大小為1 025像素×767像素,該數(shù)據(jù)集的地面實況標記了 5 類地物(針葉林、闊葉林、草地,水域,房屋)。
計算原始144個PCA波段圖像,圖2為原始圖像,圖3為PCA波段圖像。如圖3所示,高光譜遙感圖像的主要信息都包含在前幾個PCA波段圖像中,其余的波段圖像基本都是噪聲。從圖中可以看出前5個PCA波段圖像幾乎包含了所有的信息;PCA波段6至PCA波段10圖像,只能區(qū)分對比度相對比較大的區(qū)域;PCA波段10以后的圖像基本都是噪聲。本實驗也驗證了休斯效應(yīng),即隨著PCA波段的增多,PCA波段圖像所包含的有用信息逐漸減少。
圖2 原始高光譜圖像
圖3 PCA波段圖像樣例
Mather[10]也開展了相似的實驗,并且對PCA波段圖像進行了定量的描述,實驗結(jié)果表明,對應(yīng)較小特征值的PCA波段圖像包含了較多的信息,這些信息實際上可以用來對圖像進行分類。Mather[10]指出不能僅依靠特征值對應(yīng)的PCA波段圖像來做圖像分類,還應(yīng)考慮圖像的實際視覺效果。
高光譜圖像通常對給定地物的屬性進行詳細分析。從理論上講,PCA變換會影像高光譜圖像的分類結(jié)果。對高光譜遙感圖像的PCA波段和原始波段進行對比分類,通過PCA算法獲得原始圖像的PCA波段圖像,選擇分類訓練的區(qū)域,這些區(qū)域均已被標記了已知的屬性信息,最后通過K-means法對圖像進行分類。
首先對原始圖像、全部PCA波段圖像和PCA波段圖像的子集進行分類,分類結(jié)果如圖4所示。從分類的視覺效果看,原始圖像和全部PCA波段圖像的分類結(jié)果基本一致。
圖4 分類結(jié)果對比
以原始圖像的分類結(jié)果為參照,對比PCA變換的分類效果。對兩種分類結(jié)果的對應(yīng)像素做差即可得到差分圖像,通過差分圖像可以得到被正確分類和錯誤分類的像素點以及分類的正確率。從表1可以看出,隨著參與分類的PCA波段圖像的增多,分類的正確率上升的非常緩慢。對于實驗數(shù)據(jù)集,當使用10%的PCA波段圖像時可以得到70%左右的分類正確率;當使用20%的PCA波段圖像時可以得到75%~80%左右的分類正確率;隨著PCA波段圖像數(shù)的增加,分類的正確率緩慢提高,當使用50%的PCA波段圖像時可以得到90%左右的分類正確率。因此,可以看出PCA方法具有很好的實用性,只需從原始大量的數(shù)據(jù)集中提取較少的PCA波段圖像即可得到理想的分類結(jié)果。
從分類的結(jié)果還可以看出,被錯誤分類的像素點主要集中在圖像邊緣部分。這是由于在進行PCA變換時圖像邊緣部分的信息丟失所造成的,這些錯誤分類點會影像整體的分類精度。但是,錯誤分類點并沒有改變整個圖像的分類模式,因此主要的分類結(jié)果仍然正確。
表1列出了對高光譜圖像進行PCA變換所用的時間,分類總時間等于PCA變換時間與分類時間之和。采用實驗數(shù)據(jù)集的PCA變換時間為20 s,當分類的對象是原始數(shù)據(jù)集時,由于無需進行PCA變換,因此分類總時間等于分類時間。如表1所示,當使用較少的PCA波段圖像進行分類時,分類所用時間明顯減少,當使用前5個PCA波段圖像進行分類時,分類所用時間為7 s,占分類總時間的25%。實驗結(jié)果表明,在實際應(yīng)用中雖然PCA變換占據(jù)了大部分的分類總時間(約占分類總時間的34%),但總的分類時間仍然小于利用原始圖像進行分類的總時間。
表1 分類正確率和分類時間統(tǒng)計表
本文的研究表明:PCA算法是一種實用的高光譜遙感圖像分類的預處理技術(shù)。具體可得出以下結(jié)論:
1)對原始高光譜圖像進行PCA變換之后,圖像中有用信息大多包含在前5%~10%的PCA波段圖像之中,前10%以后的PCA波段圖像基本為噪聲。
2)應(yīng)用較少的PCA波段圖像對高光譜圖像進行分類所得的結(jié)果與應(yīng)用全部原始高光譜圖像進行分類所得的結(jié)果基本一致。
3)隨著參與分類的PCA波段圖像的增多,分類正確率提高的非常緩慢。以上結(jié)論表明,使用PCA算法對高光譜圖像進行分類,可有效地提高分類效率;在保證分類正確率的前提下,PCA算法可減少數(shù)據(jù)量;因此PCA算法是一種有效的高光譜遙感圖像分類的預處理算法。
[1] 楊凱歌,馮學智,肖鵬峰,等. 優(yōu)化子空間SVM集成的高光譜圖像分類[J]. 遙感學報,2016,20(3):409-419.
[2] 劉良春,馮燕. 結(jié)合純像元提取和ICA的高光譜降維方法[J]. 計算機應(yīng)用研究,2011,28(3):1689-1699.
[3] DABHADE S B, BANSOD N S, RODE Y S,et al. Hyper spectral face image based biometric recognition[C]. Proceedings - International Conference on Global Trends in Signal Processing, Information Computing and Communication, ICGTSPICC 2016, 2017: 559-561.
[4] HUGHES G F.On the Mean Accuracy of Statistical Pattern Recognizers[J]. IEEE Trans on Information Theory 1968, 14(1):55-63.
[5] SHAHSHAHANI B M,LANDGREBE D A.The Effect of Unlabeled Samples in Reducing the Small Sample Size Problem and Mitigating the Hughes Phenomenon[J]. IEEE Transactions on Geoscience & Remote Sensing, 1994, 32(5):1087-1095.
[6] KOONSANIT K, JARUSKULCHAI C,EIUMNOH A.Band Selection for Dimension Reduction in Hyper Spectral Image Using Integrated Information Gain and Principal Components Analysis Technique[J]. Physical Review B, 2012, 3(3):248-251
[7] SCHOWENGERDT R A. Remote Sensing: Models and Methods for Image Processing. Beijing: Publishing House of Electronics Industry, 2010.
[8] GONZALEZ R,WOODS R.Digital image processing. New Jersey: Prentice Hall, 2002.
[9] HAIFENG S, GUANGSHENG C, HAIRONG W,et al.The improved (2D)2PCA algorithm and its parallel implementation based on image block[J]. Microprocess. Microsyst., 2016, 47(PA):170-177.
[10] MATHER P M.Computer processing of remotely-sensed images. New York: John Wiley & Sons, 1999.
[責任編輯:李銘娜]
Principalcomponentanalysisforhyperspectralimageclassification
SONG Haifeng1,3,CHEN Guangsheng1,YANG Weiwei2,3
(1.College of Information and Computer, Northeast Forestry University, Harbin 150040,China; 2.Computer Science and Technology, Heilongjiang Institute of Technology, Heilongjiang Harbin 150050,China; 3.Computer Science and Technology, Harbin Engineering University, Harbin 150001,China)
The availability of hyper spectral images enhances the accuracy of remote sensing image classification, but the problem is the high time complexity and low execution efficiency when processing the hyper spectral image, because of the huge data of hyper spectral image. In order to solve the problems, this work uses the principal component analysis algorithm as the preprocessing technique for the classification of hyper spectral images. First, the principle of principal component analysis algorithm is analyzed. Second, the principal component analysis algorithm is used to extract the principal component image bands of hyper spectral images. A brief presentation of the principal component analysis approach is followed by an examination, which reveals that the principal component image bands contain significant information. The use of the first few principal component images can yield about 70 percent correct classification rate. This study suggests that with the premise of ensuring classification accuracy, the amount of data for the classification of hyper spectral images can be reduced effectively and the execution efficiency can be improved.
hyper spectral; remote sensor images; principal component analysis; image classification
P231
A
1006-7949(2017)12-0017-04
2017-02-04
黑龍江省自然科學基金資助項目(ZD201403);國家林業(yè)局林業(yè)行業(yè)公益專項基金(201504307);哈爾濱市應(yīng)用技術(shù)研究和開發(fā)項目(201504307);黑龍江工程學院教育科學研究規(guī)劃項目(JG1410);黑龍江省大學生創(chuàng)業(yè)實踐項目(201611802059)
宋海峰(1981-),男,講師,博士研究生.
陳廣勝(1969-),男,教授,博士.