郝尚榮
摘 要: 采用PCA降維和決策樹(shù)兩方法對(duì)不同墨水筆跡的多光譜影像和不同對(duì)象的多光譜遙感影像分類識(shí)別。實(shí)驗(yàn)表明,對(duì)于墨水筆跡可以分出較好效果而遙感影像效果較差,可能是受影像信噪比的影響;文章為不同墨水的分類提供了解決方法。
關(guān)鍵詞: 決策樹(shù); 高光譜; PCA降維; 分類
中圖分類號(hào):TP751.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)05- 40-03
Application of PCA dimensionality reduction and decision tree
in hyperspectral image classification
Hao Shangrong
(Institute of Data and Knowledge Engineering, School of computer and information engineering,Henan University, Kaifeng, Henan 475004, China)
Abstract: PCA dimensionality reduction and decision tree methods are used to classify and recognize the hyperspectral images of handwriting with different inks and the hyperspectral remote sensing images with different objects. The experimental results show that the classification effect of handwriting image is better but the remote sensing image is poor, which may be caused by the signal to noise ratio of the image. This paper provides a solution for the classification of different ink.
Key words: decision tree; hyperspectral; PCA dimensionality reduction; classification
0 引言
研究了機(jī)器學(xué)習(xí)[1]中分類算法之一的決策樹(shù)以及神經(jīng)網(wǎng)絡(luò)中PCA降維在高光譜圖像中的分類應(yīng)用。分析了可能受信噪比低的原因,可以利用高光譜分類的不同墨水;對(duì)于遙感信息由于衛(wèi)星拍攝時(shí)其信噪比較高的原因,具體表現(xiàn)為每一個(gè)光譜圖像產(chǎn)生的能量較小,而噪聲影響較大,這樣多光譜信息的有效信息太少而失去分類的意義。
1 樣本的提取
由于不同的墨水在紙張上畫(huà)的筆跡產(chǎn)生不同的化學(xué)反應(yīng),進(jìn)而可以通過(guò)高光譜相機(jī)獲得含有不同高光譜信息筆跡的光譜圖。高光譜信息是指不同波段的圖像信息。本文的采樣過(guò)程如下。
對(duì)于筆跡,采用9只不同的筆,對(duì)于遙感影像,采用9類對(duì)象,對(duì)應(yīng)101個(gè)波段的光譜信息進(jìn)行采樣。筆跡的采樣是對(duì)每一類筆跡隨機(jī)采樣200個(gè)位置,獲得總的像素值為9*200*101維特征值。遙感影像采用boundingbox工具,對(duì)圖像中9類對(duì)象200個(gè)相應(yīng)4*4區(qū)域,取像素值的均值,總的特征值緯度是9*200*101。
2 訓(xùn)練過(guò)程
PCA降維的思想是,在特征較多的情況下,通過(guò)減少對(duì)分類產(chǎn)生很小影響特征數(shù)量的方式,達(dá)到簡(jiǎn)化計(jì)算效果的目的。決策樹(shù)是機(jī)器學(xué)習(xí)中十分強(qiáng)大的方法,其重要作用在于分類,其特點(diǎn)是每一次只針對(duì)一個(gè)最重要的特征進(jìn)行分類,形成一層的決策樹(shù)的時(shí)候拋棄該特征,多次循環(huán)通過(guò)相對(duì)次重要特征分類的方式。采用機(jī)器學(xué)習(xí)的思想對(duì)這些信息進(jìn)行采樣、降維、采用決策樹(shù)的方法進(jìn)行訓(xùn)練,經(jīng)過(guò)擬合驗(yàn)證后,獲得一棵決策樹(shù)用在高光譜圖像的分類工作中。
2.1 PCA降維
由于采樣后的樣本特征數(shù)太多,盡管采用了矩陣進(jìn)行數(shù)據(jù)運(yùn)算的技術(shù),但是由于特征數(shù)太多造成的緯度過(guò)大,對(duì)于矩陣的存儲(chǔ)、計(jì)算都會(huì)有很大的影響,而大部分的緯度并不對(duì)結(jié)果產(chǎn)生較大的影響。PCA降維[2-3]的思想就是對(duì)矩陣計(jì)算出協(xié)方差矩陣,進(jìn)而依據(jù)矩陣計(jì)算出每一列的特征向量、特征值。求出每一特征值與所有特征值之和的比例,對(duì)比例值由大到小排序,計(jì)算若干個(gè)最大值之和大于99%的特征向量對(duì)應(yīng)的特征作為有效特征。
2.2 決策樹(shù)的選取及訓(xùn)練
決策樹(shù)[4]按照不同的評(píng)判標(biāo)準(zhǔn)分為三種分別為:信息的增益、信息的增益比、基尼系數(shù)。但都是基于信息熵的思想。信息熵的計(jì)算公式為:
其中,P(ui)為類別為i的樣本個(gè)數(shù)在總樣本中的概率,S為樣例個(gè)數(shù)。
本文采用的C4.5的決策樹(shù)[5]算法,其評(píng)判條件為信息的增益,具體含義:以某特征進(jìn)行分類后的信息熵同分類前的信息熵的差值。同時(shí),本文中對(duì)筆跡和遙感影像的分類是9類。所以,采用預(yù)剪枝的思想,限定了決策樹(shù)為九層。由于該分類方法是二分類的,所以就存在十個(gè)葉子節(jié)點(diǎn),分別對(duì)應(yīng)九類結(jié)果和一類的其他類別。
接著,采用十折交叉驗(yàn)證的思想進(jìn)行過(guò)擬合驗(yàn)證。十折交叉驗(yàn)證是數(shù)據(jù)分為十份,一份為訓(xùn)練,九份為測(cè)試,循環(huán)十次觀測(cè)準(zhǔn)確率變化。過(guò)擬合是訓(xùn)練時(shí)準(zhǔn)確率高而測(cè)試的準(zhǔn)確率偏低的現(xiàn)象。通過(guò)多次調(diào)整訓(xùn)練集、測(cè)試集的樣本個(gè)數(shù)的比例,最終獲得平均準(zhǔn)確率為實(shí)驗(yàn)結(jié)果。
3 對(duì)比及結(jié)論
求準(zhǔn)確率和召回率時(shí),分別對(duì)筆跡和遙感影像分類都要按照上述取樣的方式獲得101維的測(cè)試樣本,并進(jìn)行訓(xùn)練、測(cè)試,其對(duì)應(yīng)的準(zhǔn)確率為0.9504、0.671;對(duì)應(yīng)的召回率為0.796和0.971。結(jié)果表明本方法適合多光譜圖像不同墨水的分類;同時(shí)說(shuō)明多光譜的遙感影像可能受信噪比高低的影響,需要進(jìn)一步研究。
4 結(jié)束語(yǔ)
本文結(jié)合了PCA降維和決策樹(shù)方法解決了不同墨水筆跡分類的問(wèn)題,表現(xiàn)出了較高的準(zhǔn)確率。討論了PCA降維和決策的優(yōu)點(diǎn),以及在高光譜圖像中分類的應(yīng)用,可以在跡偽造檢測(cè)中,通過(guò)是否是相同的墨水進(jìn)行第一步區(qū)別操作,具有一定的使用價(jià)值。未來(lái)可以進(jìn)一步研究高光譜圖像分類與信噪比的關(guān)系,以便于確定高光譜信息在分類問(wèn)題中的應(yīng)用范圍。
參考文獻(xiàn)(References):
[1] 李銳,李鵬,曲亞?wèn)|(譯).機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].人民郵電出版社,2013.
[2] 肖招娣.高維數(shù)據(jù)集上的降維算法及其應(yīng)用[D].華南理工大學(xué)碩士學(xué)位論文,2013.
[3] 張小勤.基于PCA與K-NN的故障檢測(cè)與診斷方法的研究[D].西南大學(xué)碩士學(xué)位論文,2016.
[4] 李海濤.基于Hadoop的決策樹(shù)算法改進(jìn)及林業(yè)數(shù)據(jù)分類預(yù)測(cè)研究[D].東北林業(yè)大學(xué)碩士學(xué)位論文,2016.
[5] 黃秀霞.C4.5決策樹(shù)算法優(yōu)化及其應(yīng)用[D].江南大學(xué)碩士學(xué)位論文,2017.