徐 侃,陳麗君,楊 文,孫 洪
(武漢大學(xué)電子信息學(xué)院,430079武漢,jcarloswhu@msn.com)
利用特征選擇的遙感圖像場景分類
徐 侃,陳麗君,楊 文,孫 洪
(武漢大學(xué)電子信息學(xué)院,430079武漢,jcarloswhu@msn.com)
為了提高遙感圖像場景分類精度,提出了一種基于增廣LDA(Latent Dirichlet Allocation)模型的特征選擇算法.首先對圖像進(jìn)行尺度不變特征變換、顏色直方圖、幾何模糊特征、局域二值模式和Gabor紋理特征提取,然后引入一種改進(jìn)的自動(dòng)選擇特征算法,通過交叉驗(yàn)證選出最具針對性的特征組合,再利用LDA將高維特征組合進(jìn)行降維,最后使用正則化邏輯回歸分類器完成場景分類.實(shí)驗(yàn)結(jié)果表明,與其他特征組合相比,經(jīng)自動(dòng)選擇后的特征組合可以有效提高遙感圖像場景分類的精度.
場景分類;主題模型;特征選擇;邏輯回歸
場景分類是遙感圖像解譯的一個(gè)重要環(huán)節(jié),也是遙感研究領(lǐng)域的熱點(diǎn).如今隨著圖像分辨率的大幅提高,其所包含的地物目標(biāo)細(xì)節(jié)更加明顯,形狀、紋理、結(jié)構(gòu)等信息也更加突出.面對豐富的特征信息,選擇有針對性的特征是提高分類性能的一個(gè)關(guān)鍵環(huán)節(jié).文獻(xiàn)[1]的實(shí)驗(yàn)結(jié)果表明,利用形狀和顏色特征可以有效提取出高分辨率遙感圖像中的建筑物目標(biāo).文獻(xiàn)[2]將遙感圖像的紋理及顏色等特征組合后與pLSA(Probabilistic Latent Semantic Analysis)模型相結(jié)合,利用兩層分類器來提高分類精度.
近年來,利用語義模型來進(jìn)行圖像分類的方法受到了廣泛關(guān)注.與常用的詞袋 (Bag of Words,BOW)方法相比,語義模型在對特征降維的同時(shí),也對潛在語義信息進(jìn)行挖掘.文獻(xiàn)[3]將遙感圖像的語義標(biāo)注與LDA模型[4]相結(jié)合,取得了不錯(cuò)的效果.文獻(xiàn)[5]則將本體技術(shù)語義與BOW相結(jié)合,提出了基于概率的復(fù)雜目標(biāo)圖像語義推理模型,借此得到圖像更深層次的語義推理結(jié)果.語義模型根據(jù)圖像中視覺詞匯出現(xiàn)的總體情況進(jìn)行分析,不僅適用于單特征,對于特征組合也同樣有效.文獻(xiàn)[6]的實(shí)驗(yàn)結(jié)果表明將若干種特征進(jìn)行組合,分類效果要優(yōu)于單特征,但并非使用特征的種類越多分類效果就越好.
對于選出有針對性的特征,文獻(xiàn)[6]提出利用一種增廣的LDA模型(augmented LDA,aLDA)來完成對特征的最優(yōu)選擇,最終將其應(yīng)用在材料識別上.為了提高計(jì)算效率,本文對其算法加以改進(jìn).對18類遙感圖像的場景分類實(shí)驗(yàn)表明,改進(jìn)的算法不再需要進(jìn)行大量迭代計(jì)算,經(jīng)自動(dòng)選擇后組合的特征與單特征、所有特征組合以及文獻(xiàn)[2]中的實(shí)驗(yàn)結(jié)果相比具有更高的分類精度.在對法國格勒諾布爾市(Grenoble)高分辨率遙感圖像上所進(jìn)行的大場景分類實(shí)驗(yàn)中,上述方法也取得了較好的效果.
目前用于圖像分類的特征主要包括:紋理、顏色、形狀、空間位置等.它們的表達(dá)方式時(shí)各有所側(cè)重,在分類應(yīng)用中各有所長.本文在實(shí)驗(yàn)中運(yùn)用5種有代表性的特征:
1)尺度不變特征變換(SIFT)[7].它對平移、旋轉(zhuǎn)、尺度縮放、亮度變化、遮擋和噪聲等具有良好的不變性,對觀察視角的變化、仿射變換也具有一定的穩(wěn)定性.由于其信息量豐富,容易提取,計(jì)算速度相對較快,在圖像分類中得到了廣泛應(yīng)用.
2)顏色直方圖(colorhist).它描述的是不同顏色在整幅圖像中所占的比例,反映了圖像顏色的統(tǒng)計(jì)分布和基本色調(diào).
3)幾何模糊特征 (Geometric Blur,GB)[8],它在模板匹配、形狀匹配等方面具有良好性能,通過對圖像的幾何模糊來增強(qiáng)圖像點(diǎn)與點(diǎn)之間的相關(guān)性.在實(shí)際計(jì)算中,它由圖像與核函數(shù)卷積得到.
4)局域二值模式(Local Binary Pattern,LBP).它是一種基于局部圖像像素灰度值比較而提出的紋理特征,由此可定義出具體的紋理模式[9].其核心思想是將二值矩陣看作一個(gè)二值紋理模式(紋理基元),用它來刻畫鄰域內(nèi)像素點(diǎn)灰度值相對中心點(diǎn)的變化情況.該方法注重像素灰度的變化,符合人類視覺對圖像紋理的感知.
5)Gabor紋理特征.它作為紋理特征的一種,是對圖像使用Gabor濾波時(shí)所得到,輸入圖像通過二維Gabor函數(shù)來計(jì)算相應(yīng)特征,適用于檢測和描述圖像紋理特性.
綜上所述,SIFT與GB特征主要關(guān)注圖像的局部結(jié)構(gòu)特征,colorhist則是對圖像顏色信息的描述,而LBP與Gabor特征側(cè)重于圖像的紋理.本實(shí)驗(yàn)對這些特征進(jìn)行優(yōu)化選擇,之后將其組合應(yīng)用于遙感圖像場景分類.
基于語義模型的圖像場景分類工作,一般通過分析圖像中是否包含潛語義來完成.目前被廣泛使用的2種語義模型pLSA和LDA都屬于生成模型.它們都認(rèn)為文檔是由詞匯構(gòu)成的集合,忽略其中任何語法及出現(xiàn)順序關(guān)系.當(dāng)訓(xùn)練樣本數(shù)量較小時(shí),LDA的優(yōu)勢較明顯.
在pLSA中,無法獲知潛語義的分布,待估參數(shù)的數(shù)量會(huì)隨文檔數(shù)量增加而線性增長,相應(yīng)會(huì)導(dǎo)致過擬合.而LDA模型將主題混合權(quán)重視為k維參數(shù)的潛在隨機(jī)變量,克服了pLSA的不足.由模型可得到:
將式(1)計(jì)算邊緣概率得
式中:D為語料庫;M為語料庫中文檔總數(shù);N為文檔長度;θ為主題發(fā)生概率;z為潛語義;α,β分別為超參數(shù).
在估計(jì)模型參數(shù)時(shí)可采用變分推理(variational inference)、馬爾科夫鏈蒙特卡羅采樣法(Markov Chain Monte Carlo,MCMC)等方法.
文獻(xiàn)[6]所提出的增廣LDA模型(aLDA),利用貪婪算法完成對特征的最優(yōu)選擇.其核心思想為:在交叉驗(yàn)證階段,每次從特征集中選出一種使分類正確率達(dá)到最大,即一種最好的特征,將其與之前已選出的特征進(jìn)行組合,直到分類正確率不再上升為止.分類階段,利用模型自身的參數(shù),由最大后驗(yàn)原則得出類別標(biāo)號,即
式中:λc=log πc;C為類別標(biāo)號,服從以π為參數(shù)的多項(xiàng)分布;L(αc,η)為模型參數(shù)估計(jì)中變分推理的最大化下界.
在文獻(xiàn)[6]中的交叉驗(yàn)證及測試階段,均直接使用模型自身的參數(shù)得到類別標(biāo)號(參見式(3)).在確定測試樣本類別標(biāo)號時(shí),其算法需要不斷進(jìn)行迭代計(jì)算直至模型中λc的值不再變化為止,計(jì)算時(shí)間相對較長.除此之外,文獻(xiàn)[11]指出在僅利用主題模型自身參數(shù)進(jìn)行分類時(shí),并不能取得令人滿意的效果,若將其與判別式分類器相結(jié)合可明顯提高分類精度.為了提高分類效率,在算法中的交叉驗(yàn)證階段將LDA模型中的參數(shù)向量θ輸入正則化邏輯回歸分類器,從而取代原算法中的式(3).于是,在交叉驗(yàn)證階段不再需要進(jìn)行大量迭代運(yùn)算.另外,文獻(xiàn)[6]中由于直接使用模型自身參數(shù)進(jìn)行分類,在交叉驗(yàn)證及測試階段均須基于語義模型對每一類樣本單獨(dú)進(jìn)行訓(xùn)練,以獲得各類別所對應(yīng)的參數(shù)值,如此一來,該階段的計(jì)算時(shí)間會(huì)隨著樣本類別數(shù)的增大而線性增加.而在引入正則化邏輯回歸分類器后,在交叉驗(yàn)證及測試階段只需將所有樣本對語義模型進(jìn)行一次訓(xùn)練即可.由此作出如圖1所示的改進(jìn).
圖1 交叉驗(yàn)證階段特征選擇算法
目前用于遙感圖像場景分類的算法很多,例如KNN分類器、決策樹分類器、神經(jīng)網(wǎng)絡(luò)分類器、SVM分類器、Boosting分類器等.文獻(xiàn)[10]中指出在樣本有限及特征維度較高時(shí)使用正則化邏輯回歸分類器,分類效果要略優(yōu)于線性SVM分類器,而且在速度上具有明顯優(yōu)勢.本實(shí)驗(yàn)選用Liblinear工具包中的正則化邏輯回歸分類器.
實(shí)驗(yàn)所用數(shù)據(jù)來自于Google Earth?.本文在文獻(xiàn)[2]中數(shù)據(jù)集的基礎(chǔ)上,新增6類場景,共有18類場景:飛機(jī)場、橋梁、商業(yè)區(qū)、沙漠、農(nóng)田、足球場、森林、工業(yè)區(qū)、牧場、山脈、公園、停車場、池塘、港口、火車站、住宅區(qū)、河流以及高架橋,其中各類場景均含有50幅圖像,大小為600像素×600像素.用于大場景分類實(shí)驗(yàn)的數(shù)據(jù)集包括6類場景:工廠、樹木、草地、停車場、居民區(qū)及水域,其中每類均含有30幅圖像,大小為150像素 ×150像素.
本文所述5種特征,均通過網(wǎng)格密集采樣提取.表1給出了各類特征的維數(shù).實(shí)驗(yàn)中用K-Means來對各類特征進(jìn)行聚類運(yùn)算(聚類中心的數(shù)量均為300),從而建立視覺詞匯表.潛語義的數(shù)量設(shè)為25.
表1 各種特征維數(shù)
這樣,若按式(4)將所有特征進(jìn)行組合,構(gòu)成的特征向量將達(dá)1 500維.若使用LDA模型對其進(jìn)行降維,便將之轉(zhuǎn)化到25維的潛語義空間之上.這也是將語義模型應(yīng)用到遙感圖像場景分類中的一個(gè)重要原因.
實(shí)驗(yàn)中把視覺詞匯的統(tǒng)計(jì)直方圖作為輸入語義模型的條件概率.對于各類圖像,選取20幅作為訓(xùn)練數(shù)據(jù),10幅作為交叉驗(yàn)證數(shù)據(jù),剩余的則作為測試數(shù)據(jù).實(shí)驗(yàn)在隨機(jī)抽取訓(xùn)練與測試圖像集上進(jìn)行,計(jì)算18個(gè)類別的平均分類準(zhǔn)確率.
3.4.1 場景分類實(shí)驗(yàn)結(jié)果
表2中給出了運(yùn)用BOW方法,各類特征在KNN分類器下所得實(shí)驗(yàn)結(jié)果.其中取K= 1,即最近鄰分類方法(在本文實(shí)驗(yàn)中K=1時(shí)效果較好).表3給出了各類特征在經(jīng)過LDA降維后再使用正則化邏輯回歸分類器時(shí)的實(shí)驗(yàn)結(jié)果.可以看出,在僅使用單特征條件下,SIFT所對應(yīng)的分類效果最佳,而Gabor的分類效果則相對較低.
表4則將不同特征組合在相同分類器下所得結(jié)果進(jìn)行了比較.不難發(fā)現(xiàn),在特征進(jìn)行組合時(shí),分類精度較之前僅使用單特征有了明顯的提高,但并非與使用特征種類數(shù)量成正比.
表2 使用BOW單特征在KNN(K=1)分類器下所得結(jié)果 %
表3 使用LDA模型各類單特征在邏輯回歸分類器下所得結(jié)果 %
表4 不同特征組合所得結(jié)果 %
根據(jù)經(jīng)驗(yàn)性選擇,分別將在結(jié)構(gòu)、紋理及顏色方面各取一種特征進(jìn)行組合(SIFT+colorhist+Gabor),效果要優(yōu)于使用全部特征.而根據(jù)本實(shí)驗(yàn)中算法所得到的特征組合(SIFT+colorhist),其分類精度與前兩者比相都要高.這說明SIFT和colorhist具有一定程度的互補(bǔ)性,對于該數(shù)據(jù)集,這2種特征具有更強(qiáng)的針對性.
圖2給出了在使用特征優(yōu)化組合情況下所得到的混淆矩陣.混淆矩陣的橫軸與縱軸分別代表場景類別,第i行j列的值表示第i類圖像被分為第j類圖像的比例,其對角線上元素的值代表每類場景的分類準(zhǔn)確率.
圖2 特征組合所得到的分類混淆矩陣
從圖3中不難發(fā)現(xiàn),在所有場景中,橋梁是最容易分錯(cuò)的類別,其次則是商業(yè)區(qū)與工業(yè)區(qū).尤其是商業(yè)區(qū),有很大一部分被錯(cuò)分為住宅區(qū).由于該類中含有較多房屋與樹木,而在住宅區(qū)中同樣含有較多相似內(nèi)容,因此成為其錯(cuò)分的重要原因.而對于橋梁與港口這2類圖像,水域在其中占有較高比例,故橋梁中錯(cuò)分的圖像主要被分為港口.對于飛機(jī)場與足球場而言,飛機(jī)場的跑道與足球場周圍的公路在結(jié)構(gòu)上具有一定的相似性,是二者相互錯(cuò)分的主要因素.
圖3 錯(cuò)分圖像
3.4.2 大場景分類實(shí)驗(yàn)結(jié)果
在大場景分類實(shí)驗(yàn)中,選取法國格勒諾布爾市(Grenoble)的城區(qū)場景作為測試圖像,大小為6 000像素×6 000像素.實(shí)驗(yàn)中把測試圖像分為1 600個(gè)大小為150像素×150像素的子塊,根據(jù)已建立的訓(xùn)練數(shù)據(jù)集選出最佳特征組合(仍為SIFT+colorhist).表5給出了使用2種語義模型所得分類準(zhǔn)確率及相應(yīng)的kappa系數(shù).圖4給出了基于2種模型的區(qū)域分類結(jié)果,其中類別與顏色的對應(yīng)關(guān)系為:工廠(粉紅色),樹木(綠色),草地(洋紅色),停車場(藍(lán)色),居民區(qū)(黃色)以及水域(灰色).在手工標(biāo)注圖(GROUND TRUTH)中由于公路等地物不屬于上述任何一類,被標(biāo)注為空類(橙色).
表5 大場景分類實(shí)驗(yàn)所得結(jié)果
結(jié)果顯示,除居民區(qū)之外,其余5類場景都有較大一部分被錯(cuò)分為居民區(qū).這是因?yàn)樵谠擃悇e中含有較多在其余類別中也會(huì)出現(xiàn)的地物目標(biāo),例如,房屋、樹木、綠地、道路及位于道路上的汽車、噴水池等.特別是草地與停車場這2類場景,它們所包含的地物類型在居民區(qū)中同樣也有較高出現(xiàn)頻率,因此其分類精度明顯要低于其他類別.
圖4 大場景分類實(shí)驗(yàn)結(jié)果
1)通過一種改進(jìn)的特征自動(dòng)選擇算法,在交叉驗(yàn)證階段選擇出對于數(shù)據(jù)集最具針對性的特征,再將之與語義模型相結(jié)合,完成遙感圖像的場景分類.
2)實(shí)驗(yàn)評估結(jié)果表明,經(jīng)有效選擇的特征組合獲得的分類結(jié)果優(yōu)于使用所有特征及經(jīng)驗(yàn)性特征組合.
[1]孫 顯,王宏琦,張正.基于對象的Boosting方法自動(dòng)提取高分辨率遙感圖像中建筑物目標(biāo)[J].電子與信息學(xué)報(bào), 2009,31(1):177-181.
[2]徐侃,楊 文,陳麗君,等.基于主題模型的遙感圖像場景分類[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2011,36(5):540-543.
[3]LIéNOU M,MA?TRE H,DATCU M.Semantic annotation of satellite images using latent dirichlet allocation[J].IEEE,Geoscience and Remote Sensing Letters, 2009,7(1):28-32.
[4]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003,3:993-1022.
[5]黃宇,付琨,吳一戎,等.基于概率的復(fù)雜目標(biāo)圖像語義推理模型[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2009,34(9):1043-1046.
[6]LIU C,SHARAN L,ADELSON E H,et al.Exploring features in a Bayesian framework for material recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Washington,DC:IEEE Computer Society,2010:239-246.
[7]LOWE D G.Distinctive image features from scale-invariant key-points[J].International Journal of Computer Vision, 2004,60(2):91-110.
[8]BERG A C,MALIK J.Geometric blur for template ma tching[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Washington,DC:IEEE Computer Society,2001:607-614.
[9]OJALA T,PIETIK?INEN M,M?ENP?? T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(7):971-987.
[10]FAN Rong-En,CHANG Kai-Wei,HSIEH Cho-Jui,et al.LIBLINEAR:A library for large linear classification[J].The Journal of Machine Learning Research, 2008,9:1871-1874.
[11]ZHU J,AHMED A,XING E P.MedLDA:Maximum margin supervised topic models for regression and classification[C]//Procedings of the 26th International Conference on Machine Learning(ICML).New York,NY:ACM,2009:1257-1264.
Scene categorization of satellite images based on feature selection
XU Kan,CHEN Li-jun,YANG Wen,SUN Hong
(School of Electronic Information,Wuhan University,430079 Wuhan,China,jcarloswhu@msn.com)
To improve the accuracy in scene categorization of satellite images,this paper presents an algorithm of feature selection based on augmented LDA(Latent Dirichlet Allocation)model,and the algorithm is improved,which can automatically selects features from the features-pool.This method firstly extracts five kinds of features(SIFT,Geometric Blur,LBP,Gabor and Color histogram)from each image,and during the crossvalidation,the combined features,which have the best performance over the dataset are got.Next,the dimensionality of the combined features is reduced by using LDA.Finally the regularized logistic regression classifier are employed to achieve the classification.Compared with other feature combination,the experimental results demonstrate that,the combination of the automatically selected features can improve the accuracy of scene categorization of satellite images effectively.
scene categorization;latent dirichlet allocation;feature selection;logistic regression
P237.4
A
0367-6234(2011)09-0117-05
2011-03-06.
國家自然科學(xué)基金資助項(xiàng)目( 40801183,60872131).
徐 侃(1983—),男,博士研究生.
(編輯 張 紅)