孫 山,梁 棟,鮑文霞,張 成
(安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230039)
視覺信息以數(shù)字圖像的形式大量出現(xiàn)在人們的生活中,如何快速準(zhǔn)確地進(jìn)行圖像分類與處理,以獲取用戶所需的信息成為近年來的研究熱點(diǎn)之一.詞袋(bag of words,簡稱BoW)模型最早出現(xiàn)在自然語言處理(natural language processing,簡稱NLP)和信息檢索(information retrieval,簡稱IR)領(lǐng)域中,被用于處理文檔的識(shí)別與分類[1].受BoW模型應(yīng)用在文檔分類與信息檢索等方面的啟發(fā),視覺詞袋(bagof-visual-words)模型將圖像類比為文檔,將圖像特征類比為文檔中的單詞[2],計(jì)算一個(gè)語義圖像的緊湊直方圖向量,再結(jié)合分類器進(jìn)行圖像分類,即能取得較好的效果.
但是,BoW模型在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用中仍有可優(yōu)化的問題,如特征描述子計(jì)算復(fù)雜、詞典完備性對(duì)圖像分類的影響以及圖像空間結(jié)構(gòu)信息的缺失等.文獻(xiàn)[2]首次將BoW模型引入到計(jì)算機(jī)視覺領(lǐng)域中并結(jié)合尺度不變特征變換[3](scale invariant feature transform,簡稱SIFT)描述子對(duì)圖像進(jìn)行分類.文獻(xiàn)[4]針對(duì)SIFT描述子計(jì)算復(fù)雜度較高的問題提出了一種新的快速稠密局部特征描述子(DAISY)來對(duì)圖像進(jìn)行特征提取,并利用BoW模型進(jìn)行建模.文獻(xiàn)[5]提出空間金字塔匹配(spatial pyramid matching,簡稱SPM)模型以改善圖像全局直方圖表示時(shí)空間結(jié)構(gòu)信息丟失問題,并應(yīng)用到BoW模型中進(jìn)行圖像分類.文獻(xiàn)[6]研究了圖像底層特征與高層特征之間的“語義鴻溝”問題,并基于BoW模型構(gòu)建了一個(gè)有效的圖像檢索系統(tǒng).
鑒于傳統(tǒng)BoW模型僅依賴單一圖像局部特征構(gòu)建視覺詞典,其對(duì)圖像信息描述欠完備,且應(yīng)用于圖像分類時(shí)精度不高的問題,作者在文獻(xiàn)[5]的基礎(chǔ)上,提出一種基于Laplace譜結(jié)構(gòu)特征與圖像局部特征相結(jié)合的圖像分類方法.
BoW模型最早出現(xiàn)在NLP和IR領(lǐng)域中,被用于處理文本的識(shí)別與分類[1].該模型忽略文檔的語序及語法部分,用一個(gè)關(guān)鍵詞的無序組合來表示文檔,通過統(tǒng)計(jì)每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的頻率來得到不同文檔的有差異的向量表示,從而進(jìn)行分類.
近年來,BoW模型因其簡易且行之有效的優(yōu)點(diǎn)而得到了更廣泛的應(yīng)用,結(jié)合其特點(diǎn),Li等[2]提出了用詞袋模型表達(dá)圖像的方法,并將圖像類比為文檔,而將圖像中的局部特征類比為文檔中的單詞,從而可以將該模型應(yīng)用于圖像分類中.在BoW模型的圖像表達(dá)技術(shù)中,通常包含如下3個(gè)部分:特征提取、特征表示以及視覺詞典構(gòu)造,再結(jié)合分類器的訓(xùn)練即可進(jìn)行圖像的分類與識(shí)別.圖1給出了BoW模型應(yīng)用于圖像分類的基本流程.
鑒于直接抽取整幅圖像的譜結(jié)構(gòu)特征會(huì)丟失圖像細(xì)節(jié)結(jié)構(gòu)信息,作者借鑒文獻(xiàn)[5]中采用空間金字塔匹配模型來獲取更豐富的空間結(jié)構(gòu)信息的思想,對(duì)圖像進(jìn)行均勻劃分(見圖2),然后抽取均勻劃分后的圖像細(xì)節(jié)結(jié)構(gòu)特征.
給定序列圖像集I1,I2,…,In,…,IN,設(shè)圖像In被均勻劃分為λ×λ=k個(gè)部分,分別記為對(duì)提取m個(gè)特征點(diǎn)得到特征點(diǎn)集,則點(diǎn)集就表征了圖像的結(jié)構(gòu)特征信息.特征點(diǎn)集的基于遞增權(quán)函數(shù)的鄰接矩陣可表示為
其中:S為權(quán)值系數(shù),為點(diǎn)集中特征點(diǎn)和之間的歐氏距離.鄰接矩陣的度矩陣可定義為
基于所有訓(xùn)練圖像的Laplace譜細(xì)節(jié)結(jié)構(gòu)特征構(gòu)建視覺詞典,其中K1為視覺詞典的大小.依據(jù)對(duì)每幅圖像的Laplace譜結(jié)構(gòu)特征進(jìn)行向量量化(vector quantization,簡稱VQ),并歸一化得到圖像的全局直方圖向量表示VL.通過圖像細(xì)節(jié)結(jié)構(gòu)譜特征的匯聚,該圖像向量表示可更好地表達(dá)圖像的細(xì)節(jié)以及整體空間結(jié)構(gòu)信息.
尺度不變特征變換描述子(SIFT)是文獻(xiàn)[3]中提出的一種基于尺度空間且對(duì)圖像旋轉(zhuǎn)、縮放等變換保持較好不變性的圖像局部特征描述子.SIFT算法的步驟為:
(1)尺度空間構(gòu)造;
(2)空間局部極值點(diǎn)檢測(cè)與篩選;
(3)特征點(diǎn)主方向的確定;
(4)關(guān)鍵點(diǎn)描述子的生成.
SIFT描述子鑒別力強(qiáng)且信息量豐富,優(yōu)化后的SIFT算法計(jì)算速度較快且易于進(jìn)行特征聯(lián)合.文
一個(gè)簡單有效的視覺詞典的構(gòu)造方法就是執(zhí)行K-means聚類算法.聚類算法一般要滿足同一聚類中的對(duì)象相似度較高,而不同聚類中的對(duì)象相似度較小,具體到K-means聚類算法中即要將Q個(gè)點(diǎn)分到K個(gè)簇中,且保證K個(gè)簇內(nèi)平方和最小化[9],其數(shù)學(xué)表達(dá)式如下
其中:K為聚類中心數(shù);Ci為聚類中心;xj為聚類對(duì)象表示第i個(gè)簇內(nèi)點(diǎn)到聚類中心的平方,j=1,…,Q.
設(shè)圖像集中有N=N1+N2幅圖像,其中N1為訓(xùn)練集圖像數(shù)目,N2為測(cè)試集圖像數(shù)目.對(duì)訓(xùn)練集的N1幅圖像分別抽取圖像劃分后的Laplace譜結(jié)構(gòu)特征和SIFT局部特征,并進(jìn)行K-means聚類,獲得圖像信息描述更完備的視覺詞典和.在實(shí)際視覺詞典構(gòu)造過程中采取有權(quán)值的分層K-means聚類策略,先對(duì)每類訓(xùn)練圖像分別進(jìn)行聚類得到子視覺詞典和為第y類圖像的Laplace譜結(jié)構(gòu)特征聚類中心,為第y類圖像的SIFT局部特征聚類中心,其中ky為第y類訓(xùn)練圖像聚類中心數(shù),y=1,2,…,M,M為圖像類別數(shù).再對(duì)所有類別的圖像子視覺詞典進(jìn)行二次聚類,即
其中:K1和K2分別為訓(xùn)練圖像的Laplace譜特征聚類中心數(shù)目和SIFT局部特征聚類中心數(shù)目,K為訓(xùn)練圖像總的聚類中心數(shù)目,α為聚類的權(quán)值系數(shù),經(jīng)實(shí)驗(yàn)得出K=250,α=0.2時(shí)分類效果最好.
支持向量機(jī)(support vector machine,簡稱SVM)是基于類間最大間距概念的分類器[10],也是較常用且較易實(shí)現(xiàn)的分類器之一.其核心思想是通過尋求最優(yōu)分界超平面,來對(duì)輸入空間中的多個(gè)特征集進(jìn)行劃分.SVM分類器最初只適用于二分類問題,現(xiàn)在在解決多類別高維度分類問題中也逐漸引入該分類器并取得了很好的效果[11-12].其可以描述為下式所示的優(yōu)化問題
約束條件為:yl(w·xl-b)≥1-ξl,ξl≥0,l=1,…,n.其中:ξl為稀疏變量,R為懲罰因子,w為與超平面垂直的向量,yl的值為1或-1,表示數(shù)據(jù)點(diǎn)所屬的類別.文中采用一對(duì)多的LIBSVM[13]分類器進(jìn)行分類實(shí)驗(yàn).
將最終圖像全局特征表示V=(VL,VS)歸一化后,送入分類器進(jìn)行訓(xùn)練與分類,分類過程中采取網(wǎng)格化尋優(yōu)策略,訓(xùn)練分類器的最佳參數(shù).圖3為文中進(jìn)行圖像分類的方法流程框圖.
輸入圖4所示3類房子的模擬圖像,每幅圖像均由32個(gè)特征點(diǎn)構(gòu)成,將3類圖像進(jìn)行仿射變換后各自得到100幅圖像.
根據(jù)分類方法流程框圖,對(duì)3類模擬圖像抽取基于圖像均勻劃分后的Laplace譜結(jié)構(gòu)特征和SIFT特征,結(jié)合BoW模型得到圖像最終表示,將其輸入LIBSVM分類器中進(jìn)行圖像分類(BoW+SIFT+Laplace譜),重復(fù)實(shí)驗(yàn)10次后取平均值(每類圖像隨機(jī)取5幅用于訓(xùn)練,95幅用于測(cè)試),并與文獻(xiàn)[2]方法(BoW+SIFT)以及鄰接譜結(jié)合SVD分解的方法(鄰接譜+SVD)進(jìn)行對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.
表1 3類房子的模擬圖像分類結(jié)果Tab.1 Image classification results of simulation images of three types of houses
為了驗(yàn)證Laplace譜結(jié)構(gòu)特征結(jié)合SIFT局部特征在BoW模型下進(jìn)行圖像分類的可行性與準(zhǔn)確性,從圖像庫ALOI(http://aloi.science.uva.nl/)中選取5類真實(shí)序列圖像進(jìn)行試驗(yàn),它們分別為cmu、hotel、movi、inn和frame,如圖5所示.
在試驗(yàn)過程中,每類真實(shí)序列圖像均選取60幅,每類圖像隨機(jī)取10幅用于訓(xùn)練,50幅用于測(cè)試.根據(jù)分類方法流程框圖,對(duì)每幅圖像提取基于圖像劃分的Laplace譜結(jié)構(gòu)特征和SIFT局部特征,結(jié)合BoW模型得到最終的圖像向量表示,將其輸入LIBSVM分類器中進(jìn)行圖像分類(BoW+SIFT+Laplace譜),重復(fù)實(shí)驗(yàn)10次后取平均值,并與文獻(xiàn)[2]方法(BoW+SIFT)及文獻(xiàn)[14]方法(鄰接譜+NMF)進(jìn)行對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示.
表2 5類真實(shí)序列圖像的分類結(jié)果Tab.2 Image classification results of five types of real sequence images
由表1、2的結(jié)果可以看出,在BoW模型下,結(jié)合Laplace譜結(jié)構(gòu)特征與SIFT局部特征圖像分類的準(zhǔn)確率有較高的提升.僅依賴于圖像局部特征或結(jié)構(gòu)特征的圖像分類方法,因不能同時(shí)更好地描述圖像局部特征和細(xì)節(jié)結(jié)構(gòu)特征,故分類準(zhǔn)確率不夠理想.實(shí)驗(yàn)結(jié)果表明,該文所述的分類方法應(yīng)用于圖像分類具有較高的分類準(zhǔn)確率.
在BoW模型下,作者抽取圖像均勻劃分的Laplace譜結(jié)構(gòu)特征和SIFT局部特征,構(gòu)造圖像信息描述完備的視覺詞典,并結(jié)合簡單的SVM分類器進(jìn)行圖像分類.實(shí)驗(yàn)結(jié)果表明基于圖像均勻劃分的Laplace譜結(jié)構(gòu)特征可以對(duì)圖像的細(xì)節(jié)結(jié)構(gòu)有很好的描述,提升了在BoW模型下進(jìn)行圖像分類的有效性和可行性.同時(shí),實(shí)驗(yàn)結(jié)果還表明,與使用單一圖像特征進(jìn)行圖像分類相比,將兩種合適的圖像特征結(jié)合在一起進(jìn)行分類的準(zhǔn)確率更高.
[1]Lewis D D,Jones K S.Natural language processing and information retrieval[J].Communications of the ACM,1996,39(1):92-101.
[2]Li F F,Perona P.A Bayesian hierarchical model for learning natural scene categories[J].Computer Vision and Pattern Recognition,2005,2:524-531.
[3]Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.
[4]Zhu C,Bichot C E,Chen L.Visual object recognition using DAISY descriptor[C]//IEEE International Conference on Multimedia and Expo,Barcelona,Spain,2011:1-6.
[5]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[J].Computer Vision and Pattern Recognition,2006,2:2169-2178.
[6]Jing Y,Zeng C Q,Tao W,et al.Feature integration analysis of bag-of-features model for image retrieval[J].Neurocomputing,2013,120:355-364.
[7]潘鴻飛.形狀特征描述及聚類算法研究[D].合肥:安徽大學(xué)電子信息工程學(xué)院,2011.
[8]Wang N,Zhang J,Tang J.A spectrum based algorithm for image classification[J].Chinese Journal of Electronic,2009,24(12):427-430.
[9]Hartigan J A,Wong M A.Algorithm AS 136:Ak-means clustering algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.
[10]William S N.What is a support vector machine?[J].Nature Biotechnology,2006,24:1565-1567.
[11]Mathur A,F(xiàn)oody G M.Multiclass and binary SVM classification:implications for training and classification users[J].IEEE Geoscience and Remote Sensing Letters,2008,5(2):241-245.
[12]Kalya ni S,Swarup K S.Classification and assessment of power system security using multiclass SVM[J].IEEE Transactions on Systems,Man,and Cybermetics,2011,41(5):753-758.
[13]Chang C C,Lin C J.LIBSVM:A library for support vector machines[EB/OL].[2012-12-21].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[14]蔣云志,王年.基于遞增權(quán)函數(shù)的鄰接矩陣與非負(fù)矩陣分解的圖像分類方法[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2011,35(5):63-67.