李青彥 彭進業(yè)
摘 要: 有效去除圖像特征中的冗余是圖像分類研究領(lǐng)域的一個重要內(nèi)容。在SPM(Spatial Pyramid Matching)圖像分類算法的基礎(chǔ)上,結(jié)合主成分分析方法(Principal Component Analysis,PCA),提出了一種新的PcSPM算法。該方法能在多種尺度上提取圖像金字塔直方圖主成分,可減少特征冗余,并將其應(yīng)用于圖像分類。實驗表明,該方法能夠有效去除圖像特征中的冗余,提高了圖像分類的精度。
關(guān)鍵詞: 圖像分類; SPM; 特征降維; 主成分分析; 詞袋算法
中圖分類號: TP301.6 ? ? ?文獻標志碼: A
Dimension Reduction Algorithm for Image Classification Based on
Spatial Pyramid Matching Features
LI Qingyan1, PENG Jinye1,2
(1. School of Electronics and Information, Northwestern Ploytechnical University, Xi'an 710072;
2. School of Information and Technology, Northwest University, Xi'an 710127)
Abstract: Effective elimination of redundancy in image features is a major content in the research field of image classification. Based on the Spatial Pyramid Matching (SPM) image classification algorithm, and by integrating with principal component analysis (PCA) method, this paper proposed a new PcSPM algorithm. It is able to extract pyramid histogram principal components of image on multiple levels, and reduce feature redundancy and be applied in image classification. Experiment shows that this method is capable of effectively eliminating redundancy in image features and improving the accuracy of image classification.
Key words: Image classification; SPM; Feature dimensionality reduction; Principal component analysis; Bag of Word (BoW)
0 引言
詞袋算法(Bag of Word, BoW)是近年來圖像分類領(lǐng)域中最為成功的算法。詞袋算法最早應(yīng)用于文本分類。與在文本分類中文本單詞數(shù)目具有上限值不同,圖像特征因其提取方式的多元化,用來表示圖像細節(jié)的特征千差萬別。因此,用于圖像分類的詞袋算法需要對圖像特征進行聚類,以獲得規(guī)模適中、具有代表性的視覺單詞。
在基于BoW的圖像分類研究領(lǐng)域上,應(yīng)用空間金字塔匹配核的詞袋模型[1](Spatial Pyramid Matching,SPM)取得了很大成功。SPM把金字塔匹配[2]的思想應(yīng)用到詞袋模型中,考慮了圖像的空間信息,取得了很好的效果,成為了近些年圖像分類研究領(lǐng)域的一個熱點,大量的學者針對SPM方法進行了研究[3-10]。
圖像處理過程中,特征提取會產(chǎn)生大量的冗余,消耗大量的計算資源。為提高運算性能,學者們開始研究如何降低圖像的冗余特征。文獻[11]提出了PCA-SIFT(Scale-invariant feature transform,SIFT)特征描述子算法,將PCA降維方法運用到SIFT特征提取中,有效降低了圖像的特征維數(shù)。
本文提出了一種PcSPM降維算法,對SPM方法進行了改進,在不降低圖像分類精度的情況下,在圖像空間金字塔不同尺度上運用主成分分析方法,減少圖像特征維數(shù)。經(jīng)過在圖像數(shù)據(jù)集實驗驗證,PcSPM方法有效地減少了圖像特征冗余,提高了分類精度。
2 PcSPM圖像特征降維
為有效降低數(shù)據(jù)維數(shù),同時保證圖像空間信息不受損失,本文提出了PcSPM算法,通過計算不同金字塔尺度上的協(xié)方差矩陣,對相應(yīng)尺度的不同區(qū)域的圖像特征主成分進行提取,然后連接金字塔各尺度中的所有區(qū)域特征,實現(xiàn)了空間金字塔詞袋算法的PCA操作,圖像分類整體過程如圖1所示。
2.1 SPM圖像特征
SPM方法特征提取時選用了DenseSIFT算子,把圖像分割成密度逐步增長的網(wǎng)格,每一個網(wǎng)格形成一個圖像塊,對每一個圖像塊運用BoW算法計算圖像直方圖,然后將所有圖像塊的直方圖加權(quán)并連接起來進行圖像表示。最終的圖像向量h維數(shù)如式(1)。
(1)其中,M是圖像字典的單詞數(shù),L是圖像金字塔尺度。很明顯,圖像維數(shù)的復(fù)雜度為L的指數(shù)階O(4L)。隨著L的增長,運算效率迅速下降。
SPM方法在表達圖像顯著特征的基礎(chǔ)上,考慮了圖像的空間信息,獲得了很好的分類效果。算法復(fù)雜度是L的指數(shù)階,因此仍然損失了部分空間信息。當圖像背景信息對圖像類別有很大影響時,該算法分類性能下降。
2.2 PcSPM圖像特征降維
主成分分析(Principal Component Analysis,PCA)是經(jīng)典的降維算法。主成分分析根據(jù)貢獻率(thresh)來確定圖像主成分數(shù)目n,貢獻率是指選取的特征值的和占所有特征值的和之比。本文提出的PcSPM特征轉(zhuǎn)換算法過程描述如算法1所示。
算法1:PcSPM算法過程
輸入:圖像,金字塔尺度,詞典規(guī)模
輸出:PcSPM圖像特征,圖像分類結(jié)果
1.提取圖像SIFT特征
2.運用Kmeans聚類方法,獲得圖像視覺字典
3.獲取圖像在不同金字塔尺度下的特征直方圖
4.對相同金字塔尺度下得圖像特征直方圖提取主成分,求取圖像金字塔各層主成分的最大維度值
5.將圖像不同金字塔尺度的主成分加權(quán)組合,作為圖像最終的PcSPM特征表達
6.利用支持向量機進行圖像分類,獲取分類結(jié)果
為保證圖像特征維數(shù)相同,PcSPM算法以圖像集子類為單位進行了PCA操作。首先比較貢獻率大于thresh的所有圖像的主成分維數(shù),尋找不同圖像集子類在空間金字塔不同尺度下的最大維。然后將圖像金字塔各層主成分加權(quán)組合,獲得最終的PcSPM圖像轉(zhuǎn)化特征。
PcSPM特征與SPM圖像特征相比,去除了圖像特征中的冗余信息,降低了圖像特征維數(shù),降低了計算機的資源消耗。與視覺單詞直接降維方法相比,PcSPM不減少視覺單詞數(shù)量,以圖像金字塔的各尺度為單位進行降維操作,更多的考慮了圖像的尺度和空間信息。
3 實驗結(jié)果與分析
實驗圖像集采用文獻[1]使用的15類場景圖像庫,該圖像集共15個自然場景圖像子類,每類中大約200-400幅圖像,每幅圖像的尺寸限制在300×240像素。圖像特征提取選用DenseSift特征。每次實驗從子類中隨機選取60%的圖像作為訓練集,其余作為測試集。
實驗選取圖像集中的SPM算法分類精度高于50%的部分子類作為實驗對象。PcSPM實驗固定視覺單詞數(shù)量M為100、200,對金字塔尺度L分別選取2、3進行實驗。為保證實驗結(jié)果的準確,PcSPM每次實驗均重復(fù)10次,取其平均值作為最終結(jié)果。分類器選用了直方圖內(nèi)插核的支持向量機。實驗結(jié)果如表1所示。
當主成分貢獻率thresh選擇100%,算法還原為了SPM圖像特征的初始維度。當主成分貢獻率達到98%以上,向量維度減少到原來的80%左右時,圖像分類精度有了不同程度的提高。當主成分貢獻率達到99%時,向量維度減少到原來的88.8%~92.5%之間,分類精度有了更為明顯的提高。對較高維的圖像特征,本算法在分類精度提升和特征維數(shù)降低方面效果更為顯著。
當L=3,M=200時本算法在分類精度提升和特征維數(shù)降低方面效果更為顯著。與顏色特征[12]、規(guī)范割[13]、PCA-SIFT[11]等算法相比較,選取參數(shù)L=2,M=200,thresh=99%時,PcSPM算法分類精度有明顯提高,如表2所示。時間復(fù)雜度與改造前的算法相比基本沒有差異,如表3所示。圖像集各樣本類降維后的平均維度和分類精度如表4所示。
4 總結(jié)
BoW算法在圖像分類領(lǐng)域取得了很大的成功,尤其是在其基礎(chǔ)之上衍生出來的SPM系列算法取得了很好的分類效果。本文著眼于消除圖像特征冗余,降低圖像維度,提高圖像分類精度等方面的研究,提出了PcSPM算法,將主成分分析方法運用到了空間金字塔的不同尺度特征中。實驗表明,本方法能夠提取出圖像特征主成分,有效降低了圖像特征維度,提高了算法的分類精度。
參考文獻
[1] Lazebnik S, C Schmid, J Ponce. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition,New York, US, June 2006:2169-2178.
[2] Grauman K, T Darrell. The pyramid match kernel: discriminative classification with sets of image features[C]// Tenth IEEE International Conference on Computer Vision, Beijing, China, October, 2005:1458-1465.
[3] Zou Jinyi, Li Chenchen, Du Clian, et al. Scene Classification Using Local and Global Features with Collaborative Representation Fusion[J]. Information Sciences, 2016,348: 209-226.
[4] Peng T, F Li. Image classification algorithm based on hash codes and space pyramid[J]. Journal of Image & Graphics, 2016 IEEE Advanced Information Management, Communicates, Electronic and Automation Control Conference[C]∥Xian, China, October 2016:114-118.
[5] Cho W, K Lam. Image classification without segmentation using a hybrid pyramid kernel[J]. Multimedia Tools and Applications, 2014. 73(3): 1195-1224.
[6] Wang F. Large Scale Image Retrieval with Practical Spatial Weighting for Bag-of-Visual-Words[C]// Advances in Multimedia Modeling, S Li. Berlin: Springer, 2013: 513-523.
[7] Shaban A, H R Rabiee, M Najibi. From Local Similarities to Global Coding: An Application Image Classfication 2003 IEEE Conference on Computer Vision and Pattern Recognition[C]∥San Francisco, Jane 2013:2794-2801. arXiv preprint arXiv:1311.6079, 2013.
[8] Qian-Qian LI,G Cao. Image Classification Based on Laplacian Non-negative Sparse Coding[J]. Computer Engineering, 2013. 39(11): 240-244.
[9] Wang Jinjun, Yang Jianchao, Ynkai, et al. Locality-constrained linear coding for image classification, 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]∥San Francisco, June 2010:3360-3367.
[10] Yang Jianchao, Yu Kai, Gong Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification, 2009 IEEE Computer Socicty Conference on Computer Vision and Pattern Recognition[C]∥MiamiFl VS, June 2009:1794-1801.
[11] Ke Y, R Sukthankar. PCA-SIFT: A more distinctive representation for local image descriptorsm. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]∥Washington, DC, US, June 2004:11506-11513.
[12] 余雄, 張著洪. 基于顏色特征的自適應(yīng)圖像分類算法及其應(yīng)用[J]. 貴州大學學報(自然科學版), 2017(1): 62-65.
[13] 丁鍇,陳偉海,吳星明,等. 基于規(guī)范割的空間金字塔圖像分類算法[J]. 北京航空航天大學學報, 2013. 39(10): 1342-1347.
(收稿日期: 2019.08.15)
作者簡介:李青彥(1982-),男,菏澤人,博士研究生,研究領(lǐng)域:數(shù)字圖像仿真處理。
彭進業(yè)(1964-),男,婁底市人,教授,博士生導師,研究領(lǐng)域:圖像處理與模式識別。文章編號:1007-757X(2020)02-0017-03