王博
摘 要: 為了在計算機視覺任務中構造有意義的圖像表示,提出一種基于概率密度函數(shù)(p.d.f)梯度方向直方圖特征的分層稀疏表示方法用于圖像分類。傳統(tǒng)分層稀疏表示方法利用SIFT描述子或者直接從圖像塊學習圖像表示,通常不具有較強判別性。該文利用具有通用性的p.d.f特征進行分層學習并使用空間金字塔最大池化方式構造圖像級稀疏表示。實驗結果證明了所提算法的魯棒性和有效性,在UIUC?Sports,Oxford Flowers,Scene15三類數(shù)據(jù)集上分別達到87.3%,86.6%,84.1%的分類準確率。
關鍵詞: 圖像分類; 分層稀疏表示; 空間金字塔最大池化; 圖像表示
中圖分類號: TN911.73?34; TP391.4 文獻標識碼: A 文章編號: 1004?373X(2017)10?0095?04
Abstract: In order to construct the meaningful image representation in computer vision task, a novel hierarchical sparse representation method based on oriented histogram feature of probability density function (p.d.f) gradients is proposed for image classification. The traditional hierarchical sparse representation method which learns the image representation with SIFT descriptor or learn it directly from image block has poor discrimination. A universal p.d.f feature is employed for hierarchical learning, and the spatial pyramid max pooling method is used to construct the image?level sparse representation. The experimental results show that the algorithm has robustness and availability, and the classification accuracy for classifying the datasets of UIUC?Sports, Oxford Flowers and Scene 15 can reach up to 87.3%, 86.6% and 84.1% respectively.
Keywords: image classification; hierarchical sparse representation; spatial pyramid max pooling; image representation
0 引 言
圖像分類作為計算機視覺中的基本任務被廣泛應用于圖像檢索、網(wǎng)絡圖像搜索、智能交通系統(tǒng)和生物工程系統(tǒng)等領域中。其中,獲取有效的圖像表示則是影響分類性能的關鍵因素[1]。而分層模型已經逐漸成為可靠的方法用于提取具有判別力的圖像表示[2?4]。在分層模型中,圖像表示是逐層進行構造的。傳統(tǒng)的算法中采用局部圖像塊或者SIFT描述子進行分層稀疏編碼[5?6],然而所獲得的圖像表示并不具有較強的判別力,這種局限性直接影響了該模型在多類測試數(shù)據(jù)集上的性能。
文獻[7]提出了一種全新的方式提取用于分類的圖像特征。該方法源于特征袋(Bag of Features,BOF)模型,即首先需要從圖像中提取大量的局部描述子;然后將核密度估計用于這些已經獲取的局部描述子,從而獲得相應的概率密度函數(shù);最后,概率密度函數(shù)的梯度方向被編碼并同時整合為直方圖。從幾何觀點角度出發(fā),這可以對概率密度函數(shù)的形狀分布進行有效的表征。值得注意的是利用這種方法獲得的圖像特征具有通用性,可以廣泛應用到眾多目標和場景類測試數(shù)據(jù)集中。
另一方面,分層學習(Hierarchical Learning)可以讓一個由多處理層組成的計算模型通過多個抽象層的學習而獲得有意義的數(shù)據(jù)表示。這個模型通常是由多層非線性的信息處理過程構成的,圖像表示的學習過程逐漸地向更抽象的階段發(fā)展[8]。這種更為高效且直接的分層構造方法,能夠使得所有來自輸入圖像的p.d.f特征可以進行獨立的稀疏編碼。在獲得最終的圖像表示前,模型中總是需要加入一個十分重要的特征池化步驟。這一關鍵步驟令特征的編碼階段和分類器緊密聯(lián)系在一起,且已經變成了圖像分類任務中不可或缺的部分[9]。依照文獻[10]對特征池化在視覺識別中的理論分析,池化階段主要具備以下三種作用:首先,對于圖像的形變可以保持一定的不變性;其次,可以獲取更為緊密的圖像表示;另外,對于干擾和噪聲還具有更優(yōu)的魯棒性。其中,空間金字塔最大池化操作被應用于許多計算機視覺任務中。
本文提出一種基于p.d.f特征的分層稀疏表示方法。在每一訓練層中均利用K?SVD進行字典學習,而在稀疏編碼階段使用高效的正交匹配追蹤(OMP)方案。每層稀疏編碼階段后分別利用最大池化和空間金字塔最大池化算法進行生成更緊密的圖像表示。同時,引入局部對比度歸一化作為下一層輸入數(shù)據(jù)的預處理方案,這一步驟可以使得圖像的不同區(qū)域對于光照變化具有不變性。最后,利用非線性的支持向量機(Non?linear SVM)完成分類任務并獲取各測試數(shù)據(jù)集的分類準確率。該圖像分類模型如圖1所示。
1 分層稀疏表示模型
1.1 分層稀疏編碼流程
在計算機視覺與機器學習任務中,利用具有更強判別力的圖像特征取代傳統(tǒng)SIFT描述子的方案受到了越來越多的關注。在分層學習結構里,考慮到需要使用極為高效的編碼器,因此通常借助以OMP為代表的貪婪訓練方式以生成圖像的稀疏表示。分層稀疏編碼主要包含以下四個步驟。假定在提取p.d.f圖像特征時統(tǒng)一采取256個視覺單詞中心的方案,那么分層稀疏編碼流程圖如圖2所示。
(1) 第一層稀疏編碼時,通過K?SVD方法可以獲得含有[D1]個原子的字典。然后利用OMP算法得到了形如[32×64×D1]的稀疏表示。
(2) 在鄰近的[s×s]稀疏表示中,利用最大池化策略,然后生成了形如[(32s)×(64s)×D1]的池化表示。
(3) 在所有[D1]個特征圖上,利用[j×j]尺寸的感受野,其間隔設定為1。通過OMP算法得到了形如[[(32s)-j+1]×[(64s)-j+1]×D2]的圖像表示。
(4) 最后利用空間金字塔最大池化方法得到最終的稀疏圖像表示。
1.2 K?SVD字典學習與BOMP編碼器
2 實驗結果與分析
本文將使用全尺寸自然圖像分類數(shù)據(jù)集作為標準,驗證以上所提算法的性能。其中包括目標數(shù)據(jù)集Oxford Flowers,事件數(shù)據(jù)集UIUC?sports和場景數(shù)據(jù)集Scene 15。在實驗中發(fā)現(xiàn),如果僅針對單層網(wǎng)絡進行學習,圖像分類性能沒有顯著提升。但進行三層訓練,計算開銷十分龐大,同時分類性能無明顯提高。所以,本文最終利用訓練雙層網(wǎng)絡的學習方案獲取有意義的圖像表示。其中的空間金字塔池化子區(qū)域分別設置為[1×1,2×2,4×4。]實驗平臺配置包括:Intel i5 CPU 3.1 GHz,Windows 7,64位操作系統(tǒng)及Matlab 2010b進行仿真實驗。
2.1 測試數(shù)據(jù)集
UIUC?Sports被視為一類典型的事件數(shù)據(jù)集。該測試集由8類不同運動項目組成。例如:馬球、室外地滾球、單板滑雪、攀巖等項目。每個類別中包含137~250幅圖像,所有圖像數(shù)目總計為1 579幅。由于該數(shù)據(jù)集圖像帶有相對復雜的背景,且每類圖像所包含內容變化較大,所以利用該數(shù)據(jù)集進行測試具有一定的挑戰(zhàn)性。為了確保公正的測試條件,按照常規(guī)實驗設定,本文將隨機從每個類中抽取70幅用于訓練,而60幅用作測試圖像。
Oxford Flowers數(shù)據(jù)集包括1 360幅花卉圖像,共計17個不同花卉種類,每個類別中均有80幅圖像。由于類內差異比較明顯,且同時存在類間相似度極高的情況,所以該測試數(shù)據(jù)集具有較大的挑戰(zhàn)性。為了進行公正的評價,本文將與此前的實驗保持一致,即隨機抽取60幅訓練圖像,剩下的圖像將用于測試。
Scene 15是一類常見的場景圖像數(shù)據(jù)集。Oliva等人早期建立該數(shù)據(jù)集時,僅包含8個不同類別。Li和Lazebnik等人后期分別添加了5個和2個類別,因此現(xiàn)在的Scene 15總共含有15類,共計4 485幅場景圖像。其中包含室外和室內場景,且每個類別都含有200~400幅
圖像,平均尺寸約為[250×300]像素。例如:用于室外場景識別的海岸和森林類,用于室內場景識別的臥室與廚房類。
2.2 實驗結果分析
首先,針對三類不同測試數(shù)據(jù)集,實驗將固定第二訓練層中的字典原子數(shù)目為1 600,并逐步增加第一訓練層中的字典原子數(shù),同時將編碼稀疏度設定為4。然后,通過選擇第一階段中的最優(yōu)原子數(shù),并將其固定為512,按照固定間隔增加第二層字典的原子數(shù),同時將編碼稀疏度設定為10。兩層訓練中的K?SVD迭代次數(shù)分別設置為50和20。實驗結果表明,在第一組測試中,當字典原子數(shù)目大于特征維度時,分類準確率呈逐漸增加的趨勢且在設置為512時達到最大值,即相應的字典原子數(shù)兩倍于特征維度;第二組測試中,在固定第一層字典大小的基礎上,逐步增大第二層字典的大小并觀察分類準確率呈增加的趨勢。當原子數(shù)目設定為1 600時,在三類數(shù)據(jù)集上均達到了最佳分類性能。兩部分實驗的變化曲線分別如圖4和圖5所示。
為了證明本文算法的有效性,將針對同一測試數(shù)據(jù)集,采用與其他先進算法的性能進行對比的方案,其對比結果分別如表1~表3所示。
其中,Visual Concepts是基于視覺概念學習的中層特征表示方法,LSCSPM是一種拉普拉斯稀疏編碼,HMP是一種典型的分層稀疏編碼方式,DPD則將判別式部件檢測的方法用于圖像分類。所提算法在分類性能上分別超越以上算法,達到2.5%,2%,1.6%和0.9%。
HSSL是一種基于稀疏性、局部性和顯著性學習的分層圖像表示算法。WSCSPM是基于區(qū)域顯著性檢測的目標分類算法?;诒疚乃惴ǖ姆诸愋阅艽蠓I先這兩類先進算法分別達到10.4%和9.8%。
HSPMP與本文算法相似,但是圖像表示是基于SIFT描述子獲得的,因而在判別力方面會受到一定程度的影響。SV也是一種分層特征學習方法,基于軟投票的方式進行編碼。WCS?LTP基于加權中心對稱局部三元模式,是一種十分有效的局部描述子。本文算法在分類準確率上均超越先進的對比方法。
3 結 語
本文提出一種基于p.d.f特征的分層稀疏表示算法,并將其應用于三類不同的圖像分類測試數(shù)據(jù)集中。由于p.d.f特征具有較強的通用性和判別力,而分層學習模型可以獲取更為高級的抽象特征,實驗結果證明了所提算法性能在事件、目標及場景類數(shù)據(jù)集上均超越了先進的對比算法。同時,針對分層稀疏表示中的K?SVD字典學習過程,實驗部分證明了當字典原子數(shù)目增加時,分類性能將得到顯著提高。而第一層字典原子數(shù)目兩倍于特征維度時,將獲得最優(yōu)的分類準確率。下一步的研究工作將聚焦于大規(guī)模測試數(shù)據(jù)集上,利用分層學習模型高效地獲取具有判別力的圖像表示。
參考文獻
[1] BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798?1828.
[2] YU K, LIN Y, LAFFERTY J. Learning image representations from the pixel level via hierarchical sparse coding [C]// Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2011: 1713?1720.
[3] BO L, REN X, FOX D. Hierarchical matching pursuit for image classification: architecture and fast algorithms [C]// Proceedings of 2012 IEEE Conference on Advances in Neural Information Processing Systems. Granada, Spain: NIPS Foundation, 2012: 2115?2123.
[4] TEDMORI S, AI?NAJDAWI N. Hierarchical stochastic fast search motion estimation algorithm [J]. IET computer vision, 2012, 6(1): 21?28.
[5] HAN H, HAN Q, LI X, et al. Hierarchical spatial pyramid max pooling based on SIFT features and sparse coding for image classification [J]. IET computer vision, 2013, 7(2): 144?150.
[6] LIU B Y, LIU J, BAI X, et al. Regularized hierarchical feature learning with non?negative sparsity and selectivity for image classification [C]// Proceedings of 2014 IEEE International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 4293?4298.
[7] KOBAYASHI T. BFO meets HOG: feature extraction based on histograms of oriented p.d.f. gradients for image classification [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 947?954.
[8] DENG L, YU D. Deep learning: methods and applications [M]. Hanover, MA: Now Publishers, 2014.
[9] XIE L, TIAN Q, ZHANG B. Simple techniques make sense: feature pooling and normalization for image classification [J]. IEEE transactions on circuits & systems for video technology, 2015, 26(7): 1251?1264.
[10] BOUREAU Y, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of 2010 the 27th International Conference on Machine Learning. Haifa, Israel: IMLS, 2010: 111?118.
(上接第98頁)
[11] LI Q, WU J, TU Z. Harvesting mid?level visual concepts from large?scale internet images [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 851?858.
[12] GAO S H, TSANG I W H, CHIA L T. Laplacian sparse coding, hypergraph Laplacian sparse coding, and applications [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 92?104.
[13] SUN J, PONCE J. Learning discriminative part detectors for image classification and cosegmentation [C]// Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 3400?3407.
[14] YANG J M, YANG M H. Learning hierarchical image representation with sparsity, saliency and locality [C]// Proceedings of 2011 British Machine Vision Conference. Dundee, UK: BMVA, 2011: 1901?1911.
[15] REN Z X, GAO S H, CHIA L T, et al. Region?based saliency detection and its application in object recognition [J]. IEEE transactions on circuits & systems for video technology, 2014, 24(5): 769?779.
[16] LIU J Y, HUANG Y Z, WANG L, et al. Hierarchical feature coding for image classification [J]. Neurocomputing, 2014, 144(1): 509?515.
[17] HUANG M, MU Z, ZENG H. Efficient image classification via sparse coding spatial pyramid matching representation of SIFT?WCS?LTP feature [J]. IET computer vision, 2016, 10(1): 64?67.