蘭 俊 花
(天津大學(xué) 理學(xué)院數(shù)學(xué)系, 天津300072)
用于圖像分類(lèi)在線字典學(xué)習(xí)算法
蘭 俊 花
(天津大學(xué) 理學(xué)院數(shù)學(xué)系, 天津300072)
稀疏編碼在人臉識(shí)別上的成功促使這項(xiàng)技術(shù)應(yīng)用在更廣泛的計(jì)算機(jī)視覺(jué)中.圖像分類(lèi)是圖像檢索的基礎(chǔ),而圖像的識(shí)別是比人臉識(shí)別更復(fù)雜,因?yàn)槭紫葓D像數(shù)據(jù)量更大,其次圖像中要檢索的目標(biāo)數(shù)據(jù)不易得到.為解決這兩個(gè)問(wèn)題,提出了一種新的在線字典學(xué)習(xí)的算法.實(shí)驗(yàn)結(jié)果表明本方法在圖像分類(lèi)上比最近提出的其他字典學(xué)習(xí)的方法效果更好.
稀疏編碼;字典學(xué)習(xí);圖像分類(lèi)
近些年,稀疏編碼和字典學(xué)習(xí)被成功地應(yīng)用在很多的領(lǐng)域,包括圖像去噪[1],圖像超分辨率,面部識(shí)別[2],以及圖像分類(lèi)和識(shí)別[3].這主要是因?yàn)閷儆谕活?lèi)的高維的自然信號(hào)近似地存在于一個(gè)低維的子空間,這樣一個(gè)信號(hào)可以被少量的原子近似的表示,也就是存在一個(gè)過(guò)完備的字典D={d1,d2,…,dk}∈Rm×k(m 經(jīng)典的字典學(xué)習(xí)包含兩個(gè)迭代步驟:稀疏編碼和字典更新.稀疏編碼就是對(duì)于給定的字典找到信號(hào)的線性分解,然后固定稀疏編碼對(duì)字典進(jìn)行更新,這個(gè)過(guò)程不斷迭代直到最合適的字典找到為止.然而,盡管這些方法得到的字典對(duì)原始信號(hào)有很高的精確度,在圖像去噪,圖像填充中有很好的效果,但是這些字典對(duì)于圖像的分類(lèi)卻沒(méi)有很好的效果.因?yàn)檫@些方法的目的是最小化原始信號(hào)的重構(gòu)誤差,所得到的字典沒(méi)有圖像類(lèi)別的判別信息. 為了解決分類(lèi)問(wèn)題,許多監(jiān)督的字典學(xué)習(xí)方法被提出來(lái).最近Zhang等[3]在字典學(xué)習(xí)中將分類(lèi)器的訓(xùn)練添加到目標(biāo)函數(shù)中,獲得了很好的分類(lèi)效果.Pham等[4]首先學(xué)習(xí)一個(gè)字典,然后用稀疏編碼作為特征來(lái)訓(xùn)練一個(gè)分類(lèi)器,比如,SVM. Ramirez等[5]通過(guò)加入了一個(gè)非同類(lèi)表示錯(cuò)誤項(xiàng)學(xué)習(xí)了一個(gè)結(jié)構(gòu)化的字典,然后應(yīng)用重構(gòu)誤差進(jìn)行分類(lèi),但是這樣的分類(lèi)過(guò)程比較復(fù)雜. 受前面方法的啟示,我們也考慮將類(lèi)的標(biāo)簽信息加在字典學(xué)習(xí)的過(guò)程中.直觀上來(lái)說(shuō),像圖像這類(lèi)高維的信號(hào),屬于同一個(gè)類(lèi)中的圖像接近與一個(gè)低維的子空間,這樣,如果找到了每一個(gè)類(lèi)中的具有代表性的較少的幾個(gè)采樣標(biāo)本,聯(lián)合他們成為一個(gè)整體的字典,那么一個(gè)信號(hào)在這個(gè)字典下將有稀疏的表示,同時(shí)所得到的稀疏編碼包含了這個(gè)信號(hào)屬于哪一個(gè)類(lèi)這樣的語(yǔ)義信息.實(shí)驗(yàn)證明,不同類(lèi)的特征通常共享一些相同的信息,所以不同類(lèi)中的字典可能共享一些相似的字典原子,這樣使得依靠重構(gòu)誤差得到的分類(lèi)結(jié)果變差,為了解決這類(lèi)問(wèn)題,本文將不同類(lèi)表示錯(cuò)誤項(xiàng)和分類(lèi)錯(cuò)誤項(xiàng)加到目標(biāo)函數(shù)中,本方法將學(xué)習(xí)一個(gè)鑒別的字典,同時(shí)學(xué)習(xí)到的分類(lèi)器可以使得分類(lèi)更簡(jiǎn)便. 考慮一組輸入信號(hào)Y=[y1,y2,…,yn]∈Rm×n,傳統(tǒng)的字典學(xué)習(xí)即最小化下面的期望重構(gòu)誤差: (1) (2) 許多算法可以得到這個(gè)問(wèn)題的近似解,比如 K-SVD, 然而K-SVD解的是一個(gè)l0范數(shù)限制問(wèn)題,這個(gè)問(wèn)題不是凸的,因此這個(gè)解在理論上是次最優(yōu)的. 最近,作為l0范數(shù)的一個(gè)凸松弛,l1范數(shù)被廣泛的應(yīng)用,因?yàn)閘1范數(shù)比l0范數(shù)穩(wěn)定,所以對(duì)于輸入信號(hào)的一些小地?cái)_動(dòng)不是很敏感,同時(shí)l1范數(shù)求解到的非零系數(shù)集中在訓(xùn)練采樣所在的類(lèi)中,這樣字典學(xué)習(xí)的問(wèn)題可以表示為: (3) 參數(shù)λ控制著重構(gòu)誤差和稀疏編碼的權(quán)重.需要注意的是式(3)中的問(wèn)題對(duì)于D和X不是凸的,但對(duì)于D和X中的任意一個(gè)是穩(wěn)定時(shí),同時(shí)這個(gè)問(wèn)題是一個(gè)凸問(wèn)題. 當(dāng)D固定時(shí)這個(gè)問(wèn)題叫做稀疏編碼.每個(gè)信號(hào)yi期望用少量的幾個(gè)原子字典進(jìn)行稀疏表示,這個(gè)問(wèn)題是一個(gè)l1正則化最小二乘問(wèn)題,許多方法可以用來(lái)解決此問(wèn)題,比如:內(nèi)點(diǎn)法,同倫法,LARS,Lee等[3]提出了feature-signsearch算法對(duì)于解決此問(wèn)題有更好的效. 當(dāng)穩(wěn)定時(shí),這個(gè)問(wèn)題叫做字典學(xué)習(xí),這是一個(gè) l2限制的最小二乘問(wèn)題,用Marial等[6]block-coordinatedescent方法來(lái)求解. 稀疏編碼作為一個(gè)特征用來(lái)學(xué)習(xí)一個(gè)分類(lèi)器被廣泛的應(yīng)用.對(duì)于分類(lèi)器一個(gè)簡(jiǎn)單的形式可以定義為: (4) 2.1 固定D和W求解稀疏編碼X 令Y=[y1,y2,…,yc]∈Rm×n是輸入信號(hào),X=[x1,x2,…xc]為輸入信號(hào)經(jīng)過(guò)字典后的的稀疏表示 λ‖xi‖1 (5) 這是一個(gè)經(jīng)典的lasso模型,這里我們使用feature-sign search 算法來(lái)解決此問(wèn)題. 2.2 固定X, 更新D和W 為了加強(qiáng)字典的鑒別作用,使得得到的稀疏編碼更簡(jiǎn)單,同時(shí)更新D和W, 這個(gè)問(wèn)題可以表示為: (6) (7) 我們應(yīng)用用Marial等[11]block-coordinate descent方法來(lái)求解. 2.3 初始化參數(shù)D0,W0 對(duì)于D0我們采用高斯隨機(jī)矩陣(Gaussian random matrix),對(duì)于W0我們采用多變量回歸模型(multivariate ridge regression) (8) W的解為: W=HXT(XXT+αI)-1 (9) (10) 對(duì)于一個(gè)新的檢測(cè)信號(hào),我們首先通過(guò)下面的等式得到它的稀疏編碼: (11) 然后x的類(lèi)可以通過(guò): (12) 獲得.這里的l∈Rc是類(lèi)標(biāo)簽向量. 本文在兩個(gè)公共數(shù)據(jù)庫(kù)上檢測(cè)這個(gè)方法(Extended YaleB database[7],MNIST[8]),同時(shí)和一些監(jiān)督的學(xué)習(xí)方法(D-KSVD[9],LC-KSVD[10],LLC[11])以及一些基準(zhǔn)算法(K-SVD[1]和SRC[2]進(jìn)行比較. 3.1 Extend YaleB database上的實(shí)驗(yàn) 我們?nèi)×?個(gè)不同的字典個(gè)數(shù),即對(duì)于每一類(lèi)字典原子的個(gè)數(shù)k=5,10,15,20.實(shí)驗(yàn)的結(jié)果顯示在表1中.從表1中可以看出本文的新方法比其他的方法有更高的識(shí)別準(zhǔn)確度.當(dāng)每個(gè)類(lèi)中有20個(gè)字典時(shí),SRC的最好的識(shí)別率是88.8%,而我們的方法在每個(gè)類(lèi)中字典個(gè)數(shù)是5時(shí)就超過(guò)了SRC方法.這意味這我們的方法得到了一個(gè)簡(jiǎn)潔的合適的字典.當(dāng)k=15時(shí),識(shí)別率達(dá)到95.6%,但當(dāng)k=20時(shí),識(shí)別率下降到94.9%,這可能是因?yàn)橛?xùn)練集個(gè)數(shù)過(guò)小而產(chǎn)生的過(guò)完備效應(yīng).K-SVD算法當(dāng)k=20時(shí)識(shí)別率明顯下降,這也說(shuō)明了l0范數(shù)處理問(wèn)題的不穩(wěn)定性. 表1 Extend YaleB database上人臉識(shí)別 3.2 對(duì)于數(shù)字的識(shí)別 本文應(yīng)用MNIST[8]數(shù)據(jù)集作為手寫(xiě)字體識(shí)別.它包含了70 000個(gè)手寫(xiě)字,其中60 000個(gè)作為訓(xùn)練集,10 000作為檢測(cè)集每個(gè)數(shù)字被正則化和中心化為一個(gè)2828的圖片,我們僅僅顯示4,7,9這三個(gè)容易混淆的數(shù)字.實(shí)驗(yàn)結(jié)果顯示在表2中(實(shí)驗(yàn)中每類(lèi)中字典原子的個(gè)數(shù)選為15),實(shí)驗(yàn)結(jié)果顯示我們的算法得到很好的結(jié)果. 表2 對(duì)數(shù)字識(shí)別 對(duì)于圖像的分類(lèi),本文提出了一個(gè)在線鑒別字典學(xué)習(xí)的方法.通過(guò)實(shí)驗(yàn)顯示了范數(shù)在處理稀疏編碼問(wèn)題中比范數(shù)更精確,同時(shí)實(shí)驗(yàn)表明在線字典學(xué)習(xí)使用更少的內(nèi)存和時(shí)間,字典和分類(lèi)器同時(shí)學(xué)習(xí)得到更好的分類(lèi)效果.我們將來(lái)的工作包括研究核字典學(xué)習(xí)和核稀疏編碼,從而對(duì)大數(shù)據(jù)有更好的分類(lèi)效果. [1] AHARON M, ELAD M, BRUCKSTEIN A,etal. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Trans. Signal Processing, 2006, 54(11): 4311-4322. [2] WRIGHT J, YANG A, GANESH A,etal. Robust Face Recognition via Sparse Representation [J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 2009, 31: 210-227. [3] JIANG Z, LIN Z, DAVIS L. Label Consistent K-SVD: Learning a discriminative dictionary for recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35: 2651-2664. [4] PHAM D S, VENKATESH S. Joint learning and dictionary construction for pattern recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2008. [5] RAMIREZ I, SPRECHMANN P, SAPIRO G. Classification and clustering via dictionary learning with structured incoherence and shared features[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2010. [6] MARIAL J, BACH F, PONCE J,etal. Online learning for matrix factorization and sparse coding [J]. Journal of Machine learning Research, 2010, 11: 19-60. [7] LECUN Y, BOTTOU L, BENGIO Y. Gradient-based learning applied to document recognition [J]. Proceedings of IEEE, 1998, 86: 2278-2324. [8] GEORGHIADES A, BELHUMEUR P, KRIEGMAN D. From few to many:Illumination cone models for face recognition under variable lighting and pose [J]. IEEE Trans. Pattern Anal. Mach. Intelligence, 2001, 33: 643-666. [9] ZHANG Q, LI B. Discriminative k-svd for dictionary learning in face recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2010. [10] JIANG Z, LIN Z, DAVIS L. Label Consistent K-SVD: Learning a discriminative dictionary for recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35: 2651-2664. [11] WANG J, YANG J, YU K,etal. Locality-constrained linear coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2010, 3360-3367. Online dictionary learning algorithm for image classification LAN Jun-hua (Department of Mathematics, School of Science, Tianjin University, Tianjin 300072, China) The success application of sparse coding in face recognition makes this technology used to a variety of problems in computer vision. Image classification is the basis of image retrieval, but image recognition is more complex than face images.In order to solve these two problems, this paper proposed a new online dictionary learning algorithm. The experimental results showed that the method was better than other dictionary learning method in image classification. sparse coding, dictionary learning, image classification 2014-08-11. 蘭俊花(1989-),女,碩士,研究方向:圖像處理. TP391 A 1672-0946(2015)05-0637-041 字典學(xué)習(xí)的介紹
2 算法實(shí)現(xiàn)的過(guò)程
3 實(shí) 驗(yàn)
4 結(jié) 語(yǔ)