陳浩
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
信號(hào)的稀疏表示在最近幾年引起了廣泛的興趣,并在許多應(yīng)用中顯示出強(qiáng)大的特性,特別是在壓縮和去燥方面。通過觀察可以發(fā)現(xiàn),大多數(shù)的自然信號(hào)可以適當(dāng)?shù)南∈璞硎?。稀疏信?hào)表示的應(yīng)用可以在諸如圖像去噪[1]、恢復(fù)[2]、視覺跟蹤[3],檢測(cè)[4]和分類[5]。Wright等人[6]通過研究提出了一種基于稀疏表示的分類方法(Sparse Representation Classification)。其基本思想是將測(cè)試樣本的稀疏表示作為所有訓(xùn)練樣本(超完備字典)的(稀疏)線性組合學(xué)習(xí),其中產(chǎn)生最低重構(gòu)誤差的類的特定字典決定了測(cè)試樣本的類標(biāo)簽。SRC也積極應(yīng)用于各種分類問題,包括車輛分類、多模態(tài)生物特征、數(shù)字識(shí)別、語音識(shí)別、高光譜圖像分類。
稀疏表示最稀疏的解決方案可以通過利用L0范數(shù)最小化來解決,已經(jīng)證明L0范數(shù)最小化問題是解決線性優(yōu)化問題,也是NP難問題。然而,文獻(xiàn)[7]已經(jīng)證明獲得的解決方案由L0范數(shù)最小化可以等價(jià)于求解L1范數(shù)的最小化。SRC在人臉識(shí)別和魯棒性方面表現(xiàn)非常好,雖然SRC已經(jīng)極大地影響人臉識(shí)別領(lǐng)域并且被廣泛地使用和研究,但還有一些未解決的問題。例如,它不能完美地解決人臉姿態(tài)變化、照明條件和面部表情等因素的影響。而且SRC算法通常是迭代求解最小化問題,因此耗時(shí)很長。目前已經(jīng)有人提出很多方法改進(jìn)SRC算法來獲得更好的性能。例如,鄧等人[8]提出了一個(gè)擴(kuò)展的SRC,該方案是應(yīng)用了一個(gè)內(nèi)部變體字典來表示訓(xùn)練樣本和測(cè)試樣本之間的差異。He等人[9]提出了一個(gè)兩階段測(cè)試樣本稀疏表示方法來提高數(shù)據(jù)集的健壯性和算法的效率。所有的這些方法仍然忽略了一個(gè)非常重要的事實(shí),那就是訓(xùn)練樣本仍不能精確地表示測(cè)試樣本且噪聲不能直接丟棄。傳統(tǒng)的SRC方法都是假設(shè)每個(gè)測(cè)試樣本可以用訓(xùn)練樣本線性地表示。這個(gè)假設(shè)很難避免噪聲問題,并且在樣本的個(gè)數(shù)大于訓(xùn)練樣本個(gè)數(shù)時(shí),不能精確地表示測(cè)試樣本。
基于上述描述,我們提出利用局部線性編碼的方法和在迭代降噪處理的過程中考慮類依賴的特性,構(gòu)建一個(gè)能夠揭示數(shù)據(jù)局部結(jié)構(gòu)和樣本之間類依賴關(guān)系的方法,來提升在噪聲條件下SRC的分類效果。我們的假設(shè)是通過選擇訓(xùn)練樣本的子集作為局部字典,并用其線性表示測(cè)試樣本,能夠很好地提高SRC算法的時(shí)間復(fù)雜度,也有過濾部分噪聲的效果。
假設(shè)有n個(gè)訓(xùn)練樣本,用向量的形式表示為X=[x1,x2,x3,…,xn],其中總共有C類,每個(gè)類別有m個(gè)樣本。所有的測(cè)試樣本用y表示,在操作之前應(yīng)該將所有樣本歸一化為長度為1的單位列向量。
當(dāng)談到基于L1范數(shù)優(yōu)化的表示分類方法時(shí),稀疏表示(SRC)是最具有代表性的方法。它是使用訓(xùn)練樣本確定一個(gè)線性組合來表示測(cè)試樣本y。因此,SRC可以大致用下面的式子來表示:
其中y是歸一化之后的測(cè)試樣本,xi的系數(shù)表示為ai(i=1,2,…,n)。為了便于描述我們可以按下列的方式重寫(1)式。
可以使用L1范數(shù)來求解α的最小化問題:
或者:
或者:
我們利用拉格朗日算法來求解式(5),其中α是訓(xùn)練樣本矩陣X的系數(shù)。λ作為拉格朗日乘子。ξ是一個(gè)小的實(shí)數(shù)。
據(jù)研究所知,式(2)不能準(zhǔn)確地表示真實(shí)情況下訓(xùn)練樣本和測(cè)試樣本之間的關(guān)系,我們可以確定的是來自任何主體的臉部圖像都有不可預(yù)知的組成部分和表示噪聲。這里迭代處理NMFIRC的主要原理是:迭代計(jì)算線性組合系數(shù)的表示解和表示噪聲,直到它收斂,然后利用確定的“最優(yōu)”表示解決方案來分類。對(duì)于(1)式中的si可以表示噪聲,也可以用下面的式子表示:
其中si表示噪聲向量,同樣地可以用基于L1范數(shù)的優(yōu)化問題來求解α。如下所示:
這里假設(shè)樣本數(shù)據(jù)已經(jīng)做了歸一化處理,D表示處理之后的數(shù)據(jù)。首先設(shè)y′=y-si我們可以通過如下式子來求解α的值:
該式子等價(jià)于求解:
并計(jì)算然后設(shè)則目標(biāo)函數(shù)可以表示為:
同樣地,我們可以通過以下式子求解:
反復(fù)執(zhí)行(8)(10)兩步更新si,直到最大迭代次數(shù)為止。
本節(jié)將詳細(xì)的講解我們所提出的方法,不管是基于L1范數(shù)的稀疏表示分類算法(SRC)或者是基于L2范數(shù)的協(xié)作表示(CRC),這些方法都是假設(shè)每個(gè)測(cè)試樣本可以由訓(xùn)練樣本線性表示,不過這個(gè)假設(shè)忽略了一個(gè)非常重要的事實(shí),那就是測(cè)試樣本依然不能用訓(xùn)練樣本精確的表示,例如噪聲不能直接被丟棄。因此,我們提出的假設(shè)是在選擇字典集時(shí)來表示測(cè)試樣本時(shí),是否可以有選擇的丟棄部分噪聲數(shù)據(jù),以達(dá)到更精確地線性表示組合。同時(shí),傳統(tǒng)的SRC的一個(gè)限制是它不包含數(shù)據(jù)集的類標(biāo)簽(先前)信息。它只使用類標(biāo)簽信息在計(jì)算每個(gè)類的殘差時(shí)進(jìn)行后處理,卻忽略了類之間歐幾里得距離的相關(guān)性。我們提出類依賴的KNN方法,將獲得的距離信息和傳統(tǒng)的分類信息統(tǒng)一起來,以達(dá)到更好的分類效果。
由LCC[10]可得,局部特征比稀疏性更為重要,局部必然會(huì)導(dǎo)致稀疏性,反之亦然。我們提出的方法通過選擇局部約束來達(dá)到更好的稀疏性。在流形學(xué)習(xí)中,局部線性被用來捕捉局部的幾何結(jié)構(gòu)。例如,局部線性嵌入(LLE),使用局部鄰居線性重建每個(gè)數(shù)據(jù),目的是捕捉自然的局部結(jié)構(gòu)。我們首先在原始的訓(xùn)練樣本中選擇它的K個(gè)最近鄰樣本,作為子集字典。解決以下式子來求解最優(yōu)化問題:
其中樣本xi的K最近鄰居表示為:
λ>0是平衡因子,通過循環(huán)迭代(8)(10)(11)式子以達(dá)到最優(yōu)化的稀疏向量表,即為數(shù)據(jù)對(duì)象xi的最佳稀疏重構(gòu)系數(shù)。該系數(shù)表示為:
我們可以通過圖1更直觀地表示。
SRC分類算法主要是通過比較每類的殘差來確定測(cè)試樣本的類別,沒有考慮樣本的空間距離信息,在各種各樣的文獻(xiàn)中,例如SOMAP,局部線性嵌入,局部保留投影(LPP)和局部Fisher判別分析(LFDA),都是考慮了樣本之間的局部結(jié)構(gòu)信息。研究表明,LFDA提供了一個(gè)很好的方法將數(shù)據(jù)投影到較低維的子空間。使得來自不同類的樣本被很好地分離,另外LFDA通過保留每各類的局部結(jié)構(gòu)得到有效的組合實(shí)現(xiàn)了線性判別分析和LPP的性質(zhì)。受到這些啟發(fā),我們引入cd?KNN來捕獲樣本之間的局部結(jié)構(gòu),通過融合殘差信息和樣本之間的歐幾里得距離信息達(dá)到更優(yōu)的分類效果。
假設(shè)訓(xùn)練數(shù)據(jù)集用表示,每個(gè)類別中的數(shù)據(jù)用表示,測(cè)試樣本為y∈Rd,則整個(gè)流程如下:
第一步:對(duì)所有的訓(xùn)練樣本和測(cè)試樣本使用PCA方法,得到P∈Rd×p的投影矩陣,并通過計(jì)算D=PTX得到p維的數(shù)據(jù)集用D表示。
第二步:在降維后的數(shù)據(jù)集D之上選擇局部線性編碼樣本。主要是通過KNN算法選擇與測(cè)試樣本相近的K個(gè)樣本作為局部字典集。用XN(xi)表示。
第三步:對(duì)選擇的局部訓(xùn)練樣本和測(cè)試樣本用如下方法進(jìn)行歸一化,XN(xij)=XN(xij)/||XN(xij)||和y=y/||y||,并且用si=[0,0,....,0]T表示初始噪聲。
第四步:反復(fù)執(zhí)行式子(9)(10)(11)直到最大迭代次數(shù)q為止,更新和的值。
第五步:計(jì)算每個(gè)類別的殘差,使用如下式子,即第i類的殘差:
其中XN(xij)是第i類,第j個(gè)訓(xùn)練樣本。第i類的樣本個(gè)數(shù)為第二步選擇的k個(gè)最近鄰居,則是預(yù)先計(jì)算得到的最佳稀疏系數(shù)。
第六步:計(jì)算測(cè)試樣本y和第二步求得的樣本字典集中每個(gè)樣本XN(xij)的歐幾里得距離,即dij=D(y,XN(xij))。并求其平均距離作為第i類的距離。
第七步:求得以下式子即為測(cè)試樣本y的類別標(biāo)簽。
圖1 即為提出的局部線性編碼的整個(gè)流程
在圖像識(shí)別領(lǐng)域,最常用的數(shù)據(jù)集有三個(gè),分別是ORL人臉數(shù)據(jù)庫、PIE數(shù)據(jù)庫和AR數(shù)據(jù)庫。實(shí)驗(yàn)中使用這三種人臉數(shù)據(jù)來驗(yàn)證我們的想法。其中ORL數(shù)據(jù)庫包含40個(gè)類別,每類10個(gè)樣本的圖像。每幅圖像的面部表情和外部特種都各部相同。實(shí)驗(yàn)數(shù)據(jù)是從每類中選擇5幅圖像作為訓(xùn)練數(shù)據(jù),共200幅,其他圖像作為測(cè)試數(shù)據(jù)。AR圖像數(shù)據(jù)主要在臉部表情上存在較大的變化,實(shí)驗(yàn)中,選擇了20個(gè)類別,每類10幅圖像,其中選擇每類5幅作為訓(xùn)練數(shù)據(jù),5幅作為測(cè)試數(shù)據(jù)。PIE數(shù)據(jù)集的特點(diǎn)是每個(gè)人采集時(shí)的光照、表情和姿態(tài)都不一樣,同樣是選擇其中20個(gè)類別,每個(gè)類別21幅。實(shí)驗(yàn)中每類選取17張作為訓(xùn)練數(shù)據(jù),4張作為測(cè)試數(shù)據(jù)。
我們的算法主要是通過利用局部線性編碼的方式過濾掉部分噪音數(shù)據(jù)和融合具有類依賴特性的空間距離信息來提高分類精度。因此,實(shí)驗(yàn)中,分別驗(yàn)證這兩種方法對(duì)SRC分類效果的影響,并且最終與我們的算法效果作對(duì)比來驗(yàn)證我們提出方法的有效性。表1顯示的是不同算法在三種數(shù)據(jù)集上的最優(yōu)識(shí)別率。其中cdSRC算法的參數(shù)包括融合稀疏(p)即最優(yōu)權(quán)重,LLC+SRC方法是選擇合適的局部字典集,參數(shù)為選擇字典集的個(gè)數(shù)(K),而我們的算法(cdLLCSRC)是包括的參數(shù)有:選擇局部編碼集的個(gè)數(shù)(K),融合空間距離信息的參數(shù)(p),和降噪過程中的迭代次數(shù)(t)。
表1 幾種算法最優(yōu)識(shí)別率比較(%)
從實(shí)驗(yàn)結(jié)果中可以看出:(1)在三種數(shù)據(jù)集上我們的算法和基本的SRC算法、有類依賴特性的SRC算法(cdSRC)、從LLC算法借鑒過來的LLCSRC算法相比較,都取得了更好的分類結(jié)果。(2)其中類依賴的SRC(cdSRC)算法在特定的條件下相比SRC算法有優(yōu)異的結(jié)果;而根據(jù)LLE算法思想改進(jìn)的SRC算法比SRC算法也有很好的表現(xiàn)。通過對(duì)比發(fā)現(xiàn),我們的算法分類效果優(yōu)異且得到了很大的提升,這充分證明臉表情、光照、角度的影響下,cdSRC和LLCSRC的表現(xiàn)不佳。主要是因?yàn)樵诤肼暤膱D像中,選取的圖像特征量的多少對(duì)分類效果有較大的影響。我們?nèi)诤狭薒LC思想和類依賴的特性得到的cdLLCSRC算法卻在少量特征條件下得到了很好的分類效果。這也充分表明了我們算法的有效性。
圖2是各個(gè)算法在三種不同的數(shù)據(jù)集上的識(shí)別率表現(xiàn),可以發(fā)現(xiàn)在人臉表情、光照、角度的影響下,cd?SRC和LLCSRC的表現(xiàn)不佳。主要是因?yàn)樵诤肼暤膱D像中,選取的圖像特征量的多少對(duì)分類效果有較大的影響。我們?nèi)诤狭薒LC思想和類依賴的特性得到的cdLLCSRC算法卻在很少的特征條件下得到了很好的分類效果。這也充分證明了我們算法的有效性。
圖2
圖3
圖4
本文提出了選擇局部編碼并融合歐幾里得距離信息來提升在噪聲條件下對(duì)人臉圖像的分類效果。實(shí)驗(yàn)表明我們的方法在低維條件下也能取得很好的分類效果。當(dāng)然,我們的算法涉及選擇局部編碼個(gè)數(shù)的參數(shù)K和權(quán)衡距離信息的平衡因子p。如何降低調(diào)參的復(fù)雜度,將是我們未來探索的方向。
[1]M.Elad,M.Aharon,Image Denoising Via Sparse and Redundant Representations Overlearned Dictionaries,IEEE Trans.Image Process,2006,15(12):3736-3745.
[2]J.Mairal,M.Elad,G.Sapiro,Sparse Representation for Color Image Restoration,IEEE Trans.Image Process,2008,17(1):53-69.
[3]T.Bai,Y.F.Li.Robust Visual Tracking with Structured Sparse Representation Appearance Model,Pattern Recognit,2012,45(6):2390-2404.
[4]X.Zhu,J.Liu,J.Wang,C.Li,H.Lu.Sparse Representation for Robust Abnormality Detection in Crowded Scenes,Pattern Recognit,2014,47(5):1791-1799.
[5]L.-C.Chen,J.-W.Hsieh,Y.Yan,D.-Y.Chen,Vehicle Make and Model Recognition Using Sparse Representation and Symmetrical Surfs,Pattern Recognit,2015,48(6):1979-1998.
[6]J.A.Wright,A.Y.Yang,A.Ganesh,S.S.Sastry,Y.Ma.Robust Face Recognition Via Sparse Representation,IEEE Trans.Pattern Anal.Mach.Intell,2009,31(2).
[7]K.Yu,T.Zhang,Y.Gong.Nonlinear Learning Using Local Coordinate Coding.Proc.of Nips'09,2009.
[8]W.Deng,J.Hu,J.Guo,Extended SRC:Undersea Mpled Face Recognition Via Intraclass Variant Dictionary,IEEE Trans.Pattern Anal.Mach.Intell,2012,34(9):1864-1870.
[9]S.T.Roweis,L.K.Saul.Nonlinear Dimensionality Reduction by Locally Linear Embedding,Science,2000,290(5500):2323-2326.
[10]E.Candes,T.Tao.Near-Optimal Signal Recoveryfrom Random Projections:Universal Encoding Strategie.