陳德運,付立軍+,張學(xué)松,于 梁,陳海龍,李 驁
1.哈爾濱理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,哈爾濱 150080
2.北京兆芯集成電路有限公司,北京 100084
3.酒泉衛(wèi)星發(fā)射中心,甘肅 敦煌 736200
機器學(xué)習(xí)是圖像分類、人工智能和計算機視覺方面重要技術(shù)[1]。圖像分類是機器學(xué)習(xí)的一個重要應(yīng)用。它已經(jīng)被廣泛地應(yīng)用到國防、公安偵查、電商以及人臉識別等領(lǐng)域中[2]。
然而,圖像分類技術(shù)在真實的應(yīng)用中仍然面對諸多挑戰(zhàn),尤其是人臉識別技術(shù),如:變化光照、不同程度的遮擋和多變的面部表情等。因此,如何更好表示圖像和提高圖像分類識別率成為學(xué)術(shù)界研究的熱點話題[3]。近20年來,許多專家和學(xué)者提出大量不同方法來解決以上難題[4-5]。其中,人臉識別問題是圖像識別的一個典型問題。利用嘴和眼睛等特征組合來識別個人身份,該方法被命名為幾何方法,該方法是簡單和容易實現(xiàn)的[6]。然而,它忽略了圖像各個部分之間的聯(lián)系,導(dǎo)致它在遮擋條件下識別個人身份是無效的。為了解決此問題,利用整張人臉全部信息來進行人臉識別,該方法被稱為基于表象的方法[7]。其中,主成分分析(principal component analysis,PCA)是典型的基于表象的方法,它能用不同的向量來表示整張圖像,并把求得協(xié)方差矩陣的特征作為圖像的特征[8]。PCA 方法有效地保留圖像的關(guān)鍵特征,同時在光照、變化表情上獲取不錯的效果。然而,PCA忽略了圖像各個部分之間的關(guān)系;PCA用向量表示導(dǎo)致原圖像的部分關(guān)鍵特征丟失;該算法具有較高的復(fù)雜度。為了彌補PCA的缺點,使PCA發(fā)揮出更好的效果,Yang等人[8]提出把整張圖像用矩陣表示,并用協(xié)方差來獲取圖像特征,該方法被稱為二維主成分分析(two-dimensional principal component analysis,2DPCA)。該方法不僅提升算法識別率,而且大大地提高了算法識別速度。
為了進一步提高圖像分類的精確率,由感知理論得到的稀疏算法成功地應(yīng)用到圖像分類中[9]。最初的稀疏算法的原理是假設(shè)一個給定的測試樣本可以由所有訓(xùn)練樣本線性表示,并獲得線性表示的系數(shù)。在分類時,利用每類的所有訓(xùn)練樣本和系數(shù)來獲得預(yù)測值,所有類的預(yù)測值與給定測試樣本做差(2范式運算),差值最小的類別即給定測試樣本的類別,這鐘方法被稱為一般稀疏算法。稀疏方法在圖像分類上獲得巨大成功。然而,最初的稀疏表示在獲得線性表示的系數(shù)時用的1范式求解,增加了算法的復(fù)雜度,嚴重地降低算法的效率。Zhang 等人用2范式來求線性表示的解,有效地提高算法運算效率,該算法被稱為協(xié)同表示方法[10]。1范式的一般稀疏算法比2范式的協(xié)同稀疏方法更加稀疏,但是協(xié)同稀疏比1范式的一般稀疏具有較低的時間復(fù)雜度。因此,結(jié)合它們各自優(yōu)勢運用在圖像分類或圖像識別上是一個趨勢[11]。本文在第3章會詳細介紹一般稀疏算法和協(xié)同表示方法。除此之外,邏輯回歸方法也被用到圖像分類并取得不錯的效果[12]。Xu等人提出利用減少噪聲方法來進行圖像識別[13]。Qin等人利用加權(quán)核方法來抽取圖像特征,進而進行圖像分類[14]。單一的方法在圖像特征提取過程中,在不同場景下會遺漏一些重要特征,因此利用多種方法來表示圖像成為近年來的研究熱點[15]。
Ross等人[16]利用人臉、掌紋和頭部幾何來提高生物測量學(xué)系統(tǒng)的性能。Jain 等人[17]利用用戶具體參數(shù)來提高多生物測量學(xué)系統(tǒng)的性能。Fei等人提出用低秩和自適應(yīng)的距離懲罰方法來進行圖像分類[18]。也有學(xué)者把主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)結(jié)合來識別圖像[19]。韓等人提出利用線性判別分析(linear discriminant analysis,LDA)進行圖像分類[20]。此外,圖像技術(shù)在霧霾和美顏相機方面也有很多應(yīng)用[21-22]。因此,融合方法在模式識別、圖像處理和計算機視覺領(lǐng)域研究中有重要的影響[23]。恰當?shù)娜诤蠙C制能在圖像分類中獲取好的性能。融合機制已經(jīng)成功應(yīng)用到視頻檢測[24]、圖像識別[25]和語音識別[26]等實際應(yīng)用中?,F(xiàn)有的融合機制主要在以下三個水平上進行融合[16]:決策水平、特征水平和得分水平。本文分別介紹三種水平上的融合:決策水平融合是以上三種水平融合中最簡單的一種。但它沒有用樣本的太多信息,導(dǎo)致融合效果不是太好。特征水平融合將原樣本的不同特征進行融合,這增加了原樣本特性的魯棒性。但不同特征有時在特征融合過程中產(chǎn)生不兼容的現(xiàn)象。因此,得分融合和其他兩種融合方法相比是效果最好的?,F(xiàn)有的融合機制能將不同方法所獲取到特征的得分進行融合,之后用新得分來進行分類。
基于以上理論支持,本文提出的基于多種表示的圖像識別方法是合理的。其具體為:首先,本文利用2DPCA方法來提取圖像的特征;其次,利用提取的特征進行圖像重構(gòu)(這里稱為虛擬圖像);然后,利用FFT(fast Fourier transform)來提取圖像的頻譜特征;接著,用虛擬臉、獲得的頻譜特征和原始圖像分別利用一般稀疏算法或協(xié)同表示進行分類獲得得分;最后,利用一種融合機制將獲得的三個得分進行融合獲得新的得分,同時利用新獲得得分和一般稀疏算法或者協(xié)同表示進行分類。本文利用加權(quán)得分方法將獲得的三種不同圖像特征進行融合,這能提高圖像分類的性能。另一方面,獲得的三種不同圖像特征是互補的,這使得提出算法享有更好的魯棒性。本文提出的算法具有稀疏性,稀疏性有利于降低圖像分類的出錯率。此外,該算法能自動獲取參數(shù),無需手動設(shè)置,它是簡單和容易實現(xiàn)的。本文在AR[27]、ORL[28]和GT[29]等不同場景的公開數(shù)據(jù)庫上設(shè)計實驗,實驗表明,本文提出算法在圖像識別上具有低的出錯率和在不同場景下具有良好的靈活性與魯棒性。
本文的主要貢獻如下:
(1)從多視角來增強圖像分類的性能,提出將頻率特征(FFT)與降維特征2DPCA進行融合。
(2)融合FFT特征和2DPCA特征進行圖像分類。
(3)采用巧妙的加權(quán)機制來融合(2)中特征。
本文組織結(jié)構(gòu)如下:第2章說明多種方法的圖像表示;第3章展現(xiàn)多種特征的得分獲取、融合以及圖像分類;第4章展示提出方法性能;第5章呈現(xiàn)AR、ORL和GT數(shù)據(jù)庫上的提出方法與對比實驗結(jié)果;第6章給出本文的結(jié)論。
PCA是一種經(jīng)典的特征提取方法。它是通過把二維圖像轉(zhuǎn)化為向量來提取圖像的特征。保留圖像關(guān)鍵的特征,在圖像分類上有較好的精確率。但它用向量表示圖像,忽視圖像像素點之間的關(guān)系,獲得的特征可能丟失一些關(guān)鍵信息,同時用向量表示圖像效率比較低。2DPCA 方法彌補了PCA 的缺點。2DPCA 主要是通過矩陣來表示圖像,然后通過協(xié)方差矩陣來提取圖像特征進而進行圖像分類。2DPCA在圖像分類上具有良好魯棒性,同時還有較低的時間復(fù)雜度。本文利用2DPCA 來提取圖像的特征,并重構(gòu)圖像(這里稱為虛擬圖像)來表示原圖像[30]。下面具體介紹虛擬圖像的構(gòu)建過程:
這里假設(shè)每幅圖像的大小為m×n,圖像用矩陣A來表示,A的映射向量為m,矩陣A提取的特征向量為f,轉(zhuǎn)化過程如式(1)所示:
當mTGtm取得最大時候,f能取得最優(yōu)。其中,Gt為協(xié)方差矩陣。mTGtm最大的取值問題就能被轉(zhuǎn)換為求協(xié)方差最大特征向量問題。此特征向量是最大特征值對應(yīng)的特征向量。
通過式(2)和式(3)求出協(xié)方差矩陣Gt。
在式(2)中Aˉ代表所有矩陣的平均值,N代表矩陣的個數(shù)。假設(shè)協(xié)方差矩陣Gt的特征向量為v,本文能通過特征抽取來構(gòu)建虛擬圖像,具體如式(4)所示:
在式(4)中Y′代表虛擬圖像。獲得虛擬圖像和原圖像形成互補,提高圖像分類的準確率。將在第4章展示虛擬圖像。
FFT 是機器學(xué)習(xí)、計算機視覺、人工智能的重要技術(shù)。本文用FFT來提取圖像頻譜特征[31],它表示原圖像的流程如下:
FFT是高效和快速的離散傅里葉算法,即FFT算法是離散的傅里葉算法。下面先說明離散的傅里葉算法(discrete Fourier transform,DFT)的推導(dǎo)過程[31]。假設(shè)S(k)代表長度為L的有限序列。
根據(jù)式(7)中FFT 的奇偶性,這樣能近一步轉(zhuǎn)化式(8)。
然后,根據(jù)k的奇偶性來簡化式(7)。當k是偶數(shù),令能進一步簡化式(7)。在式(7)中分別定義序列x(n)的奇數(shù)項x1(n)和偶數(shù)項x2(n)。
當k為奇數(shù),令k=2r+1,能進一步簡化式(7)為式(10)。在式(10)中
因為灰度圖像是二維的,所以需要用二維FFT算法來提取圖像特征。二維的FFT 算法以一維FFT 算法為基礎(chǔ)。這里假設(shè)Ai代表大小為M×N和像素點為f(x,y)的圖像。0 ≤x≤M-1,0 ≤y≤N-1,υ=0,1,…,M-1和υ=0,1,…,N-1。二維的FFT提取頻譜特征如式(11)。
為了更直觀地展示FFT特征抽取的過程,用下面?zhèn)未a[31]來表示它。
FFT算法用在稀疏表示上有稀疏性,這有利于圖像分類,將在第3章展示其稀疏性。
稀疏是解決圖像分類的最佳方法之一,尤其在解決小樣本問題上。稀疏方法是用所有的類別訓(xùn)練樣本來線性表示測試樣本,并求出線性組合的系數(shù),然后用每類的所有訓(xùn)練樣本和給定的測試樣本來計算每類的殘差,殘差最小即測試樣本就屬于這類。
稀疏方法的具體流程如下[32-33]:假設(shè)c代表樣本的個數(shù),Ai代表第i類別的所有訓(xùn)練樣本。令A(yù)=和y代表一個測試樣本。這個測試樣本y能被表示為y=Aw。系數(shù)w越稀疏,y的類別就越容易被劃分。因此能獲得稀疏解,如式(12)所示:
通過式(13)能求出線性表示的解,用每類的所有測試樣本和獲取的系數(shù)來重構(gòu)預(yù)測的測試樣本代表第i類預(yù)測出來的測試樣本,如式(13)所示:
利用式(14)計算重構(gòu)第i類的誤差ri(y)。
由文獻[31]可知,式(13)中稀疏解的具體表示形式如式(15)所示:
由式(16)可以量化式(15)表達式:
在式(16)中,1 ≤j≤M,a(j-1)n+i代表Ai第(j-1)n+i個元素。算出所有類別中最小的即為測試樣本的類別,在3.3節(jié)中具體說明圖像怎么得到類別。
一般稀疏表示在圖像分類中有較好的效果,但它有高的算法復(fù)雜度。協(xié)同的系數(shù)表示能有效解決這個問題,求解部分幾乎和3.1節(jié)的相同,只有在求解稀疏系統(tǒng)時候協(xié)同稀疏表示用的2范數(shù)求解,具體如下:
根據(jù)前面介紹理論基礎(chǔ)可知,得分融合是一種有效提高圖像分類精確度的方法。本節(jié)利用一種新的融合機制[33]來融合2DPCA、FFT和原始圖像的得分并利用稀疏方法進行分類。其實現(xiàn)原理如下:
利用一種新的融合機制[11,34-37]來融合它們得分,新獲得的得分為r,具體如式(18):
在式(18)中,r1代表2DPCA 方法在協(xié)同表示分類(collaborative representation classification,CRC)(fast iterative shrinkage thresholding algorithm,F(xiàn)ISTA/L1 iterative soft thresholding algorithm,LISTA)上獲得得分,r2代表FFT提取的頻譜特征在CRC(FISTA/LISTA)上獲得的得分,r3代表原始圖像在CRC(FISTA/LISTA)上獲得的得分。
前面的研究已經(jīng)說明這種融合機制是合理的[11,16],用式(19)來分類。如果,本文提出方法認為測試樣本y屬于第g類[11]。
本文提出的方法有以下優(yōu)點:(1)在不同情景下具有高的圖像分類精確率。(2)獲取的多特征和原始圖像進行了互補,這使獲得算法更具有魯棒性。(3)提出方法具有稀疏性,提高了圖像分類的性能。(4)它能自動獲取參數(shù),不需要手動調(diào)參。(5)本文方法是簡單和容易實現(xiàn)的。
本文有效地將2DPCA、FFT 提取的特征和原圖像相結(jié)合來進行圖像分類,為了使讀者直觀可視化了解本文的原理,在本章分別展示2DPCA 的虛擬圖像、FFT和稀疏融合后的稀疏系數(shù)。
由于2DPCA 方法在圖像處理、計算機視覺和模式識別上被廣泛地應(yīng)用,本文用2DPCA 方法[30]提取圖像的特征,并通過特征抽取的方法重構(gòu)虛擬圖像。虛擬圖像和原圖像信息互補,虛擬圖像有利于提高圖像分類的準確率,虛擬圖像[30]如圖1所示。
Fig.1 5 original images and corresponding virtual images from ORL database圖1 來自O(shè)RL數(shù)據(jù)庫的5幅原始圖像與對應(yīng)虛擬圖像
在圖1中,上邊5幅圖是虛擬圖像,下邊5幅圖像是ORL數(shù)據(jù)庫的原人臉圖像。
FFT 方法是快速和高效的DFT 方法。它在信號處理和圖像處理上取得良好的性能。FFT 方法分為時間算法和頻率算法,本文用到FFT頻率算法,提取的頻譜特征能有效表示原圖像,它和稀疏方法融合具有稀疏性,稀疏性有利于提高圖像分類的精確率。從圖2中可以看出,F(xiàn)FT在CRC上向量解中大部分元素值都接近0,這再次說明本文方法具有稀疏性。
Fig.2 Sparse solution of FFT on CRC圖2 FFT在CRC上的稀疏解
為了測試本文方法的性能,用ORL、GT和AR數(shù)據(jù)庫來設(shè)計實驗。為了展示本文提出方法在圖像分類上的高精確率,用快速迭代方法(fast iterative shrinkage thresholding algorithm,F(xiàn)ISTA)[37]、協(xié)同表示分類(collaborative representation classifier,CRC)[35]、迭代收縮閥值方法(iterative shrink thresholding algorithm,ISTA)[38]和MPSR(multiple representations and sparse representation for image classification)[36]來制作對比實驗。在表1~表3中,F(xiàn)FT+2DPCA+Original images+CRC(FISTA/LISTA)代表FFT、2DPCA 和原始圖像利用CRC方法分類,之后進行得分融合。其得分在ORL、GT、AR數(shù)據(jù)中獲得出錯率。2DPCA+CRC(FISTA/LISTA)是2DPCA 在稀疏方法為CRC(FISTA/LISTA)時在不同數(shù)據(jù)集上的分類結(jié)果。Original images+CRC(FISTA/LISTA)代表原始圖像在ORL、GT 和AR 數(shù)據(jù)集上用CRC(FISTA/LISTA)進行圖像分類的結(jié)果。
在本節(jié),ORL數(shù)據(jù)集[28]被用來測試提出方法的性能。ORL數(shù)據(jù)庫是于1992年4月到1994年4月劍橋大學(xué)采集的。該數(shù)據(jù)庫采集于40個人,每個人采集10幅圖像。該數(shù)據(jù)庫是在不同的面部表情變化、光照和遮擋條件下采集的。每幅圖像的大小為56×46,每幅圖像的格式為“.bmp”。圖3顯示ORL的部分圖像。
Fig.3 Partial images of ORL圖3 ORL的部分圖像
表1顯示在ORL 數(shù)據(jù)集上圖像的出錯率。在表1中,F(xiàn)FT、2DPCA和原始圖像進行融合,在圖像中獲取低的出錯率。在此表中協(xié)同表示分類方法用CRC表示。從表1中可知,本文提出方法在ORL 數(shù)據(jù)集上有低的出錯率。如:當分類器為CRC時,本文方法在ORL數(shù)據(jù)集上每類訓(xùn)練樣本的個數(shù)從2到5時,方法的出錯率為8.13%、8.13%、7.86%、4.58%和6.00%。而原始圖像在用CRC分類時,它在每類訓(xùn)練個數(shù)為2到5時,它的出錯率為19.69%、19.69%、18.93%、14.58%和18.00%。通過表1可知,本文方法比目前主流的方法MPSR[36]和一般的融合方法如LISTA+Gabor[36]效果好,再次證明本文方法在圖像識別上具有良好的效果。
本文提出方法明顯優(yōu)于其他經(jīng)典算法,多種方法加權(quán)融合能提高圖像分類的性能,具體信息請參考文獻[11,16,34,36]。
在本節(jié),GT 數(shù)據(jù)集[29]被用來測試本文提出方法的性能。GT數(shù)據(jù)庫是佐治亞理工學(xué)院在1999年6月1日到11月15日采集的。該數(shù)據(jù)庫采集于50個人,每個人采集15幅圖像。該數(shù)據(jù)庫是在不同的表情變化和光照下采集的。每幅圖像的大小為40×30,每幅圖像的格式“.jpg”。GT數(shù)據(jù)集的10幅圖片如圖4所示。
Fig.4 Partial images of GT圖4 GT的部分圖像
據(jù)前面理論可知,提出方法在GT數(shù)據(jù)集上有低的出錯率。如:當分類器為LISTA時,本文方法在GT數(shù)據(jù)集上每類訓(xùn)練樣本的個數(shù)從10到14時,出錯率為20.80%、21.50%、22.00%、18.00%和18.00%。而原始圖像在用2DPCA+LISTA分類時,它在每類訓(xùn)練個數(shù)為10到14時,出錯率為28.00%、27.00%、26.00%、23.00%和20.00%。本文提出方法明顯優(yōu)于其他經(jīng)典算法。但是從表2中可知有時用CRC分類不如GT的部分圖像FISTA和LISTA效果好,故在實驗中要根據(jù)不同應(yīng)用情景靈活運用CRC、FISTA以及LISTA。
在本部分,AR 數(shù)據(jù)集[27]被用來測試本文提出方法的性能。AR數(shù)據(jù)庫是俄亥俄州立大學(xué)在1999年6月1日到11月15日采集的。該數(shù)據(jù)庫采集于126個人,共超過4 000多幅圖像。該數(shù)據(jù)庫是在不同的表情變化、光照和遮擋下采集的。每幅圖像的大小為50×40,每幅圖像的格式為“.tif”,在本實驗中訓(xùn)練數(shù)據(jù)用52個個體,每個個體26個圖像。圖5顯示AR的部分圖像。
Table 1 Image error rate on ORL dataset表1 在ORL數(shù)據(jù)集上圖像的出錯率
Table 2 Image error rate on GT dataset表2 在GT數(shù)據(jù)集上圖像的出錯率
Table 3 Image error rate on AR dataset表3 在AR數(shù)據(jù)集上圖像的出錯率
Fig.5 Partial images of AR database圖5 AR數(shù)據(jù)庫的部分圖像
表3顯示在AR數(shù)據(jù)集上圖像的出錯率。
在圖像中獲取低的出錯率。在表3中協(xié)同表示分類方法用CRC 表示。從表3中可知,提出方法在AR 數(shù)據(jù)集上有低的出錯率。如:當分類器為CRC時,本文方法在AR數(shù)據(jù)集上每類訓(xùn)練樣本的個數(shù)從10到14時,本文方法的出錯率為25.84%、17.05%、18.68%、19.97%和6.41%。而原始圖像在用2DPCA+FISTA分類時,它在每類訓(xùn)練個數(shù)為10到14時,它的出錯率為51.92%、51.92%、40.93%、39.79%和35.74%。本文提出方法明顯優(yōu)于其他經(jīng)典算法。但是從表3中可知有時用CRC分類不如FISTA和LISTA效果好,故在實驗中要根據(jù)不同應(yīng)用情景靈活運用CRC、FISTA以及LISTA。但從表1、表2和表3可以看出提出的方法在遮擋、不同光照以及面部表情變化上表現(xiàn)出好的性能,因此本文方法具有較好的穩(wěn)定性和魯棒性。
本文提出多種方法來表示圖像,該方法有效地將多種特征結(jié)合起來,這有利于不同情景下圖像分類。同時該方法能自動設(shè)置參數(shù),而不是手動設(shè)置。此外,該方法是簡單的和容易實現(xiàn)的。本文提取的方法具有稀疏性,這也是提高圖像分類精確率的一個重要原因。通過大量實驗證明,該方法具有好的應(yīng)用性。在今后的研究中,將把稀疏和深度學(xué)習(xí)相結(jié)合來進行圖像分類。