孫玲 陳德運 李驁 付立軍 楊潤 于梁
摘 要:快速傅里葉變換(FFT)方法已經(jīng)在圖像識別中有廣泛的應(yīng)用。但是,F(xiàn)FT方法面臨一些挑戰(zhàn),比如:不同角度的遮擋、變化的光照和多變的面部表情等。將快速傅里葉變換和特征空間的圖像表示方法融合起來解決上述問題。有以下階段:①使用FFT從原始圖像中提取頻譜特征。②利用高斯核方法在特征空間中獲得新的特征。新的特征和原始圖像的訓(xùn)練樣本分別使用稀疏表示來獲得稀疏解。新的特征和原始圖像的測試樣本可以使用上述稀疏解及其訓(xùn)練樣本來分別計算得分。隨后,可以利用得分和新得分進行圖像分類。這一方法在圖像分類上具有稀疏性和魯棒性,非常容易實現(xiàn)。實驗結(jié)果表明,本文提出的方法在圖像分類上具有高的準確率。
關(guān)鍵詞:圖像識別; FFT;基于特征空間方法
DOI:10.15938/j.jhust.2020.06.020
中圖分類號: TP317.4
文獻標志碼: A
文章編號: 1007-2683(2020)06-0137-05
FFT Consolidated Feature Space Methods for Image Representation
SUN Ling1, CHEN De-yun1, LI Ao1, FU Li-jun1, YANG Run2, YU Liang3
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
3.Jiuquan Satellite Launch Center, Dun Huang 736200, China)
Abstract:Fast Fourier Transform (FFT) method has been widely used in image recognition. However, FFT method faces some challenges, such as occlusion of different angles, varying lighting and changeable facial expression. We combine fast Fourier transform and feature space image representation method to solve the above problems. There are the following stages: ①Use FFT to extract spectral features from the original image. ②Use Gaussian kernel method to obtain new features in the feature space. The new features and the training samples of the original image use sparse representations to obtain sparse solutions. The new features and the test samples of original image can use the aforementioned sparse solution and its training samples to calculate scores respectively. Subsequently, the score and the new score can be used for image classification. This method has sparseness and robustness in image classification, and is very easy to implement. Experimental results show that the method proposed in this paper has high accuracy in image classification.
Keywords:image recognition; FFT; feature space-based method
0 引 言
圖像表示是一項重要的識別技術(shù),圖像表示被廣泛地應(yīng)用到人臉識別、掌紋識別、遙感和醫(yī)學(xué)診療等多個領(lǐng)域[1]。在過去幾年中,學(xué)者們已經(jīng)提出了多種圖像分類方法[2],尤其在人臉識別方面。然而,圖像分類技術(shù)在現(xiàn)實的應(yīng)用中仍然面臨諸多挑戰(zhàn),如:不同角度的遮擋、變化的光照和多變的面部表情等[3-4]。因此,如何更好地表示圖像和提高圖像分類性能成為研究的熱點。
圖像分類需要更多的訓(xùn)練樣本來挖掘在不同條件下的圖像特征。然而,到目前為止,所收集的圖像受到采集的空間和環(huán)境的限制,導(dǎo)致在實際中有用的訓(xùn)練樣本數(shù)量非常有限。尤其,在某些環(huán)境下,每類的訓(xùn)練樣本數(shù)量只有一個,如:護照系統(tǒng)。以上例子說明不充足的訓(xùn)練樣本限制了人臉識別技術(shù)的發(fā)展[5]。
為了提高人臉識別技術(shù),近年來一些學(xué)者提出了不同的方法來解決上述難題[6]。合成圖像是增強樣本的最常用的方法。例如,Sharma等[7]提出在變化的照明和不固定的姿勢下使用單個2D圖像來生成虛擬圖像。該方法利用合成訓(xùn)練樣本來對測試樣本(也稱為識別面)進行分類。Beymer等[8]提出利用不同姿勢的面部圖像生成虛擬圖像,然后利用原始圖像和虛擬圖像來識別身份;Tang等[9]采用光流和表達定量圖像構(gòu)建虛擬圖像,擴展了訓(xùn)練樣本數(shù)量,提高了圖像分類的正確率;Jung等[10]使用噪音來獲取損壞的圖像;Thian等[11]利用簡單的幾何變換構(gòu)建虛擬圖像;Thomes[12]采用單個正面人臉來生成3D人臉模型。生成的虛擬圖像用于處理一個訓(xùn)練樣本問題[13-14]。單一的方法在圖像特征提取過程中,在不同場景下會遺漏一些重要特征,因此,利用多種方法融合來表示圖像已成為近年來的研究熱點。
以上的研究表明訓(xùn)練樣本問題在圖像處理上已經(jīng)引起了很多的關(guān)注,許多學(xué)者提出了不同的方案來解決這個問題[15-16]。例如,Xu等[17]利用所獲得的鏡面和原始面部圖像整合以識別人臉。Wang等[18]將Gabor和二維主成分分析(2DPCA)融合用于人臉識別,其獲得的精度高于單一2DPCA和(最近鄰)NN以及NN和Gabor的組合。Yang等[19]利
用完整的字典來獲得稀疏系數(shù)表示原始圖像。該方法利用選擇最大融合規(guī)則來組合所獲得的系數(shù),通過組合系數(shù)構(gòu)建新圖像。它可以融合新圖像和原始圖像來獲得分數(shù)并使用稀疏分類器來分類圖像,對圖像識別有很好的作用。 Kong等[20]使用生化離子交換模型來解決多焦點圖像融合技術(shù)的問題。
我們注意到圖像的多種表示不僅能擴充訓(xùn)練樣本,而且提出一個強魯棒性的圖像識別方法[21]。因此,我們提出一種FFT協(xié)同特征空間的圖像表示方法。這種方法首先可以使用FFT算法從原始圖像中提取頻率特征。并且,我們可以將頻率特征和原始圖像分別分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分??梢岳酶咚购朔椒ㄔ谔卣骺臻g中獲得新的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,這對應(yīng)于原始圖像中的原始圖像和頻率特征。使用所有訓(xùn)練樣本來線性表示測試樣本并獲得線性系數(shù),分別獲得與原始圖像和頻率特征相對應(yīng)的分數(shù)。融合上述操作所獲得的分數(shù)以獲得新分數(shù)用于分類圖像。這種新方法首先集成了FFT和基于特征空間的表示,這對圖像分類更有效。它提取頻率特征與原始圖像互補,該方法是非常容易實現(xiàn)的。同時,具有稀疏性,這使得圖像表示有更高的準確性。為了測試所提方法的性能,我們選擇公共數(shù)據(jù)集Georgia Tech(GT)[22]和(Aleix Martinez與Robert Benavente)(AR)[23]來進行實驗。
1 提出的方法
1.1 獲取原始圖像的特征
快速傅里葉變換(FFT)是離散傅里葉變換(DFT)的快速算法[24]。它已廣泛應(yīng)用于信號處理、計算機視覺和模式識別領(lǐng)域。本文使用FFT算法從原始圖像中提取頻率特征。DFT和FFT算法[4]描述如下。我們假設(shè)有限序列的長度是x(c)。DFT算法由等式(1)表示:
X(c)=DFT[x(n)]=∑l-1n=0x(n)wnlN =
∑l/2-1n=0x(n)wnlN+∑l-1n=N/2x(n)wnlN,c=0,1,…,l-1(1)
當(dāng)n′=n-l2將式(1)轉(zhuǎn)換成式(2):
X(c)=∑l/2-1n′=0[x(n′)+wc*l/2lx(n′+l/2)]wn′cl(2)
當(dāng)c為偶數(shù)時,(-1)c為1,c=2r(r=0,1,…,l/2-1)
當(dāng)c為奇數(shù)時,(-1)c為-1,c=2r+1。
因此,我們可以將(2)簡化為式(3)和(4)
X(2r)=[∑l/2-1n=0x(n′)+x(n′+l/2)]w2n′rl=
∑l/2-1n′=0x1(n′)wn′rl/2=DFT[x1(n′)]l/2(3)
X(2r+1)=∑l/2-1n′=0[x(n′)-
x(n′+l/2)]wn′lw2n′rl=
∑l/2-1n??????? ′=0x2(n′)wn′rl/2=DFT[x2(n′)]l/2(4)
因為圖像是二維的,所以我們可以模仿一維FFT來獲得二維FFT。 假設(shè)f(x,y)它代表一個原始圖像,其大小是矩陣M×N。并用來表示要獲得的頻率變量F(u,v)。
當(dāng)0≤x≤M-1,0≤y≤N-1,u=0,1,2,…,M-1和u=0,1,2,…,N-1時
F(u,v)=DFT[f(x,y)]=
∑M-1x=0∑N-1y=0f(x,y)e-j2π(ux/M+vy/N)(5)
1.2 獲得新的表示方法
本文利用FFT提取頻率特征,利用核方法在核空間提取特征,并利用稀疏方法分別獲得分數(shù)。最后,融合以上獲得的分數(shù)并使用新分數(shù)對圖像進行分類。我們可以利用Ref [25]分別獲得原始圖像和頻率特征的誤差ek=‖KY-gk‖2。此外,ek=‖KY-gk‖2可用來評價原始圖像和頻率特征圖像分類的誤差效果。
2 本文表示方法的優(yōu)點
本文表示方法在圖像分類上具有稀疏性和高準確率。在數(shù)據(jù)集GT上驗證其性能。
圖1表示當(dāng)訓(xùn)練樣本的數(shù)量1~100時特征空間中的原始圖像的值。圖2表示當(dāng)訓(xùn)練樣本數(shù)量1~100時在特征空間中獲得的特征和原始圖像的值。如圖1和圖2所示,特征空間中獲得的特征和原始圖像的值比特征空間中的原始圖像的值更接近0。
當(dāng)訓(xùn)練樣本的數(shù)量1~100時所提出的方法具有部分稀疏性,這使得它具有更高的圖像識別精確率。
3 方法性能驗證
使用公開的GT和AR數(shù)據(jù)集來進行實驗并驗證所提出方法的性能。同時,在特征空間中使用單個獲得的頻率特征和單個原始圖像進行對比實驗。
3.1 GT數(shù)據(jù)集
GT人臉數(shù)據(jù)集從50個不同的測試者中獲得,每個測試者具有15個樣本。這些圖像是佐治亞理工學(xué)院1990年7月1日至1999年11月15日之間收集的。這些圖像包括不同的面部表情和不同的光照條件。圖像保存為“.jpg”格式。圖3顯示了來自GT面部數(shù)據(jù)集的部分面部圖像。
使用每個類中不同數(shù)量的圖像作訓(xùn)練樣本,并且每個類的其他圖像被用作測試樣本。如表1所示,顯示了圖像在GT數(shù)據(jù)集中分類的錯誤率。在表1中,獲得的特征頻率和原始圖像被融合并用于特征空間中的圖像進行分類,從而降低錯誤率。
3.2 AR數(shù)據(jù)集
AR人臉數(shù)據(jù)集用于設(shè)計實驗。AR數(shù)據(jù)集來自126個不同的測試者。這些照片由Aleix Martinez和Robert Benavente收集。這些圖像包括不同的面部表情和不同的遮擋。圖像保存為“.bmp”格式。 圖4示出了來自AR面部數(shù)據(jù)集的部分面部圖像。
使用每個類中不同數(shù)量的圖像用作訓(xùn)練樣本,并且每個類的其他圖像被用作測試樣本。如表2所示,顯示了圖像在AR人臉數(shù)據(jù)集中分類的錯誤率。在表2中,獲得的特征頻率和原始圖像被融合并用于對特征空間中的圖像進行分類,從而降低錯誤率。
4 結(jié) 論
提出了一種基于快速傅里葉變換和特征空間的圖像分類方法,使得特征與原始圖像互補。此外,該方法簡單且容易實現(xiàn)。本文提出的方法具有稀疏性和魯棒性,這是提高圖像分類準確率的一個重要原因。實驗證明,該方法具有良好的實際應(yīng)用價值。
參考文獻:
[1] XU Yong, ZHU Xingjie, LI Zhengming, et al. Using the Original and ‘Symmetrical Face Training Samples to Perform Representation Based Two-step Face Recognition [J]. Pattern Recognition, 2013, 46(4):1151.
[2] TIAN Chunwei, ZHANG Qi, SUN Guanglu, et al. Multiple Methods for Wechat Identification [C] // 2016 6th International Conference on Advanced Design and Manufacturing Engineering (ICADME 2016), Zhuhai, China. July 23-24 2016, 2016:598.
[3] TIAN Chunwei, ZHANG Qi, SUN Guanglu, et al. Linear Discriminant Analysis Representation and CRC Representation for Image Classification [C] // 2016 2nd IEEE International Conference on Computer and Communications, Chengdu, China. October 14-17, 2016:755.
[4] XU Yong, ZHANG Bob, ZHONG Zuofeng. Multiple Representations and Sparse Representation for Image Classification[J]. Pattern Recognition Letters, 2015, 68(S1):9.
[5] PISHCHULIN L, GASS T, DREUW P. et al. Image Warping for Face Recognition: From Local Optimality Towards Global Optimization[J]. Pattern Recognition, 2012, 45(9):3131.
[6] WEN Jie, FANG Xiaozhao, XU Yong, et al. Low-rank Representation with Adaptive Graph Regularization[J]. Neural Networks. 2018, 108:83.
[7] SHARMA A, Dubey P, Tripathi, et al. Pose Invariant Virtual Classifiers from Single Training Image Using Novel Hybrid-eigenfaces[J]. Neurocomputing, 2010,73(10/12):1868.
[8] BEYMER D, POGGIO T. Face Recognition from One Example View [C] // IEEE International Conference on Computer Vision, Cambridge, USA. June 20-23, 1995:500.
[9] TANG Bin, LUO Siwei, HUANG Hua. High Performance Face Recognition System by Creating Virtual Sample [C] // Proceedings of 2003 International Conference on Neural Networks and Signal Processing, 2003:972.
[10]JUNG H, HWANG B, LEE S. Authenticating Corrupted Face Image Based on Noise Model [C] // Proceedings-Sixth IEEE International Conference on Automatic Face and Gesture Recognition, Seoul, Korea. May 17-19,2004:272.
[11]THIAN N P H, MARCEL S, BENGIO S. Improving Face Authentication Using Virtual Samples [C] // 2003 IEEE International Conference on Accoustics, Speech, and Signal Processing Hong Kong, China,? April 6-10, 2003:233.
[12]THOMAS V. Synthesis of Novel Views from a Single Face Image [J]. International Journal of Computer Vision, 1998, 28(2):103.
[13]PARTHA N, FEDERICO G, TOMASO P. Incorporating Prior Information in Machine Learning by Creating Virtual Examples [J]. Proceedings of the IEEE. 1998, 86(11):2196.
[14]MARTINEZ A M. Matching Expression Variant Faces [J]. Vision Research, 2003,43(9):1047.
[15]FEI Luke, XU Yong, TANG Wenliang, et al. Double-orientation Code and Nonlinear Matching Scheme for Palmprint Recognition [J]. Pattern Recognition, 2016, 49:89.
[16]TIAN Chunwei, ZHANG Qi, SUN Guanglu, et al. Weighted Nearest Neighbor Algorithm and Collaborative Representation for Image Classification[J]. Journal of Computational and Theoretical Nanoscience, 2016, 13(12):9065.
[17]XU Yong, LI Xuelong, YANG Jian, et al. Integrate the Original Face Image and its Mirror Image for Face Recognition [J]. Neurocomputing, 2014, 131:191.
[18]WANG Jian, CHENG Jian. Face Recognition Based on Fusion of Gabor and 2DPCA Features [C] // ISPACS 2010-2010 International Symposium on Intelligent Signal Processing and Communication Systems, 2010:5704688.
[19]YANG Bin, LI Shutao. Multifocus Image Fusion and Restoration with Sparse Representation [J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(4):884.
[20]KONG Weiwei, LEI Yang. Multi-focus Image Fusion Using Biochemical Ion Exchange Model [J]. Applied Soft Computing Journal 2017, 51:314.
[21]XU Yong, FEI Lunke, ZHANG David. Combining Left and Right Palmprint Images for More Accurate Personal Identification [J]. IEEE Transactions on Image Processing, 2015, 24(2):549.
[22]GOEL N, BEBIS G, NEFIAN A. Face recognition experiments with random projection. Proceedings of SPIE -The International Society for Optical Engineering,2005,5779:426.
[23]MARTINEZ A, BENAVENTE R. The AR face database[J]. CVC Technical Report #24, 1998: 1.
[24]FIALKA O, CADIK M. FFT and Convolution Performance in Image Filtering on GPU [C] // Proceedings of the International Conference on Information Visualisation, London, United Kingdom. July 5-7, 2006:609.
[25]TIAN Chunwei, ZHANG Qi, ZHANG Jian, et al. 2D-PCA Representation and Sparse Representation for Image Recognition[J]. Journal of Computational and Theoretical Nanoence, 2017, 14(1):829.
(編輯:溫澤宇)
收稿日期: 2019-05-15
基金項目: 國家自然科學(xué)基金(61501147);黑龍江省自然科學(xué)基金優(yōu)秀青年項目(Grant YQ2019F011);黑龍江省青年創(chuàng)新人才計劃(Grant UNPYSCT-2018203);黑龍江省高等學(xué)?;究蒲袠I(yè)務(wù)專項(Grant LGYC2018JQ013).
作者簡介:
孫 玲(1983—),女,碩士研究生;
陳德運(1962—),男,教授,博士研究生導(dǎo)師.
通信作者:
付立軍(1985—),男,博士研究生,講師,E-mail:fulijun85@163.com.